侵权投诉
订阅
纠错
加入自媒体

一文详解“数据门”:剑桥分析如何“暗箱操控”总统选举

2018-05-08 09:39
来源: 猎云网

一文详解“数据门”:剑桥分析如何“暗箱操控”总统选举

从Facebook窃取的8700万用户数据是如何成为帮助选举的广告活动的?收集的大量数据实际上涉及了什么?那些数据告诉了我们什么?

剑桥分析丑闻引发了一个接一个问题,但对许多人来说,该公司的技术专利仍然是一个谜。

8700万被窃取信息的用户可能想要知道自己的数据到底被用来做了什么,所以我又重新采访了剑桥分析前雇员Christopher Wylie,正是他向媒体曝光了公司的运作问题。根据Wylie的说法,你所需要知道的只是关于数据科学、无聊的富裕女性以及一些有关人类心理学的内容。

他说:“当你构建一个算法时,你首先需要创建一个训练集。”也就是说,无论你想要使用奇特的数据科学来发现什么,你首先需要以老派的方式进行收集。 在使用Facebook点赞情况预测一个人的心理状况之前,你需要让几十万人来做个性测验。

所谓的训练集,就是指Facebook点赞数据集、个性测试以及其他你想要了解的整个数据。最重要的是,它需要包含你的“功能集”,即你想要进行预测的基础数据。Wylie说:“在这个例子下,它是Facebook数据,但它也可以是文本或者点击流数据。这些都是你想要用于预测的所有功能。”

另一方面,你需要你的“目标变量”,用Wylie的话来说,就是你试图预测的东西。所以在这一例子下,是你拥有的个性特征或政治倾向。

如果你试图用一件事来预测另一件事,那么你最好同时考虑这两者。Wylie说:“如果你想知道功能集中的Facebook点赞情况与个性特征之间的关系,并把之作为你的目标变量,那么你需要同时考虑这两者。”

当Wylie最初于2014年在这一领域开展工作时,Facebook数据就已经成为数据科学领域内相当丰富的资源。个性特征难以掌握:虽然BuzzFeed测验可能会有所增加,但是要说服一个人填写一份120道题的调查问卷,需要相当多的时间。

然而,“相当多”只是相对的。“对于一些人来说,参加调查的动机是财务问题。如果你是学生,或者正在找工作,或者只想赚5美元,那这就是动机。”Wylie表示,实际交付的报酬从2美元到4美元不等。较高的报酬可以获得难以接触的团体。非裔美国人是最不喜欢接受调查问卷,但收益最多的人群。“其他人可能只是觉得有趣,或者感到无聊。所以我们总是会过度抽样富裕的白人女性。因为如果你住在汉普顿,下午又无事可做,那么你可以填写消费者调查问卷。”

个性调查使用这120个问题来按照“五因素”模型来描绘受调查者,这五个因素包括:经验型、自觉型、外向型、爽快型和神经质型。

这种模型将个性特征聚合为跨文化和跨时代的差异。举例来说,那些自称为“大声”的人可能也会将自己形容为“合群”。如果他们今年同意这种说法,那么可能明年也会一样。这种聚合可能会在每种语言的回复中显现出来。如果一个人对此产生了负面反应,那么他们和那些产生积极反应的人之间会有显著的差异。

Wylie表示,这种模型的特点对于分析个人来说是非常有用的,但与一些主流的心理学模型,比如Myers-Briggs系统正好相反。在调查的测试阶段,Facebook几乎没有参与进来。调查会提供在商业数据研究网站上,首先是亚马逊的Mechanical Turk平台,然后是一家名为Qualtrics的专业运营商。

Facebook只在调查的最后阶段才会发挥作用。为了获得相应的调查报酬,用户需要登录该网站,并授权给剑桥大学学者Aleksandr Kogan开发的调查应用,正是这一应用给Robert Mercer资助的剑桥分析公司提供了完美进入这一领域的方式。(Kogan坚持表示,剑桥分析公司向他保证他们会合适的使用数据,并认为自己是Facebook和剑桥分析公司的替罪羊。)

对于调查用户来说,这个过程很快:“你点击该应用,继续,然后它会给你支付代码。”但是在这几秒钟内发生了两件非常重要的事情。第一,由于用户刚刚登陆了该网站,这一应用收集了尽可能多的数据。如果心理状况是目标变量,那么Facebook数据就是“功能集”:数据科学家需要使用这些信息来准确预测他们真正想知道的特征。

它还提供了真实姓名,位置和联系方式等个人身份信息,这些信息在调查网站上是无法看到的。“这意味着你可以拿着这份清单,将之与选举登记册的自然人联系起来。”

第二,该应用对安装用户的所有朋友做了相同的事情。原本参与调查的只有数十万人,但突然间,人数就扩大到了百万人。

这就是最终转型的最终目标。你如何将几十万个人资料转化为几百万?通过大量的计算能力,以及巨大的可能性矩阵。Wylie说:“即使你的样本量是30万人,但实际上,你的功能集会超过1亿人。”数据集中的每一个点赞都会成为这一巨大矩阵中的每一栏。“即使整个集合中只有一个实例,它仍然是一个功能。”

“然后所有的数据被放入一个整体模型中,”Wylie说。“现在,你可以对不同的家庭使用不同的机器学习方法,因为他们每个人都会有各自的长处和短处。然后他们进行投票,然后合并结果并得出结论。“这就是数据科学变成数据艺术的地方:每种方法对整体模型的确切输入并不是一成不变的,并没有所谓的正确方式。在学术界,它有时被称为“由研究生训练”,唯一要做的就是通过艰苦的尝试和错误向前迈进。显然,它运行的还不错,最后Wylie说:“我们构建了253个算法,这意味着每个配置文件记录有253个预测。”目标实现了:这种模型可以有效地获取Facebook点赞的主题,然后填入电子表格的其他栏目,以预测他们的个性、政治偏好等等。

截至2014年8月底,Wylie首次取得了成功:来自美国11个州的210万份档案记录,这些记录将被用于沟通和完善Mercer与Steve Bannon资助的共和党竞选活动。“这个数字代表的是不仅是那些匹配Facebook数据、选民数据和消费者数据的人,而且还有额外的253个预测。”

这253种预测是剑桥分析公司声称它可以为其客户提供的“秘诀”。通过Facebook,广告客户只能进行广泛的人口统计,以及较窄的由算法决定的类别,比如你是否喜欢爵士乐,你喜欢的球队是什么。但是拥有了这253种进一步的预测,剑桥分析公司能够获得别人所没有的信息:一个神经质的、外向的、爽快的民主党人,可能会被投放更为激进的信息。这些信息都是为了压制他们的投票意图,即使是相同的信息,也会产生相反的效果。

Wylie举了一个有关候选人是否支持就业的例子。经济中就业是一个很好的例子,因为这是毫无意义的信息。每个人都会在经济中就业。因此,从从这个意义上说,只用‘我支持经济就业’或者‘我有一个计划来解决就业问题’,你是无法将自己与对手区别开来的。

“但我们发现的一个事实是,不同的人会在这一问题上附上与自己倾向相关的不同动机和价值观。”

也就是说,同一件事可以不同的语言,包装成不同的意思,从而让候选人在感情侧面上产生与选民的联系。“如果你正在与一个有良心的人交谈,那么你可以谈论成功的机会和工作带给你的责任。如果是一个开放的人,那么你可以谈论成长的机会。与神经质的人交谈,你需要强调它基于我家人的安全感。”

由于现代竞选活动的网络化特征,理论上这些信息可以同时传递给不同的群体。这些信息甚至可以实现自动化,通过算法在词库中找到完美组合的词汇来赢得不同人群的支持。

当然,这并不全是好事。一个用于提振右翼投票率的消息攻击了同性婚姻。“这很有趣,因为这是恐同症的体现,但创造它的却是一个同性恋团体,”Wylie说。“这条消息是针对有良知的人,上面印有一个字典,并写着‘捍卫婚姻’。对于一个有良知的人来说,这条消息是非常引人注目的:字典是秩序的源泉,有良心的人更愿意遵循秩序。”

在这个时刻,心理定位进入了狗哨运动的领域。例如,在围绕移民的竞选活动中,墙的图像被证明是非常有效的。“有良知的人喜欢秩序,所以对他们来说,解决移民问题应该是有条不紊的,而一面墙则体现了这一点。你可以创建对一些人没有意义,但对其他人有很大意义的消息。如果你展示这样的形象,有些人不会明白那是关于移民的问题,而其他人会立即想到这个。”对Wylie来说,实际问题只不过是政治中的“白色吐司”,等待着真正的味道。“没有人想要普通的白面包。”他认为数据工作就是了解特定的味道或香料,让食物变得吸引人。

虽然这是一个非常复杂的瞄准机器,但人们对剑桥分析的心理测量模型仍然存在着疑问。当Kogan在4月份向议会提供证据时,他表示,将个性测量分数应用到个人身上,是几乎没有好的结果。也许这一点足以说明问题。即使个人被正确地标记了五个因素,但基于此投放的广告,真的是利用了一个人对秩序的偏好,还是对其他事物的恐惧?

显然这里面还有其他成分。比如2012年申请的专利《通过社交网络系统通信确定用户个性特征》。“存储的个性特征可能被用作广告商的定位标准,以增加用户与投放广告积极互动的可能性,”该专利上写道。这份专利的作者是?正是Facebook自己。

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号