一文详解“数据门”：剑桥分析如何“暗箱操控”总统选举

2018-05-08 09:39

从Facebook窃取的8700万用户数据是如何成为帮助选举的广告活动的？收集的大量数据实际上涉及了什么？那些数据告诉了我们什么？

剑桥分析丑闻引发了一个接一个问题，但对许多人来说，该公司的技术专利仍然是一个谜。

8700万被窃取信息的用户可能想要知道自己的数据到底被用来做了什么，所以我又重新采访了剑桥分析前雇员Christopher Wylie，正是他向媒体曝光了公司的运作问题。根据Wylie的说法，你所需要知道的只是关于数据科学、无聊的富裕女性以及一些有关人类心理学的内容。

他说：“当你构建一个算法时，你首先需要创建一个训练集。”也就是说，无论你想要使用奇特的数据科学来发现什么，你首先需要以老派的方式进行收集。在使用Facebook点赞情况预测一个人的心理状况之前，你需要让几十万人来做个性测验。

所谓的训练集，就是指Facebook点赞数据集、个性测试以及其他你想要了解的整个数据。最重要的是，它需要包含你的“功能集”，即你想要进行预测的基础数据。Wylie说：“在这个例子下，它是Facebook数据，但它也可以是文本或者点击流数据。这些都是你想要用于预测的所有功能。”

另一方面，你需要你的“目标变量”，用Wylie的话来说，就是你试图预测的东西。所以在这一例子下，是你拥有的个性特征或政治倾向。

如果你试图用一件事来预测另一件事，那么你最好同时考虑这两者。Wylie说：“如果你想知道功能集中的Facebook点赞情况与个性特征之间的关系，并把之作为你的目标变量，那么你需要同时考虑这两者。”

当Wylie最初于2014年在这一领域开展工作时，Facebook数据就已经成为数据科学领域内相当丰富的资源。个性特征难以掌握：虽然BuzzFeed测验可能会有所增加，但是要说服一个人填写一份120道题的调查问卷，需要相当多的时间。

然而，“相当多”只是相对的。“对于一些人来说，参加调查的动机是财务问题。如果你是学生，或者正在找工作，或者只想赚5美元，那这就是动机。”Wylie表示，实际交付的报酬从2美元到4美元不等。较高的报酬可以获得难以接触的团体。非裔美国人是最不喜欢接受调查问卷，但收益最多的人群。“其他人可能只是觉得有趣，或者感到无聊。所以我们总是会过度抽样富裕的白人女性。因为如果你住在汉普顿，下午又无事可做，那么你可以填写消费者调查问卷。”

个性调查使用这120个问题来按照“五因素”模型来描绘受调查者，这五个因素包括：经验型、自觉型、外向型、爽快型和神经质型。

这种模型将个性特征聚合为跨文化和跨时代的差异。举例来说，那些自称为“大声”的人可能也会将自己形容为“合群”。如果他们今年同意这种说法，那么可能明年也会一样。这种聚合可能会在每种语言的回复中显现出来。如果一个人对此产生了负面反应，那么他们和那些产生积极反应的人之间会有显著的差异。

Wylie表示，这种模型的特点对于分析个人来说是非常有用的，但与一些主流的心理学模型，比如Myers－Briggs系统正好相反。在调查的测试阶段，Facebook几乎没有参与进来。调查会提供在商业数据研究网站上，首先是亚马逊的Mechanical Turk平台，然后是一家名为Qualtrics的专业运营商。

Facebook只在调查的最后阶段才会发挥作用。为了获得相应的调查报酬，用户需要登录该网站，并授权给剑桥大学学者Aleksandr Kogan开发的调查应用，正是这一应用给Robert Mercer资助的剑桥分析公司提供了完美进入这一领域的方式。（Kogan坚持表示，剑桥分析公司向他保证他们会合适的使用数据，并认为自己是Facebook和剑桥分析公司的替罪羊。）

对于调查用户来说，这个过程很快：“你点击该应用，继续，然后它会给你支付代码。”但是在这几秒钟内发生了两件非常重要的事情。第一，由于用户刚刚登陆了该网站，这一应用收集了尽可能多的数据。如果心理状况是目标变量，那么Facebook数据就是“功能集”：数据科学家需要使用这些信息来准确预测他们真正想知道的特征。

它还提供了真实姓名，位置和联系方式等个人身份信息，这些信息在调查网站上是无法看到的。“这意味着你可以拿着这份清单，将之与选举登记册的自然人联系起来。”

第二，该应用对安装用户的所有朋友做了相同的事情。原本参与调查的只有数十万人，但突然间，人数就扩大到了百万人。

这就是最终转型的最终目标。你如何将几十万个人资料转化为几百万？通过大量的计算能力，以及巨大的可能性矩阵。Wylie说：“即使你的样本量是30万人，但实际上，你的功能集会超过1亿人。”数据集中的每一个点赞都会成为这一巨大矩阵中的每一栏。“即使整个集合中只有一个实例，它仍然是一个功能。”

“然后所有的数据被放入一个整体模型中，”Wylie说。“现在，你可以对不同的家庭使用不同的机器学习方法，因为他们每个人都会有各自的长处和短处。然后他们进行投票，然后合并结果并得出结论。“这就是数据科学变成数据艺术的地方：每种方法对整体模型的确切输入并不是一成不变的，并没有所谓的正确方式。在学术界，它有时被称为“由研究生训练”，唯一要做的就是通过艰苦的尝试和错误向前迈进。显然，它运行的还不错，最后Wylie说：“我们构建了253个算法，这意味着每个配置文件记录有253个预测。”目标实现了：这种模型可以有效地获取Facebook点赞的主题，然后填入电子表格的其他栏目，以预测他们的个性、政治偏好等等。

截至2014年8月底，Wylie首次取得了成功：来自美国11个州的210万份档案记录，这些记录将被用于沟通和完善Mercer与Steve Bannon资助的共和党竞选活动。“这个数字代表的是不仅是那些匹配Facebook数据、选民数据和消费者数据的人，而且还有额外的253个预测。”

这253种预测是剑桥分析公司声称它可以为其客户提供的“秘诀”。通过Facebook，广告客户只能进行广泛的人口统计，以及较窄的由算法决定的类别，比如你是否喜欢爵士乐，你喜欢的球队是什么。但是拥有了这253种进一步的预测，剑桥分析公司能够获得别人所没有的信息：一个神经质的、外向的、爽快的民主党人，可能会被投放更为激进的信息。这些信息都是为了压制他们的投票意图，即使是相同的信息，也会产生相反的效果。

Wylie举了一个有关候选人是否支持就业的例子。经济中就业是一个很好的例子，因为这是毫无意义的信息。每个人都会在经济中就业。因此，从从这个意义上说，只用‘我支持经济就业’或者‘我有一个计划来解决就业问题’，你是无法将自己与对手区别开来的。

“但我们发现的一个事实是，不同的人会在这一问题上附上与自己倾向相关的不同动机和价值观。”

也就是说，同一件事可以不同的语言，包装成不同的意思，从而让候选人在感情侧面上产生与选民的联系。“如果你正在与一个有良心的人交谈，那么你可以谈论成功的机会和工作带给你的责任。如果是一个开放的人，那么你可以谈论成长的机会。与神经质的人交谈，你需要强调它基于我家人的安全感。”

由于现代竞选活动的网络化特征，理论上这些信息可以同时传递给不同的群体。这些信息甚至可以实现自动化，通过算法在词库中找到完美组合的词汇来赢得不同人群的支持。

当然，这并不全是好事。一个用于提振右翼投票率的消息攻击了同性婚姻。“这很有趣，因为这是恐同症的体现，但创造它的却是一个同性恋团体，”Wylie说。“这条消息是针对有良知的人，上面印有一个字典，并写着‘捍卫婚姻’。对于一个有良知的人来说，这条消息是非常引人注目的：字典是秩序的源泉，有良心的人更愿意遵循秩序。”

在这个时刻，心理定位进入了狗哨运动的领域。例如，在围绕移民的竞选活动中，墙的图像被证明是非常有效的。“有良知的人喜欢秩序，所以对他们来说，解决移民问题应该是有条不紊的，而一面墙则体现了这一点。你可以创建对一些人没有意义，但对其他人有很大意义的消息。如果你展示这样的形象，有些人不会明白那是关于移民的问题，而其他人会立即想到这个。”对Wylie来说，实际问题只不过是政治中的“白色吐司”，等待着真正的味道。“没有人想要普通的白面包。”他认为数据工作就是了解特定的味道或香料，让食物变得吸引人。

虽然这是一个非常复杂的瞄准机器，但人们对剑桥分析的心理测量模型仍然存在着疑问。当Kogan在4月份向议会提供证据时，他表示，将个性测量分数应用到个人身上，是几乎没有好的结果。也许这一点足以说明问题。即使个人被正确地标记了五个因素，但基于此投放的广告，真的是利用了一个人对秩序的偏好，还是对其他事物的恐惧？

显然这里面还有其他成分。比如2012年申请的专利《通过社交网络系统通信确定用户个性特征》。“存储的个性特征可能被用作广告商的定位标准，以增加用户与投放广告积极互动的可能性，”该专利上写道。这份专利的作者是？正是Facebook自己。