1亿条信息泄漏？AI背后的数据安全更严峻

2019-11-21 12:00

近日，拉卡拉旗下子公司考拉征信触及黑暗产业并被曝出泄露近亿条个人信息的新闻刷爆了整个科技产业，同时考拉征信背后的9个股东中，有5家为上市公司：

· 拉卡拉支付股份有限公司，股票代码为300773，持股比例达到32．4％；是支付宝和微信之后的第三大支付公司；

· 北京数知科技股份有限公司，股票代码为300038；是一家以技术和数据作为驱动的大数据＋人工智能科技公司；

· 拓尔思信息技术股份有限公司，股票代码为300229；是一家从事以非结构化信息处理为核心的软件研发、销售和技术服务的企业，是中文全文检索技术的创始者，曾在在中国企业搜索软件、Web内容管理软件、垂直搜索及舆情监测软件等领域市场份额排名第一；

· 北京旋极信息技术股份有限公司，股票代码为300324；是一家专注于从事嵌入式系统的开发、生产、销售和技术服务业务的公司；致力于提供面向国防军工的嵌入式系统测试产品及技术服务、嵌入式信息安全产品和嵌入式行业智能移动终端产品；

· 北京蓝色光标数据科技股份有限公司，股票代码为300058；主营业务为公共关系咨询服务和广告服务。

仅分析这5家上市公司我们发现，清一色跟大数据、人工智能相关，部分甚至在行业中具有相当的影响力。

1亿条信息泄漏？AI背后的数据安全更严峻

大数据／AI公司特点

表面看，考拉征信爆发的原因是因为其利用手头掌握的个人信息资源的便利，向下游兜售，最终形成了黑色产业链。

实际上，目前的大数据公司、人工智能公司，都存在个人信息汇集的问题。我们知道，人工智能得以快速发展、成熟的3个要素中，数据是其中不可或缺的一环，AI算法的优化，需要通过无数的数据训练，才能得道最为优化的结果，因此，我们现在看到的人脸识别、车牌识别、大数据轨迹碰撞等人工智能应用，背后都是多年的人工智能算法训练的成果。

可以说，应用效果越好的AI算法，往往背后支撑的数据越庞大，而且通常这些用于训练的数据基本都是以万为单位，百万级都属于比较低的量级；在交通领域，百亿级数据都是常有的事。

两个渠道获取数据来源

随着大数据、人工智能技术的成熟，可关联的数据越来越多，除了人脸、人外形、车牌等直观可抓拍的数据外，还可与姓名、身份证号、手机号、家庭地址、家庭成员、财产情况、过往经历等信息关联起来。

人脸、车牌等信息可通过摄像机获得，但是第二类信息的获取则涉及公民隐私，难度非常大。不过，在国家鼓励企业发展人工智能技术的前提下，总会有一些政策支持，让部分企业可以接触到的部分个人信息，例如将人工智能对接到户籍、公安、交通、教育、金融等信息系统，通过抓拍的图片与从第三方接口获取的信息比对，即可把信息关联起来，从而实现数据碰撞。

这是目前人工智能企业获取公民信息的合法渠道。通过这一渠道，AI公司、大数据公司可以对接到全国所有的人口信息、车辆信息、财产信息；一些黑名单更是全方位开放给这些公司。

早些时候，张学友演唱会频繁被爆出通过人脸识别技术抓获多名疑犯就是个人数据公开给AI公司并做数据碰撞带来的结果。

但并不是所有AI算法公司都有资格合法接触到如此众多的个人信息，部分企业为了获得充分的数据来充实AI算法训练库，通常会采取一些基于研发目的的数据收集行为，如摄像机抓拍、网上下载等。

1亿条信息泄漏？AI背后的数据安全更严峻

AI两面，隐患重重

AI人工智能技术的推出，本是为了赋能于行业，服务于人类；但凡事都有两面性，用得好，它是一项好技术，若是某个环节出现偏差，将会带来不可挽回的损失。如考拉征信，其上游为其开放数据接口，是为满足其企业发展，但他们却用这一独享资源来进行非法经营，导致了大量的个人信息泄露。

而且，这部分已经泄露的信息，短时间内是无法抹去的，因为已存储于下游各个环节的服务器中。

而AI技术的强大之处还在于，除了合法渠道，它自己也可以通过数据碰撞获得个人信息。

我们知道，大数据时代，通过人工智能技术对数据的加工、处理、碰撞，可以获得很多我们意想不到的信息，如行人轨迹、个人关系网、个人饮食爱好、个人投资偏向等，都可以分析出来。

同样的，在这个网络时代，个人信息其实都已经公开于网上，如征婚网站、汽车网站、房产网站、股市资讯网站、各大门户的会员系统、支付宝／微信的支付系统等，都有着数量庞大、形形色色的个人信息。通常情况下，这些信息是相互孤立的，但在人工智能技术下，通过信息采集、比对、分析、融合，可以汇聚成完整的个人信息，这将形成一条非常庞大的黑色产业链，如某个网站有某人的头像、手机号等少数个人信息，另一平台有身份证号、手机号等个人信息，通过数据碰撞，即可将这些信息汇总；如果都有人物照片，直接通过人像比对就可以判断是否为同一人，进而便捷地获取个人信息；通过这些技术，类似考拉征信牵涉的黑产业将会再次低成本地上演。

截止2018年底，我国人工智能企业超过1000家，企业规模从初创期到1000亿级市值，他们用于AI训练的数据库来源形色各异，但不可否认的是，大部分都涉及到了个人隐私问题，这些企业如何利用和保护好这些数据？他们开发的AI应用，如何在下游中不被非法使用？

已经摆在了产业面前。

1亿条信息泄漏？AI背后的数据安全更严峻