电子科技大学陈建文：现实世界都是小数据 AI未来还很大

2017-08-11 10:32

没有完美的大数据，现实世界都是小数据

研究AI的人都知道一个基本的原则：数据越大越全面，输出的结果就越精准。

但问题是，我们始终找不到理论上完整的大数据，所以业内有小数据和小样本学习，即推理和规则体序。而这二者的结合，似乎就是AI未来的重心所在。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“务实一点说，我们很多人，甚至包括一些professer，对大数据的理解是错误的。我在很多会议上都说过，这个大数据的大是什么意思呢？不是说数据有多大，也不是说数据有多么海量。

“我曾经跟一个教授谈，他就说，我们是做三维全息的，我一秒钟几个G的数据，你看我数据大不大？还有人说，我一天采集了很多很多东西，我的这个sense很多很多。..。..

“其实，按照学术界的说法，大数据我们更多讲的是数据的维度。”

一个人，如果说只有一个维度，不管你再大，你就是一个人。只有当你具备很多不同维度的时候，你才是一个丰富的人，精彩的人。

实际上，数据永远不可能是完整的。

“举个例子来说吧：你想要了解我，因此你去搜了一下，搜到了一些信息。但是，你搜到的一定是一个子集。然后另外一个人也去搜，他搜到的也是一个子集。你们搜的都是一个子集，都是不完整的。

“但是有一千个人搜的数据合在一起的时候，我根据这一千个人的数据，我基本上可以断定这个人的基本情况了。

“所以你看，越多个不完整的子集，就越接近事实真相。但是，核心的点是你永远不可能拿到完整的数据，这个世界上又有什么数据是完整的吗？怎么会有完整的数据呢？

“任何一件事情，你往深的挖，它都是不完整的。中国古语也有云，‘大道五十，天衍四九’，也有一点这么个意思。”

大数据的意义在于，数据的维度要很多。如果这个数据本身就没有什么维度，就是个一维、二维或者三维的东西，那大数据也就没有意义了。

当数据采集的维度很多、角度更多、采集的源泉更多的时候，日积月累，我们往往就能从统计意义上得到一个概念。

这是第一层，独立数据的结果。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“还有另外一个情况，你从网上整理了很多信息，另外一个人也整理了很多信息，你们只是把信息汇总在了一起，最后得出一个结论，这是第一步；第二步呢，基于这个信息你要去做预测和分析。根据你喜欢吃辣椒、喜欢踢足球等特征，从而预测出这个人性格应该是什么样子的，你就又往前走了一步。”

就像人们常说的的小样本、小数据、大数据的学习，就我看到的所有的样本，光靠采样是永远不可能采全的。

千人千面，任何的样本，都是小样本，任何的数据，都是小数据。

我们现在看到的所有互联网上的数据，都是小数据集合成的大数据，小数据的内容聚合成一个大数据的整合。

对单独的样本来说，数据都是小数据，没有所谓的大数据，完整的数据只存在于理论当中。在研究采集中，我们所得到的永远只是一部分。从这个层面来讲，它是属于小数据和小样本。

小数据多了之后，它会形成一个大数据，再通过梳理、预测，算法，它会得出一定的结论。

这个能力是目前我们讲的大数据里最大的行业应用，就是规则推理。

“真实世界里没有大数据，你看到这个人，你描述他，十个词、二十个词，都是小数据。但是，你站在宏观上，不去测量这一个独立人，而是去描述这一类人的时候，它就是大数据了。

“所有的东西都是这样，你测量的时候，获取、真实的采集这个数据的时候，这个数据就已经被你固定成小数据、小样本了。”

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

共0条评论，0人参与

登录登录即可访问所有OFweek服务

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

行业报告