侵权投诉
订阅
纠错
加入自媒体

电子科技大学陈建文:现实世界都是小数据 AI未来还很大

没有完美的大数据,现实世界都是小数据

研究AI的人都知道一个基本的原则:数据越大越全面,输出的结果就越精准。

但问题是,我们始终找不到理论上完整的大数据,所以业内有小数据和小样本学习,即推理和规则体序。而这二者的结合,似乎就是AI未来的重心所在。

电子科技大学陈建文:没有完美的大数据,现实世界都是小数据

“务实一点说,我们很多人,甚至包括一些professer,对大数据的理解是错误的。我在很多会议上都说过,这个大数据的大是什么意思呢?不是说数据有多大,也不是说数据有多么海量。

“我曾经跟一个教授谈,他就说,我们是做三维全息的,我一秒钟几个G的数据,你看我数据大不大?还有人说,我一天采集了很多很多东西,我的这个sense很多很多。..。..

“其实,按照学术界的说法,大数据我们更多讲的是数据的维度。”

一个人,如果说只有一个维度,不管你再大,你就是一个人。只有当你具备很多不同维度的时候,你才是一个丰富的人,精彩的人。

实际上,数据永远不可能是完整的。

“举个例子来说吧:你想要了解我,因此你去搜了一下,搜到了一些信息。但是,你搜到的一定是一个子集。然后另外一个人也去搜,他搜到的也是一个子集。你们搜的都是一个子集,都是不完整的。

“但是有一千个人搜的数据合在一起的时候,我根据这一千个人的数据,我基本上可以断定这个人的基本情况了。

“所以你看,越多个不完整的子集,就越接近事实真相。但是,核心的点是你永远不可能拿到完整的数据,这个世界上又有什么数据是完整的吗?怎么会有完整的数据呢?

“任何一件事情,你往深的挖,它都是不完整的。中国古语也有云,‘大道五十,天衍四九’,也有一点这么个意思。”

大数据的意义在于,数据的维度要很多。如果这个数据本身就没有什么维度,就是个一维、二维或者三维的东西,那大数据也就没有意义了。

当数据采集的维度很多、角度更多、采集的源泉更多的时候,日积月累,我们往往就能从统计意义上得到一个概念。

这是第一层,独立数据的结果。

电子科技大学陈建文:没有完美的大数据,现实世界都是小数据

“还有另外一个情况,你从网上整理了很多信息,另外一个人也整理了很多信息,你们只是把信息汇总在了一起,最后得出一个结论,这是第一步;第二步呢,基于这个信息你要去做预测和分析。根据你喜欢吃辣椒、喜欢踢足球等特征,从而预测出这个人性格应该是什么样子的,你就又往前走了一步。”

就像人们常说的的小样本、小数据、大数据的学习,就我看到的所有的样本,光靠采样是永远不可能采全的。

千人千面,任何的样本,都是小样本,任何的数据,都是小数据。

我们现在看到的所有互联网上的数据,都是小数据集合成的大数据,小数据的内容聚合成一个大数据的整合。

对单独的样本来说,数据都是小数据,没有所谓的大数据,完整的数据只存在于理论当中。在研究采集中,我们所得到的永远只是一部分。从这个层面来讲,它是属于小数据和小样本。

小数据多了之后,它会形成一个大数据,再通过梳理、预测,算法,它会得出一定的结论。

这个能力是目前我们讲的大数据里最大的行业应用,就是规则推理。

“真实世界里没有大数据,你看到这个人,你描述他,十个词、二十个词,都是小数据。但是,你站在宏观上,不去测量这一个独立人,而是去描述这一类人的时候,它就是大数据了。

“所有的东西都是这样,你测量的时候,获取、真实的采集这个数据的时候,这个数据就已经被你固定成小数据、小样本了。”

<上一页  1  2  3  4  下一页>  余下全文
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    物联网 猎头职位 更多
    扫码关注公众号
    OFweek物联网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号