电子科技大学陈建文:现实世界都是小数据 AI未来还很大
没有完美的大数据,现实世界都是小数据
研究AI的人都知道一个基本的原则:数据越大越全面,输出的结果就越精准。
但问题是,我们始终找不到理论上完整的大数据,所以业内有小数据和小样本学习,即推理和规则体序。而这二者的结合,似乎就是AI未来的重心所在。
“务实一点说,我们很多人,甚至包括一些professer,对大数据的理解是错误的。我在很多会议上都说过,这个大数据的大是什么意思呢?不是说数据有多大,也不是说数据有多么海量。
“我曾经跟一个教授谈,他就说,我们是做三维全息的,我一秒钟几个G的数据,你看我数据大不大?还有人说,我一天采集了很多很多东西,我的这个sense很多很多。..。..
“其实,按照学术界的说法,大数据我们更多讲的是数据的维度。”
一个人,如果说只有一个维度,不管你再大,你就是一个人。只有当你具备很多不同维度的时候,你才是一个丰富的人,精彩的人。
实际上,数据永远不可能是完整的。
“举个例子来说吧:你想要了解我,因此你去搜了一下,搜到了一些信息。但是,你搜到的一定是一个子集。然后另外一个人也去搜,他搜到的也是一个子集。你们搜的都是一个子集,都是不完整的。
“但是有一千个人搜的数据合在一起的时候,我根据这一千个人的数据,我基本上可以断定这个人的基本情况了。
“所以你看,越多个不完整的子集,就越接近事实真相。但是,核心的点是你永远不可能拿到完整的数据,这个世界上又有什么数据是完整的吗?怎么会有完整的数据呢?
“任何一件事情,你往深的挖,它都是不完整的。中国古语也有云,‘大道五十,天衍四九’,也有一点这么个意思。”
大数据的意义在于,数据的维度要很多。如果这个数据本身就没有什么维度,就是个一维、二维或者三维的东西,那大数据也就没有意义了。
当数据采集的维度很多、角度更多、采集的源泉更多的时候,日积月累,我们往往就能从统计意义上得到一个概念。
这是第一层,独立数据的结果。
“还有另外一个情况,你从网上整理了很多信息,另外一个人也整理了很多信息,你们只是把信息汇总在了一起,最后得出一个结论,这是第一步;第二步呢,基于这个信息你要去做预测和分析。根据你喜欢吃辣椒、喜欢踢足球等特征,从而预测出这个人性格应该是什么样子的,你就又往前走了一步。”
就像人们常说的的小样本、小数据、大数据的学习,就我看到的所有的样本,光靠采样是永远不可能采全的。
千人千面,任何的样本,都是小样本,任何的数据,都是小数据。
我们现在看到的所有互联网上的数据,都是小数据集合成的大数据,小数据的内容聚合成一个大数据的整合。
对单独的样本来说,数据都是小数据,没有所谓的大数据,完整的数据只存在于理论当中。在研究采集中,我们所得到的永远只是一部分。从这个层面来讲,它是属于小数据和小样本。
小数据多了之后,它会形成一个大数据,再通过梳理、预测,算法,它会得出一定的结论。
这个能力是目前我们讲的大数据里最大的行业应用,就是规则推理。
“真实世界里没有大数据,你看到这个人,你描述他,十个词、二十个词,都是小数据。但是,你站在宏观上,不去测量这一个独立人,而是去描述这一类人的时候,它就是大数据了。
“所有的东西都是这样,你测量的时候,获取、真实的采集这个数据的时候,这个数据就已经被你固定成小数据、小样本了。”
图片新闻
最新活动更多
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
2月28日火热报名中>> 【深圳线下】东集技术年终福利——免费试用活动
-
精彩回顾立即查看>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
精彩回顾立即查看>> STM32全球线上峰会
-
精彩回顾立即查看>> 松下新能源中国布局:锂一次电池新品介绍
-
精彩回顾立即查看>> 2024工程师系列—工业电子技术在线会议
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论