侵权投诉
当前位置:

OFweek物联网

智能计算

正文

“东莞迁徙”里的大数据误区

导读: 央视2月9日曝光东莞色情业,一石激起千层浪。当晚,一套来自“百度迁徙”大数据分析的网络图被热转。该图简单而直接地显示了2月9日晚上10点之前8个小时内从东莞迁出及迁入的十大热门城市。

  央视2月9日曝光东莞色情业,一石激起千层浪。当晚,一套来自“百度迁徙”大数据分析的网络图被热转。该图简单而直接地显示了2月9日晚上10点之前8个小时内从东莞迁出及迁入的十大热门城市。虽然原文没有明确地进行解读,但在这个时点网友纷纷转发,心照不宣地认为这就是一张“嫖客小姐逃离图”。

  从整个事情的流程来看,这是一个非常经典的大数据的应用案例。首先结论来源于数据而且数据足够大,然后用到了大数据的分析方法,当然这个具体的模型和算法百度帮大家做了,然后用最时尚最酷的可视化方式展现出来,最后从数据的结果推出了实际想要的结论,一切都那么完美。

“东莞迁徙”里的大数据误区

  这个大数据的例子比起很多教科书上的例子还要好。从分析的方法来看,逻辑也是非常严密的,要研究的方向是央视曝光之后的影响,这个说得专业一些叫做干预分析。关于影响的可能结果,见仁见智,这个研究选择了一个公众非常感兴趣的结论,也就是出逃的嫖客的去向。该研究选择的方法也很到位,直接利用到了百度的迁徙可视化工具,从数据到结论的完整步骤都有了。

  那么,在大数据时代,一个严密而完善的分析流程是否代表着正确呢?这个问题的答案涉及到了大数据的一个非常重要的本质和误区,并不是用了大数据就一定有结果。

  实际上,不论是大数据还是小数据,数据分析的本质一定是方法要和假设匹配、模型要和数据匹配。我们不用说得那么深奥,就用这个例子的程度来还原一个真正的大数据分析的流程。

  首先,这个迁徙图的数据到底是什么,读者及“分析师”们真的了解了吗?根据百度提供的资料,数据来自于LBS(基于地理位置的服务)开放平台,我们深入探究一下,实际上是来自移动客户端。百度的开发平台上写得很清楚,提供了安卓、Symbian和IP定位的接口,简单点来说,大家通过移动终端来调用百度地图或者其他基于百度地图的服务,会被百度记录下来,然后利用这些数据进行分析。

1  2  3  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号