侵权投诉
当前位置:

OFweek物联网

其它

正文

腾讯:陷阱多多 我们都被大数据给忽悠了?

导读: 前不久腾讯举办了一场夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考:大数据也可能是“大忽悠”。

      前不久腾讯举办了一场夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考:大数据也可能是“大忽悠”。

  而最近对Google Flu Trends(流感趋势)的一些研究正好佐证了这一点。

  说到 Google Flu Trends,首先必须先提一提Google Trends 和Google Correlate。Google Trends 利用对用户搜索的大数据分析来获得人类某些活动的趋势,只要在 Google Trends 上输入某些查询关键字即可返回相关活动的数据序列。而 Google Correlate 则是输入数据序列可返回一组结果呈类似模式(相关性)的查询,有点类似于 Google Trends 的反函数。

腾讯:我们都被大数据给忽悠了?

  Google Flu Trends 是 Google Trends 最早也是最知名的应用之一。鉴于很多人患流感是往往会上 Google 查询了解疾病情况和用药,因此 Google 发现这种查询与流感爆发存在着某种相关关系。Google Trends 曾经有过多次对流感的成功预测,包括 2011/12 年的美国流感、2007/08 年瑞士流感、2005/06 年德国流感、2007/08 比利时流感等,其及时性甚至要比美国疾病预防控制中心还要高。

  这显示出了搜索“流感”与流感爆发的相关性。

  另一个例子是“宿醉”。比方说在 Google Trends 输入“hangover(宿醉)”,你会发现这种情况在周六开始冒头,然后周日到达巅峰,而到了周一则急剧下降。这种模式与输入“伏特加”的查询结果类似(滞后一天)。

  但是数据越大未必就能带来更高的预测率。甚至还会带来“假规律”和“伪相关”。比方说,搜索 2004 至 2012 年间的美国汽车销售与“印度餐馆”,结果发现二者之间竟然存在相关关系。这个东西显然是无法解释的。

  伪相关的原因是什么呢?

  首先,相关性并不意味着因果关系。比方说,Google Flu Trends 对趋势的预测并非屡试不爽。有几次 Google Trends 就严重高估了流感病例的数量,包括 2011/12 的美国流感,2008/09 瑞士流感,2008/09 德国流感、2008/09 比利时流感等。

1  2  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号