侵权投诉
订阅
纠错
加入自媒体

系统性分析大数据产业现状和预测未来发展方向

2017-01-24 10:50
木中君
关注

五是人才队伍建设亟需加强。

综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏,远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。

【三大方向预测大数据技术发展未来趋势】

(一)社交网络和物联网技术拓展了数据采集技术渠道

经过行业信息化建设,医疗、交通、金融等领域已经积累了许多内部数据,构成大数据资源的“存量”;而移动互联网和物联网的发展,大大丰富了大数据的采集渠道,来自外部社交网络、可穿戴设备、车联网、物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。当前,移动互联网的深度普及,为大数据应用提供了丰富的数据源。

根据中国互联网络信息中心(CNNIC)第 38 次《中国互联网络发展状况统计报告》,截至 2016 年 6 月,我国网民规模达 7.1 亿,互中国信息通信研究院 联网普及率达到 51.7%,超过全球平均水平 3.1 个百分点。其中,我国手机网民规模达 6.65 亿。网民中使用手机上网的人群占比提升至92.5%。线下企业通过与互联网企业的合作,或者利用开放的应用编程接口(API,Application Programming Interface)或网络爬虫,可以采集到丰富的网络数据可以作为内容数据的有效补充。

另外,快速发展的物联网,也将成为越来越重要的大数据资源提供者。相对于现有互联网数据杂乱无章和价值密度低的特点,通过可穿戴、车联网等多种数据采集终端,定向采集的数据资源更具利用价值。例如,智能化的可穿戴设备经过几年的发展,智能手环、腕带、手表等可穿戴正在走向成熟,智能钥匙扣、自行车、筷子等设备层出穷,国外 Intel、Google、Facebook,国内百度、京东、小米等有所布局。

根据 IDC 公司预计,到 2016 年底,全球可穿戴设备的出货量将达到 1.019 亿台,较 2015 年增长 29.0%。到 2020 年之前,可穿戴设备市场的年复合增长率将为 20.3%,而 2020 年将达到 2.136 亿台。可穿戴设备可7×24 小时不间断地收集个人健康数据,在医疗保健领域有广阔的应用前景,一旦技术成熟,设备测量精度达到医用要求,电池续航能力也有显著增强,就很可能会进入大规模应用阶段,从而成为重要的大数据来源。再如,车联网已经进入快速成长期。

据 StrategyAnalytics 公司预计,2016 年前装车联网市场渗透率将达到 19%,在未来 5 年内迎来发展黄金时期,2020 年将达到 49%。不过,值得注意的是,即便外部数据越来越丰富,但可获取性还不够高,一方面受目前技术水平所限,车联网、可穿戴设备等数据采集精度、数据清洗技术和数据质量还达不到实用要求;另一方面,由于体制机制原因,导致行业和区域上的条块分割,数据割据和孤岛普遍存在,跨企业跨行业数据资源的融合仍然面临诸多障碍。

根据中国信息通信研究院 2015 年对国内 800 多家企业的调研来看,有 50%以上的企业把内部业务平台数据、客户数据和管理平台数据作为大数据应用最主要的数据来源。企业内部数据仍是大数据主要来源,但对外部数据的需求日益强烈。当前,有 32%的企业通过外部购买所获得的数据;只有18%的企业使用政府开放数据。如何促进大数据资源建设,提高数据质量,推动跨界融合流通,是推动大数据应用进一步发展的关键问题之一。

总体来看,各行业都在致力于在用好存量资源的基础之上,积极拓展新兴数据收集的技术渠道,开发增量资源。社交媒体、物联网等大大丰富了数据采集的潜在渠道,理论上,数据获取将变得越来越容易。

(二) 分布式存储和计算技术夯实了大数据处理的技术基础

大数据存储和计算技术是整个大数据系统的基础。

在存储方面,2000 年左右谷歌等提出的文件系统(GFS)、以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。

与传统系统相比,GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的 I/O吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。

在计算方面,谷歌在 2004 年公开的 MapReduce 分布式并行计算技术,是新型分布式计算技术的代表。一个 MapReduce 系统由廉价的通用服务器构成,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。

(三) 深度神经网络等新兴技术开辟大数据分析技术的新时代

大数据数据分析技术,一般分为联机分析处理(OLAP,OnlineAnalytical Processing)和数据挖掘(Data Mining)两大类。

OLAP技术,一般基于用户的一系列假设,在多维数据集上进行交互式的数据集查询、关联等操作(一般使用 SQL 语句)来验证这些假设,代表了演绎推理的思想方法。

数据挖掘技术,一般是在海量数据中主动寻找模型,自动发展隐藏在数据中的模式(Pattern),代表了归纳的思想方法。

<上一页  1  2  3  4  下一页>  余下全文
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号