侵权投诉
订阅
纠错
加入自媒体

系统性分析大数据产业现状和预测未来发展方向

2017-01-24 10:50
木中君
关注

传统的数据挖掘算法主要有:

(1)聚类,又称群分析,是研究(样品或指标)分类问题的一种统计分析方法,针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。企业通过使用聚类分析算法可以进行客户分群,在不明确客户群行为特征的情况下对客户数据从不同维度进行分群,再对分群客户进行特征提取和分析,从而抓住客户特点推荐相应的产品和服务。

(2)分类,类似于聚类,但是目的不同,分类可以使用聚类预先生成的模型,也可以通过经验数据找出一组数据对象的共同点,将数据划分成不同的类,其目的是通过分类模型将数据项映射到某个给定的类别中,代表算法是 CART(分类与回归树)。企业可以将用户、产品、服务等各业务数据进行分类,构建分类模型,再对新的数据进行预测分析,使之归于已有类中。分类算法比较成熟,分类准确率也比较高,对于客户的精准定位、营销和服务有着非常好的预测能力,帮助企业进行决策。

(3)回归,反映了数据的属性值的特征,通过函数表达数据映射的关系来发现属性值之间的一览关系。它可以应用到对数据序列的预测和相关关系的研究中。企业可以利用回归模型对市场销售情况进行分析和预测,及时作出对应策略调整。在风险防范、反欺诈等方面也可以通过回归模型进行预警。

传统的数据方法,不管是传统的 OLAP 技术还是数据挖掘技术,都难以应付大数据的挑战。首先是执行效率低。传统数据挖掘技术都是基于集中式的底层软件架构开发,难以并行化,因而在处理 TB 级以上数据的效率低。其次是数据分析精度难以随着数据量提升而得到改进,特别是难以应对非结构化数据。

在人类全部数字化数据中,仅有非常小的一部分(约占总数据量的 1%)数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析(如排序),占总量近 60%的语音、图片、视频等非结构化数据还难以进行有效的分析。

所以,大数据分析技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。

目前来看,以深度神经网络等新兴技术为代表的大数据分析技术已经得到一定发展。

神经网络是一种先进的人工智能技术,具有自身自行处理、分布存储和高度容错等特性,非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据,十分适合解决大数据挖掘的问题。

典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以 Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以 ART 模型为代表。不过,虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。

随着互联网与传统行业融合程度日益加深,对于 web 数据的挖掘和分析成为了需求分析和市场预测的重要段。Web 数据挖掘是一项综合性的技术,可以从文档结构和使用集合中发现隐藏的输入到输出的映射过程。

目前研究和应用比较多的是 PageRank 算法。PageRank是Google算法的重要内容,于2001年9月被授予美国专利,以Google创始人之一拉里·佩奇(Larry Page)命名。PageRank 根据网站的外部链接和内部链接的数量和质量衡量网站的价值。这个概念的灵感,来自于学术研究中的这样一种现象,即一篇论文的被引述的频度越多,一般会判断这篇论文的权威性和质量越高。

需要指出的是,数据挖掘与分析的行业与企业特点强,除了一些最基本的数据分析工具外,目前还缺少针对性的、一般化的建模与分析工具。各个行业与企业需要根据自身业务构建特定数据模型。数据分析模型构建的能力强弱,成为不同企业在大数据竞争中取胜的关键。

<上一页  1  2  3  4  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号