侵权投诉
订阅
纠错
加入自媒体

百度大数据应用与实践

2015-06-27 00:43
瑾年Invader
关注

  产生于互联网的大数据应用,现阶段正在向其他行业领域渗透,成为行业创新和转型的重要驱动力。根据百度多年来在大数据领域的创新与实践,阐述了大数据驱动搜索引擎的发展,介绍了百度大数据引擎和行业应用实践。重点分析了大数据发展的关键因素,并提出了大数据和人工智能是未来信息技术发展的重要方向。

  1 引言

  随着移动互联网、物联网的快速发展,信息采集成本不断降低,加速物理世界向网络空间的量化。数字世界与现实世界的融合过程中产生并积累了大量的数据。根据国际数据公司(IDC)发布的研究报告,全球所有信息数据中90%产生于近几年,数据总量正在以指数形式增长,从2003年的5 EB,到2013年4.4ZB,并将于2020年达到44 ZB,如图1所示。

百度大数据应用与实践

图1 全球数据总量

  数据爆炸将我们推向大数据时代,大数据是新一轮信息技术革命与人类经济社会活动的交汇融合的必然产物,数据的关联和挖掘将创造新的价值,提升效率。数据将和自然资源、人力资源一样成为国家最重要的战略资源,将成为产业升级的重要推动力。

  大数据因其蕴含的社会价值和商业价值,已经成为一项重要的生产要素,大数据的应用将改变传统行业的商业模式,拉动产业升级。数据已经成为传统行业的核心资产。产生于互联网的大数据应用,现阶段正在向制造业、金融及商业、医疗卫生、国计民生等各个领域渗透。各行业也已经意识到数据价值挖掘的重要意义,加速探索并布局大数据应用。越来越多机构、企业都迫切希望从不同渠道获取的多种类型、结构复杂的大数据中挖掘出有价值的趋势洞察,快速、准确地制定决策,驱动商业和行业创新。

  2 从搜索引擎说起,大数据面面观

  2.1 搜索引擎是个天然的大数据服务

  大数据是信息技术及其应用发展到一定阶段的“自然现象”,源于信息技术的不断廉价化以及互联网及其所带来的无处不在的信息技术延伸应用。可以说大数据应用和技术是在互联网的快速发展中产生的,互联网企业尤其是搜索引擎公司是大数据实践的先行者和领跑者。搜索引擎连接了人和信息、人和服务,本身就是一个完美的大数据应用实例,其目的就是为了更好地理解用户的搜索需求,将信息与用户匹配起来。

  百度是当今中国人获取信息的最主要入口,每天响应来自138个国家和地区的数十亿次搜索请求,覆盖95%以上的中国网民,平均每个中国网民每天使用10次百度。为了获得更好的用户体验和搜索的精准对接,百度不断在技术上挑战自我,在搜索的实践中积累了整套大数据的处理和实践技术,占据了世界领先的地位。同时,百度也积极在大数据的商业实践上不断探索,并取得了显着的成绩。

  2.2 海量的数据资源是大数据实践的基础

  百度拥有海量的数据基础,拥有EB级别的超大数据存储和管理规模,并达到100PB/天的数据计算能力,可达到毫秒级响应速度。百度已收录全世界超过一万亿张网页,相当于5 000个国家图书馆的信息量总和。同时承担着每天百亿次的访问请求,可离线完成1000亿网页的处理与分析,时效性网页从更新到索引只需要几十秒,实现大数据量级下的低延迟和秒级响应。

  百度的数据具有实时性和全面性的特点,囊括了全网搜索数据、全网评论信息、百度内部数据以及第三方合作数据等跨行业、跨地域基础数据,海量的数据基础是百度引领大数据实践的基础。

  2.3 高效的云计算基础设施提供强大的计算能力

  面临庞大数据量带来的计算能力和网络带宽的新挑战,百度自主研发超大规模分布式存储和计算系统,目前能够支持14 款用户过亿的产品。其中分布式存储系统可以存储长文本、语音、视频等异构数据,实现单集群文件数达100亿;大规模分布式计算系统通过自研技术提升50% 以上MapReduce的性能,实时流计算系统吞吐量达10GB/s;百度创新性地实现了基于大数据的智能自动化运维框架,满足超大规模集群运维的需求,实时分析3万以上监控指标;2 min内完成分析和故障定位,保证系统可用性为99.99%。百度是全球首家大规模商用ARM服务器的公司,建立了大规模GPU并行化平台,单GPU计算能力可比百片CPU,极大程度地降低了能耗和计算成本。

  百度自主研发万兆交换机,逐步从吉比特网络向万兆网络大规模切换,正在研制的4万兆交换机也已经开始小规模试点和验证,百度的万兆集群是国内互联网行业首个万兆交换机的规模应用。

  基于完全自主知识产权的高性能服务器、整机柜和网络设备等,百度自主设计并建设了数个亚洲一流的数据中心,自主研发了整机柜服务器并已投入使用数十万台。通过基础设施、IT设备及软件协同,定制低功耗服务器等多项绿色节能技术,百度自建数据中心全年约一半时间实现完全免费冷却(freecooling)。 2013年,该数据中心最佳PUE(power usage effectiveness,电力使用效率)为1.16,成为国内最节能、最环保的数据中心。

  2.4 人工智能技术全面提升大数据处理能力

  百度高度重视人工智能技术的发展,经过多年的坚持努力,在语音识别、图像识别、自然语言理解、机器学习、智能交互、数据挖掘、个性化推荐的研究和应用领域打下扎实的技术积累,攻克多项技术难题,人工智能技术已经达到国际领先水平。

  百度目前已拥有全球最大规模的深度神经网络,并实现全球最大规模的GPU并行计算平台。百度的深度学习技术被应用在语音、图像、文本识别、自然语言处理和 CTR预估等商业产品领域,取得显着的成效。同时,百度也积极将人工智能技术应用于大数据领域,通过机器学习和深度学习等技术提升数据智能,寻求现有问题的解决方案,并实现更好的预测。

  3 大数据推动搜索引擎的演进

  以百度为例,用户在搜索的过程中留下信息,其中有大量的文本、图片和影音等数据,形成了海量的数据资源,百度对这些复杂的异构数据进行处理分析,发掘价值,实现更多大数据应用。大数据技术推动着搜索引擎不断向前演进。

  3.1 智能交互

  随着用户需求更趋于复杂化和个性化,从最初的获取信息,到现阶段希望能够通过搜索引擎直接获取答案、连接服务,这就需要实现海量数据的挖掘和智能处理,实现人和服务的精准匹配。另外用户也更趋向于自然的交互方式,据统计,现阶段在百度的搜索请求中10%是以语音的形式表达的,而未来5年使用语音和图像来表达需求的比例将超过50%。基于如此真实强大的需求,为了不断提升用户体验,百度在图像识别和语音识别这两项前沿技术领域实现突破,并取得了一系列领先成果。

  百度在2010年开始进行智能语音及相关技术研发,推出了第一代基于云端识别的互联网应用“掌上百度”。2012年11月,百度上线了中国第一款基于DNN 的汉语语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一。目前已经积累了数万小时的声学训练语料和海量文本语料[1],线上语言模型体积超过100GB,支持小时级别的海量语言模型更新。语音识别DNN深达9层,基于听觉感知的深度学习声学建模技术可以实现更高的精准度和识别率。在安静情况下,百度的普通话识别率已达到95%以上,处于国际领先水平。百度语音技术对内应用于手机百度、百度输入法、百度地图、百度导航等一系列产品,同时对外推出开放平台,提供多个垂直领域的识别和解析服务,合作伙伴超过30个,覆盖汽车、医疗、手机、电商、家电和车载等十几个领域和方向。

  在图像识别领域,百度在2012年底将深度学习技术成功应用于OCR识别和人脸识别,并推出相应的PC端和移动端搜索产品[2]。 2013年,深度学习模型被成功应用于一般图片的识别和理解。目前百度的人脸识别准确率超过98%,处于国际领先水平,图像识别技术已经用于手机百度、百度识图等多个应用中。从百度的经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。目前利用CNN(卷积神经网络)和RNN(递归神经网络)技术,百度成功地实现将图像内容生成自然语言的描述性句子或段落,从而在高层语义层面建立了图像和自然语言之间的桥梁,也就是“机器读图”,这可以说是人工智能领域的一次技术飞跃。

1  2  3  4  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号