侵权投诉
当前位置:

OFweek物联网

智能计算

正文

Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来

导读: 1985年毕业于美国斯坦福大学的DougCutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父?以及这10年中,Hadoop的发展和未来期待又是如何的?

  1985年毕业于美国斯坦福大学的DougCutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父?以及这10年中,Hadoop的发展和未来期待又是如何的?

  上次见到(膜拜)Hadoop之父DougCutting是在2年前,2014中国大数据技术大会上。今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝。最近CSDN和InfoQ都在制作Hadoop选题。云栖社区也找到不少阿里Hadoop生态高手,2-3月会做多场实时在线培训。大家想听什么,告诉我们。

  2013年时,CSDN曾有文章详细介绍了Hadoop之父DougCutting。直到现在,再次阅读还是深有体会。要知道,1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的。在大学时代的头两年,Cutting学习了诸如物理、地理等常规课程。因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用、有趣的技能。这样,一方面可以帮助自己还清贷款,另一方面,也是为自己未来的生活做打算。因为斯坦福大学座落在IT行业的“圣地”硅谷,所以学习软件对年轻人来说是再自然不过的事情了。

  Cutting的第一份工作是在Xerox做实习生,Xerox当时的激光扫描仪上运行着三个不同的操作系统,其中的一个操作系统还没有屏幕保护程序。因此,Cutting就开始为这套系统开发屏幕保护程序。由于这套程序是基于系统底层开发的,所以其他同事可以给这个程序添加不同的主题。这份工作给了Cutting一定的满足感,也是他最早的“平台”级的作品。

  可以说,Xerox对Cutting后来研究搜索技术起到了决定性的影响,除了短暂的在苏格兰工作的经历外,Cutting事业的起步阶段大部分都是在Xerox度过的,这段时间让他在搜索技术的知识上有了很大提高。他花了四年的时间搞研发,这四年中,他阅读了大量的论文,同时,自己也发表了很多论文,用Cutting自己的话说——“我的研究生是在Xerox读的。”

  尽管Xerox让Cutting积累了不少技术知识,但他却认为,自己当时搞的这些研究只是纸上谈兵,没有人试验过这些理论的可实践性。于是,他决定勇敢地迈出这一步,让搜索技术可以为更多人所用。1997年底,Cutting开始以每周两天的时间投入,在家里试着用Java把这个想法变成现实,不久之后,Lucene诞生了。作为第一个提供全文文本搜索的开源函数库,Lucene的伟大自不必多言。

  之后,Cutting再接再厉,在Lucene的基础上将开源的思想继续深化。2004年,Cutting和同为程序员出身的MikeCafarella决定开发一款可以代替当时的主流搜索产品的开源搜索引擎,这个项目被命名为Nutch。在此之前,Cutting所在的公司Architext(其主要产品为Excite搜索引擎)因没有顶住互联网经济泡沫的冲击而破产,那时的Cutting正处在Freelancer的生涯中,所以他希望自己的项目能通过一种低开销的方式来构建网页中的大量算法。幸运的是,Google这时正好发布了一项研究报告,报告中介绍了两款Google为支持自家的搜索引擎而开发的软件平台。这两个平台一个是GFS(GoogleFileSystem),用于存储不同设备所产生的海量数据;另一个是MapReduce,它运行在GFS之上,负责分布式大规模数据。基于这两个平台,Cutting最引人瞩目的作品——Hadoop诞生了(后来大家习惯认为Hadoop于2006年1月28日诞生的)。谈到Google对他们的“帮助”,Cutting说:“我们开始设想用4~5台电脑来实现这个项目,但在实际运行中牵涉了大量繁琐的步骤需要靠人工来完成。Google的平台让这些步骤得以自动化,为我们实现整体框架打下了良好的基础。”

  说起Google,Cutting也是它成长的见证人之一,这里有一段鲜为人知的故事。早在Cutting供职于Architext期间,有两个年轻人曾去拜访这家公司,并向他们兜售自己的搜索技术,但当时他们的Demo只检索出几百万条网页,Excite的工程师们觉得他们的技术太小儿科,于是就在心里鄙视一番,把他们给送走了。但故事并未到此结束,这两个年轻人回去之后痛定思痛,决定自己创业。于是,他们开了一家自己的搜索公司,取名为Google。这两个年轻人就是LarryPage和SergeyBrin。在Cutting看来,Google的成功主要取决于,反向排序之后再存储的设计和对自己技术的自信。

  出于对时间成本的考虑,在从Architext离职四年后,Cutting决定结束这段Freelancer的生涯,找一家靠谱的公司,进一步完善Hadoop的性能。他先后面试了几家公司,其中也包括IBM,但IBM似乎对他的早期项目Lucene更感兴趣,至于Hadoop则不置可否。就在此时,Cutting接受了当时Yahoo!搜索项目负责人RaymieStata的邀请,于2006年正式加入Yahoo!。在Yahoo!,有一支一百人的团队帮助他完善Hadoop项目,这期间开发工作进行得卓有成效。不久之后,Yahoo!就宣布,将其旗下的搜索业务的架构迁移到Hadoop上来。两年后,Yahoo!便基于Hadoop启动了第一个应用项目“webmap”——一个用来计算网页间链接关系的算法。Cutting的时任上司(后为HortonworksCEO)EricBaldeschwieler曾说:“在相同的硬件环境下,基于Hadoop的webmap的反应速度是之前系统的33倍。”

  谈到成功,Cutting认为他的成功主要归功于两点,一是对自己工作的热情(Cutting在大学时就开始做Infrastracture类的程序,还用Lisp为Emacs贡献过代码,他非常喜欢自己的程序被千万人使用的感觉);二是目标不要定得过大,要踏踏实实,一步一个脚印。

  现在已经被业内称为Hadoop之父的Cutting在Hadoop10年来到之时发表文章:HadoopAt10:DougCuttingOnMakingBigDataWork。InfoQ翻译了中文(原文内容,翻译)。让我们一起看看他眼中的大数据技术的未来是怎么样的?

  (换为本人叙述模式)2016年1月28日,是Hadoop诞生十周年。此纪念日既给予了我们机会去庆祝过去10年来ApacheHadoop所取得的进步,也让我们反思是如何取得今天的一切成就,同时以便更好地规划未来的发展目标。

  Hadoop是为了大数据而诞生的,其本身就象征着本世纪工业革命的焦点:业务的数字化转型。十年前,数字化业务仅仅在少数几个行业中得到了应用,例如电子商务和媒体。从那时起,我们已经看到数字化技术将成为几乎所有行业必不可少的一环。每一个行业都正在致力于围绕其信息系统构建数据驱动型运营模式。像Hadoop之类的大数据工具可以使各行业能够从他们所产生的数据中获得最大的利益。

  Hadoop本身并非是数字化转型的根本起因,但是它是推动这种发展趋势的重要因素。因此,通过追溯Hadoop的发展历史,可以更好地了解我们现在所处的世纪。

1  2  3  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号