返回上一页
数据和基础架构将成互联网更核心竞争力
来源:不详 2012-10-11
日前,国家外国专家管理局教科文卫司副司长雷风云,北京航空航天大学校长、中科院院士怀进鹏,北京大学教授、中国工程院院士梅宏、中科院院士林惠民、周巢尘,南京大学副校长吕健,英国爱丁堡大学教授、学者樊文飞、美国亚利桑那州立大学教授蔡维德等业界著名专家受邀携手百度副总裁王劲、百度云首席架构师林仕鼎,共同出席了北航举办的“第一届大数据科学与工程国际学术研讨会”。
作为百度云首席架构师,林仕鼎对大数据时代下的软件开发及系统架构有着深入的观察和理解。此次研讨会上,他发表了主题演讲,从互联网行业视角,为与会嘉宾诠释了大数据带来的变革。
“云计算时代,IT产业生产力发生了重大变化。”林仕鼎说:“在PC时代,软件是主要的生产力,开发完并售出后就与开发人员没有太多关系,他们最多只需做些售后支持。进入互联网时代,IT产业生产力变为了软件+人,一个软件开发出来后,会有很多工程师不断地去升级这个软件。”

到了云时代,IT产业生产力则变革成了基础架构+数据+人。林仕鼎表示:“在这个新时代,我们可以把软件和基础架构看成一个系统,会有更多的人加入进来修改和维护这个系统,同时,我们又能依靠海量数据来完善这个系统。”而快速迭代就是基于这一IT生产力运作的。
林仕鼎说:“迭代的本质是让人参与到系统的进化中。快速迭代一方面需要借助A/B test方式来验证功能的优劣,另一方面,还需要将离线分析与在线实验相结合,在后台做大量分析。”因此,大数据为快速迭代指明了方向,而基础架构能力的强弱会影响分析的速度,进而影响迭代速度。
以百度搜索系统的快速迭代为例,“在世界杯的开赛前后、决赛前后,用户搜索‘世界杯’时的需求是不同的,这就需要算法有非常强的自我学习和调节能力。我们可以依靠机器学习来实现对用户需求的把握。” 林仕鼎解释道,“比如,对于某个query(问题),我并不清楚什么样的搜索排序比较合适,于是我们写两个排序方法,并在用户中随机选5%的用户使用排序方式A,5%的用户使用方式B,然后将对比的结果和数据反馈回机器学习平台,去分析、挖掘相关算法的优势,进而完善百度系统。”
正如林仕鼎所言,基础架构能力的强弱会影响分析的速度,进而影响迭代速度,支撑着百度快速迭代的正是其强大的基础架构能力。

“百度不仅建立了统一的分布式存储系统,可支持上百PB数据处理量的分布式计算系统,还拥有先进的实时存储与计算系统。”林仕鼎详细介绍了实时存储与计算系统的架构,“我们在底层建立分布式的数据结构,在这一基础上开放接口,建立和处理相关的引擎,如向量计算引擎、流式计算引擎等,以实现大规模向量、矩阵、复杂文件等的处理。在这些处理引擎之上,我们可以建立图算法、机器学习算法等,实现不同类型应用的实时存储与计算。”
如今,基于这一新的生产力形态,数据和基础架构在竞争中的地位愈加显著。百度在数据和基础架构能力方面已经拥有非常强大的实力,处理的数据量已达上百PB,比一般互联网公司高1~2个数量级,系统架构能力居于世界领先地位。
最新资讯
手机版

公众号

头条号


