CMIC：开源模式——促进大数据发展的主导力量

CMIC相关研究

电子信息通信
计算机与外设软件与IT服务消费电子平板显示行业信息化通信与网络互联网与电子商务数字电视电子元件半导体物联网移动互联网云计算小家电家电电器地理信息其他
经济金融商业
银行保险证券期货投融资企业上市中小企业其它
汽车机械仪器
汽车汽车零部件机械设备仪器仪表专用设备其他
交通运输物流
交通设备铁路运输公路运输水上运输航空运输物流仓储交通运输其它
房产建筑家居
建筑房地产卫浴家居纺织其它
生物医疗健康
医药医疗器械医疗服务生物保健护理其他
能源环保材料
能源采掘节能环保原材料新材料新能源冶金化工其他
文化教育娱乐
教育培训造纸印刷出版业文具娱乐旅游信息传播其它
日用消费服务
餐饮烟酒食品饮料服装鞋帽化妆美容其它
其他行业
农林牧渔批发零售其他

热线电话

010-88558925010-88558943
010-88558955010-88558948

CMIC专家更多

赛迪院长张立：中国新

全球范围内，中国步入培育经济增长新动能的...更多>>

中国市场情报中心 > 首页 > 焦点图

CMIC：开源模式——促进大数据发展的主导力量

发布时间：2016-11-23 09:54:19

来源：赛迪智库

作者：蒲松涛

【打印】【进入博客】【推荐给朋友】

　　【CMIC讯】从云计算、大数据、物联网、人工智能等新一代信息技术创新历程可以清晰地看出，开源模式活跃在各个领域，更为重要的是，随着全球各大科技巨头的竞相加入，开源模式正逐渐成为推动大数据等各领域技术创新的主导力量。

　　开源已成为大数据技术创新的主要模式

　　大数据源于开源，并基于开源不断演进发展，自身就已具备了开源基因。经过若干年的发展，开源软件和开源工具已经覆盖了大数据产业发展的各个环节，基于开源软件，企业可以快速构建大数据应用平台，提供丰富的大数据开发和应用工具。当前，从小型初创企业到行业科技巨头，各种规模的企业都在使用开源软件和工具做大数据处理和基于数据的预测分析。由此可见，开源不仅驱动着大数据技术的创新演进，也推动着大数据产业的不断进步，对繁荣大数据应用生态起到了不可忽视的作用。

　　严格来说，大数据并不是一个产业或市场，而是一类问题，或者一种思维。从这些思维和问题中获得价值，需要完整的信息基础设施，并配套以相关的技术和工具，这些共同构成大数据应用的生态。因此，把大数据当作产业来看待，其生态体系的外延是非常广阔的。

　　狭义来看，按照应用流程，大数据生态链包括数据采集、数据存储、数据应用和数据可视化等环节；从广义来看，大数据生态链贯穿数据的整个生命周期，包括各种基础设施和软件系统，从数据的产生到采集、传输、分享到存储，再到分析挖掘，直至最终的呈现与应用。从技术的应用范围和重要性可以看出，数据的存储、数据处理、价值挖掘和数据可视化等是大数据产业环节中的重点领域。

　　开源技术创新引领大数据基础平台演进

　　对于云计算发展而言，开源基础平台如OpenStack、CloudStack的发展是推动云计算技术创新和行业应用的关键。与之类似，大数据的发展与开源软件的不断创新密切相关，在大数据处理平台这个基础性并处于核心地位的环节，开源技术的创新成为了引领其不断演进的主要动力。

　　Hadoop是推动大数据应用的基础平台，是基于GFS和Mapreduce的开源实现。尽管在Hadoop之前也有一些类似的分布式存储和计算平台，但真正能实现工业级应用、大幅降低应用门槛、带动各行业大规模部署的无疑当属Hadoop。受益于MapReduce框架的易用性和容错性，以及对先进存储系统和计算系统的集成，Hadoop成为大数据处理平台的主要基石。

　　在大数据产业发展的初期，Hadoop可满足90%以上的离线存储和离线计算需求，它成为各大公司早期大数据平台的首选。可以说，没有Hadoop就没有今天的大数据产业发展。自Hadoop起，大数据平台几经升级及更替，发展出两主线、多支线的演进态势，但不管是主线亦或是支线，开源都是大数据平台技术创新的主要模式，开源软件始终是大数据基础平台的重要属性。

　　主线一是Hadoop生态，主要组成包括Hadoop、Pig、HBase、ZooKeeper、Hive、Yarn和Impala，主要组件提出于2008年之前，Yarn和Impala分别提出于2011年和2012年。Pig是一种开源编程语言，可加载数据、表达转换数据和存储最终结果，其内置操作可处理半结构化数据；HBase是一个分布式的、面向列的开源数据库，在Hadoop之上提供了类似于Bigtable的能力，是一个适合于非结构化数据存储的数据库；ZooKeeper是一个分布式的开源分布式应用程序协调服务，可提供配置维护、名字服务、分布式同步、组服务等功能；Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为数据库表，并提供简单的SQL查询功能；Yarn是一个全新的MapReduce框架，可为从根本上解决传统MapReduce框架的性能瓶颈，对促进Hadoop框架应用发展发挥重要作用；Impala可以直接为Hadoop数据提供快速，交互式的SQL查询。

　　主线二是Spark生态，包括Spark、Shark、SparkStreaming、Bagel、GraphX、SparkSQL等，Spark提出于2009年，主要生态组成提出于2011年至2014年。

　　Spark是开源类Hadoop框架，可将中间输出结果保存在内存中，因此计算速度较Hadoop有几倍到几十倍的提升，在成熟之后得到了迅速普及；Shark可通过Hive的HQL解析将其翻译成Spark上的RDD操作，具有运算速度快、兼容性强等特点；Spark Streaming、Bagel、GraphX、Spark SQL等开源软件均以Spark为基础，从实时计算框架、图计算模型、图模型API、数据查询等方面对原有平台进行了优化或补充。

　　除Hadoop、Spark之外，还涌现出了一批支线平台，绝大多数是开源的，主要代表有Hypertable、Cassandra、Dryad、S4、Kalka、Haloop和Storm。其中，Storm完全摆脱了MapReduce架构，重新设计了一个适用于流式计算的架构，以数据流为驱动触发计算，计算时效性高，适应有向无环图计算拓扑的设计，计算方式较为灵活，在业界得到了一定的部署应用。

　　科技企业是大数据开源软件发展的主要力量

　　表面上看，大数据基础平台和主要环节的技术创新均是基于开源模式推动的，全球各界人士均有平等的参与和应用机会。但是，从技术演进的确定权和影响力来看，大数据领域的技术创新离不开全球主要科技企业的参与。

　　科技企业既是大数据技术创新的主要力量，同时也围绕开源世界的游戏规则不断扩大行业影响力，紧抓技术创新前沿，抢占大数据技术发展和标准制定的话语权，培育发展形成以企业核心竞争力为中心、以开源为主要方式的新型产业生态。

责任编辑：拂晓晨风

中国工程院院士沈昌祥

赛迪院长张立：中国新