中国大数据行业的下一步走向-云信互联Pass平台

中国大数据行业的下一步走向

来源：原创时间：2017-07-26 浏览：6391 次

（1）先说说大数据热潮的推动力

要想了解清楚大数据行业下一步往哪里走，必须要先看清楚大数据这个行业，主要是被哪几股力量在推动着。在大数据行业前进的每一步，你都要思考这些多方推动力量的此消彼长。

一、基础设施支撑：说大数据还得从云计算说起

早在2004年，各种虚拟机就出现了。当时人们不叫云计算，只是觉得可以把一台高性能的服务器切成N个虚拟机，这样便于一些边缘应用系统、或者测试环境能在上面跑，不需要单独独占一台物理服务器。后来人们还注意到一个好处，就是可以环境隔离。现在开发应用系统都要依赖很多底层框架，这些框架具有依赖性，还带有版本依赖性，所以不同应用系统需要的依赖关系以及版本都不同，要部署在一起就非常复杂，非常容易连锁异常牵一发动全身。这个隔离性特点更值得大家关注。

2011-2013这三年，国家层面鼓动云计算、新能源、基础网络设施建设，在大背景口号下，搞了不少高新产业园，批了不少地，建立了不少IDC机房，号称云基地。首先是服务器、机架、电力、带宽这些基础算是上了一个新台阶了，这也算是一个进步。

2012年开始，OpenStack开源风起，虚拟机的集群管理终于有主了，云服务商可以大规模进行虚机管理了。2014年，Docker和Kubernates开源风起，也是起到了更轻便资源占用的隔离性。

到底要在云上干些什么，什么应用场景是要严重依赖云的大规模计算技术和存储技术？是互联网媒体？是社交IM？是网络游戏和手机游戏？是视频播放与直播？是B2C电子商务？是企业SaaS？是智能硬件云端物联？还是大数据平台？

二、企业信息掌控者被迫转型：说大数据还得从企业SaaS说起

2014-2016这三年，大量创业SaaS产生，纷纷搭建在云虚拟主机集群上。而且都以低租金、公有形式进行售卖和实施。

过去需要大金额购买服务器、网络带宽、存储、磁盘、操作系统、中间件、安全软件，需要进行严谨合规的立项、招标评标，需要安装部署实施、初始化配置、复杂功能IT操作培训，还需要持续监控、运维、性能调优等等，现在都不需要了。

免费开通免费用，过了试用期觉得不错就续费，一个月才上千元，还可以直接支付宝或微信支付。

这意味着企业IT部门没事干了，被架空了。这点租用费，企业业务部门都能自己出，而且试用好才购买。而且现在搞企业SaaS都非常注重产品用户体验，所以也不用像过去那样需要专业的IT操作培训了。而且现在企业SaaS商把安装部署、初始化、持续运维监控优化、备份迁移，全都自己在后台包了，不用企业业务部门和企业IT部门操心了。

不仅是企业SaaS抄了企业IT部的后路，而且企业新兴业务也都抄了企业IT部的后路。现在企业都纷纷转型“+互联网”，重心就是开展互联网营销和电子商务交易。但是，互联网营销被营销部拿走了，电子商务交易被销售部或者新成立的电子商务事业部给拿走了。企业IT部就剩下老业务老系统，新的扩张的疆域都是别人的，这下企业SaaS都来了，企业IT部门就更没有未来了。

那企业IT部的出路在哪里？CIO想到了云计算、大数据、人工智能这三个热点。

但买一堆云主机、云网络、云存储、云数据库，企业到底要干什么？做互联网营销，有微信公众号、微博、百度SEO、贴吧、微信群、QQ空间等等，做电子商务有京东POP和天猫平台等等第三方平台，即使搞官方独立旗舰店，也有微店、有赞这样的低收费甚至免费的移动APP。现在连内部系统都SaaS化了。要一堆云主机、云网络、云存储、云数据库，干嘛？

嗯，大数据。企业信息官（CIO），转型成为CDO（企业数据官）。你们开展互联网业务、电子商务业务，都是沉淀数据，我汇集数据、利用数据、产生数据价值。

三、国家信息战略推动：说大数据还得从贵州大数据说起

国家提完云计算，一堆IDC建设起来了。国家从2014年又开始提大数据，这堆IDC终于能利用上了。于是各种扶植补贴、税收优惠政策又都出来了，媒体也在纷纷提大数据，各地政府、政府业务部门、经信委都在立项大数据。有的在搞大数据共享平台，有的在搞大数据产业服务平台。这都是考核KPI啊。每个干部都要成为21世纪的新型干部，要学习互联网，善于利用互联网，要用数据来指导工作，要利用数据进行资源整合组织。

于是，一批奔着风投热潮、国家口号热潮、国家补贴政策热潮的厂商都蜂拥而至。

四、技术实现：说大数据还得从大数据开源技术说起

来了，得卖产品啊。但卖啥大数据产品啊。

幸亏开源来了：

1、Redis、MongoDB、influxDB...，提供了各种各样数据类型的分布式存储引擎

2、Sqoop、kafka，提供了海量数据的抽取和传输

3、Hadoop提供了海量大数据的存储引擎和计算引擎

4、Hbase、Hive，提供了大数据仓库技术

5、Presto、Spark、Storm，提供了更快的查询、更快内存运算速度、更及时反馈结果的流式计算

6、Lucene、Nutch、Solr、ElasticSearch，提供了海量信息的爬虫、索引、搜索

7、Flume、Logstash、Splunk、Kibana，提供了海量日志收集、用户点击流收集

终于有底层系统产品可以卖了，嘿嘿。真是应了我常说的那句话：硅谷不开源，中国IT企业就捉急死了。

但是企业买了一堆这些底层系统产品又能干嘛呢，这不是企业的目标啊。

（2）大数据应用

第一阶段：数据仓库与商业智能

企业IT部门买了一堆大数据底层系统产品和一堆云主机云存储云网络，接下来怎么干？

那就先从自己最熟悉的数据仓库、报表统计、图表展示、商业智能开干。但是，数据仓库和商业智能已经在企业领域被洗脑被上线建设搞了N次了，这次再上线大数据仓库的理由是啥？

企业搞商业智能已经走过了两个阶段：

1、统计报表阶段。产品经理或业务分析师定义报表模型，由软件工程师SQL语句写出报表。但这样的玩法性能差、定制差（想组合一些指标来做报表，每次得新写SQL）

2、商业智能阶段。把数据ETL到多维数据仓库，可以多维指标自由组合，弥补了报表制作技能要求门槛、成本、开发效率的问题。由于专门多维数据仓库技术架构处理，所以报表跑的性能也高。

但是，传统的商业智能技术架构在如今又遇到问题了。第一是数据增多了。企业从单点窗口业务处理，一路走来到企业内部部门之间联动，到集团化多元化，业务系统上的是遍布企业各个部门各种业务，企业规模是越来越大分支机构越来越多，数据多年积累的也越来越多。所以过去BI能够很快出报表结果的，现在等好长时间才能出来，这就让管理者很不爽。甚至有些报表需要运行好几个小时，更恐怖的要运行几天。怎么优化呢？没法优化，过去的数据仓库和商业智能的技术架构就决定了没法扩展。

第二是数据类型增多了。由于智能移动手机的出现，各种非结构化数据甚至流数据产生了，比如社交消息、地图路径、位置、照片、视频、录音，开始受到热点重视，导致传统的商业智能技术架构难以高性能存取这些非结构化数据。

所以，分布式扩张的、存取各种数据类型的大数据技术平台出现了，传统的数据仓库和商业智能需要升级了。

能把这些需求满足了，也是一种进步啊。各位高大上的大数据技术公司，虽然这可能不是最正道的大数据，但千万别把数据仓库不当事啊。这才是客户真实的第一步刚需啊。

但要建设好数据仓库与商业智能也不容易。大数据建设有两个难点：一个难点是大数据建设的团队打造，另一个难点是数据处理。

要想建设好大数据，需要很多专业团队互相配合才能成功，这里需要：大数据技术平台研发团队、大数据技术平台运维团队；数据ETL抽取清洗团队、数据特征标准团队；商业建模产品团队、数据算法研究团队；商业数据分析团队。

在数据处理方面，每个关键环节目前仍然存在需要大的困难。在数据收集环节，要收集到全产业链社会数据、现场数据、社会数据，需要我们打造产业链SaaS平台、需要我们进行全产业链智能化改造，需要我们和众多互联网公司电商公司金融公司合作交换数据；在数据加工环节，需要加强系统集成、数据标准设计、主数据质量管理；在数据抽取环节，需要对不同来源不同结构的数据进行业务逻辑性的剖析，你才能做到数据正确的抽取转化，这需要数据ETL人员对业务、对数据逻辑都有深刻的理解；在数据价值应用环节，商业洞察一直是难题，不管是商业分析模型的构建、人工智能算法的应用、商业数据的洞察解读，都需要商业建模产品团队、数据算法研究团队、商业数据分析团队三者紧密合作，而他们的知识结构和思考重心全都不一样，能共同互补产生出价值分析，这确实很难。

所以对于大数据技术公司，最好的落地方式就是和行业应用软件商、行业解决方案提供商一起合作，一方提供很牛的大数据技术平台，一方提供很好的业务分析模型。这需要建立很好的合作伙伴生态体系，才能提供各行各业的业务分析。

对于大数据技术公司被迫自己去了解业务、去搞行业业务分析模型，这简直是找死。

第二阶段：社会化大数据

过去的数据大多来自企业内部，即使企业扩张为集团、多元化事业部群、上下游渠道商、合作伙伴、供应商、配套商，也只是企业内部。这些各个环节信息化建设、产业链信息化整合建设，在大型领头羊企业中，近十年内已经完成。

现在产生了社会化数据需求的根源，在于企业要实施“+互联网”战略升级转型，开展互联网业务（营销与客户社区）、电子商务交易业务、金融信贷保险典当质押业务、智能产品智能服务后市场业务、产业链服务生态开放业务。

所以产生了社会化大数据平台建设热潮：

1、社会化大数据支撑互联网业务：主数据画像、精准营销推送、精准搜索、精准排名、精准推荐、互联网及社交媒体舆情监控

2、社会化大数据支撑电子商务：点击流/用户行为分析、用户体验改进；采购预测、定价预测、促销预测、仓储合理安排规划、物流路径智能推荐

3、社会化大数据支撑金融业务：社会360度数据收集（Open API市场、数据交换市场）；区块链存储可信可追溯不可篡改数据；信用评估

4、社会化大数据支撑智能服务后市场业务：产品使用习惯信息收集、产品磨损信息收集；产品维修远程诊断；产品保险智能推荐、产品保养推荐；产品转卖二手残值评估、产品典当抵押残值评估

5、社会化大数据支撑产业链服务生态开放业务：主数据开放、用户行为用户消费习惯大数据开放、信用数据开放、统计分析数据开放，为整个产业链端到端，由产品功能设计研发、原料采购、定价、生产数量、生产节奏、仓储物流规划、销售、售后服务支持，全产业链优化与联动

第三阶段：物联大数据

除了互联网社区、自媒体内容、移动照片/视频/IM消息、电子商务业务结构数据外，还有更大一部分数据没有收集，那就是现实一线的数据，它们需要通过在一线现场的各种无人设备、飞行设备、传感器、可穿戴设备、摄像头人工智能识别、AR设备来收集。

硬件工艺是中国制造的短板，所以近几年中国智能硬件的风投几乎全都扑街。想各个产品嵌入智能硬件，这个工艺改动和量产就有待时日。所以，各个产品的智能数据上传到云端，并且还能通过智能物联云达到产品之间的互动，这可能更有待时日。

但手机和摄像头是中国成熟硬件，这样最擅长拍照和视频记录，上传到后端来进行人工智能识别处理。所以，这里需要大数据存储平台和人工智能处理引擎，搞图片识别、语音视频、视频识别、文字识别。

人工智能这个领域已经持续了够30多年了，总是起起伏伏，不断希望不断失望再不断希望。现在就突然又火起来了。原因是什么？

原因就在于人工智能现在其实并不智能，并不能黑科技到模仿人脑子那样（听说IBM搞了这样一个黑科技）。而现实中的人工智能，需要大量的外界数据输入，人工智能算法模型经过不断数据训练，才能变得越来越智能。

过去，从数据产生、数据收集、数据传输、数据存储、数据计算，各个环节都底层不支撑，所以人工智能一直没有大数据来训练改进。现在有了物联传感设备、移动手机、可穿戴设备、互联网社区、电子商务、企业SaaS、高速网络通信、云计算云存储、大数据技术平台，使这一切成为可能。

而这一波火起来的人工智能为啥聚焦在语音识别、图片识别，这和移动智能手机的兴起也很有关系。移动智能手机取消硬键盘，大量依靠多点触摸，语音、摄像头拍照图片、摄像头拍摄视频，成为信息产生的主流。这些数据多了、应用需求多了，所以人工智能就在这些方面聚焦了。

为什么我一直强烈建议大家要在云上搞大数据，而不是私有部署大数据，就是因为人工智能需要大数据训练，尤其是实时的在线的大数据，只有源源不断的、新鲜的大数据来训练，人工智能才能提升。

而且，站在社会化大数据收集、互联网和电子商务业务开展、企业SaaS开展、产业链服务平台开放角度来看，云上的大数据也必然是趋势。

（3）最后说说大数据的选型

一、先谈谈大数据的独特性

1、大数据需要的是全部数据而非抽样数据

2、大数据需要实时、在线

3、关注运算效率而不是精确

4、关注相关性而不是因果关系

二、再谈谈大数据技术的成熟度

2011年，Hadoop1.0发布；2012年，OpenStack开放给业界；2013年大数据查询框架Presto发布；2014年，Spark1.0和Docker1.0发布；2015年，HBase1.0发布和分布式关系数据库GreenPlum开源，2015年区块链技术OpenChain也开源了；2016年，Storm1.0和Elastic5.0发布；

在人工智能领域，2015年2016年是爆发性的两年。2015年微软开源了分布式机器学习包DMTK；2015年Google开源了深度学习系统TensorFlow；2016年雅虎开源了人工智能引擎Caffe On Spark；2016年Facebook开源了图像识别包DeepMark。

这么来看，大数据正处于蓬勃发展期，远远还没有到达竞争格局固定期。

三、再看看大数据技术的发展趋势

1、从数据收集方面来看：大数据主要还是通过自己自建互联网、电商、物联业务在收集，还有一些是通过战略投资控股来收集。通过公开的大数据交换甚至交易平台来收集数据的还比较少，大家在公开的数据售卖、数据风险安全、数据定价方面还有不少阻碍。公有区块链技术和专有区块链网络，可能会加速数据在可限可见度的数据售卖、数据风险安全管理进步。

2、从处理效率方面来看：我们从离线分离OLAP和OLTP处理数据，到大数据平台（如Hadoop/MapReduce）批处理数据，到现在要求实时处理数据（先期发挥内存快速计算的优势来实时，后期发挥流式计算的优势来实时）。

3、从处理深度方面来看：我们从常规的查询统计，开始走向搜索推荐与深度学习，未来我们会走到模式识别。

4、从技术架构方面来看：分布式、无中心、理论上可无限节点扩展的技术架构是主流。而软硬一体机、大型主机的这种大数据，则不是发展主流。这对于老牌IT巨头是个危险。

5、从技术实现方面来看：开源大数据技术成为主流，封闭的专有的技术代码不被看好。

四、最后说到如何选型大数据服务提供商

刚才讲到大数据应用分为三个阶段：

1、第一阶段是数据仓库和商业智能。难点不在于用开源的大数据技术来搭建平台，而难点是构建很好的行业应用合作伙伴生态，进行业务数据逻辑分析、业务价值模型建模、数据结果洞察。谁有能力构建好这个行业应用合作伙伴生态，谁就有竞争力。

2、第二阶段是企业“+互联网”社会化大数据。难点在于各种互联网精准营销、电子商务业务智能、互联网金融信用评估这些关键应用场景的建设。谁具有丰富的互联网精准营销、电子商务业务智能、互联网金融信用评估的经验，谁就有竞争力

3、第三阶段是物联数据，难点在于物联设备的研发、物联数据的收集、物联设备之间的互动控制、物联数据的识别、物联数据的分析。这需要有很强大的智能硬件能力、智能物联云的经验、人工智能识别技术能力。谁有这些能力谁就有竞争力

短信验证码

会员营销短信

国际短信

语音短信

彩信

每一位客户都是我们的核心财富

中国大数据行业的下一步走向

关于我们

开发者中心

产品服务