云计算是继互联网之后的又一次大的信息技术浪潮。它已经无可争议地成了信息产业的主旋律。本文就北美围绕和利用云计算平台的创业,及发展趋势做一简单介绍。挂一漏万,在所难免。 何谓云计算 什么是云计算?笔者发现,尽管人人都在谈论云计算,但不同的人,对云计算的理解是不同的。早在2008年初,维基百科对云计算的定义是:软件即服务(SaaS)+网格计算(Grid Computing)+虚拟计算(Virtual Computing)+管理系统(Management System),当然,随着这几年的演化,云计算的概念或定义与当初的不一样了。 尽管不同的人对云计算的理解可能不同,但从这个原始定义中,我们能看出,云计算是多种技术发展融合的产物。云系统模型可以分三种,即公共云、私有云和混合云。如图1:
图1 云系统模型 如果按照服务类型划分,有四种,即:IaaS, PaaS,SaaS 和 NaaS,如图二(来自维基百科)所示。其中,IaaS包含了Storage as a Service。但也有人把Storage as a Service归入Platform as a Service中,各有各的道理。另外,值得指出的是也有人把个人云单列出来,个人云(Personal Cloud) 是指一个放在消费者家中的或小企业里的服务器,可以通过互联网在任何地点通过不同装置(手机,平板电脑和个人电脑等)访问的私有云。笔者以为,严格地说,个人云不能算作“云”,这里我们不做详细讨论。
图2 云平台类型(转引自维基百科) 图二里的 IaaS 包含了NaaS (Networks as a Service)。关于 NaaS 的内涵,不同的人可能也有不同的理解,但许多人已经认为,基于 OpenFlow xu讯协议的SDN (Software-Defined Networking) 是实现 NaaS的途径。 SDN将颠覆传统网络的建设方法,因此SDN 是最近云计算领域里比较热门的话题。由于SDN仍处于非常早期的阶段,大量的投资和许多创业者涌进了这个领域开始淘金。 比如,去年7月, VMware用12.6亿美元收购了成立只有五年的 Nicira。更有甚者:去年十二月,Juniper Networks 用1.76亿美元收购了成立不到一年的 SDN公司 Contrail Systems,其热度可见一斑。 云计算的细分领域 虽然图2是人们普遍接受的云计算说明图,但是这个图太过简单,且不同的人对其内涵的理解也不甚相同,更无法解释云计算的基本特征,即“按需使用” (On-Demanding),也没有包括云计算的重要领域:大数据。 当人们谈到按需使用计算资源时,许多过程必须是自动的。这种自动的需求包含在云计算涉及的许多细分领域,细分领域是许多创业公司和小公司的机会。我把云计算细分领域列在表一里,由于没有统一的标准,这种分法带有相当的主观性。同时,并不是每个系统都具备或都需要这些子系统。有的子系统,比如SDN,还是新领域。目前,可以提供IaaS/PaaS/SaaS服务的公司很多, 既有传统的大公司,也有新的创业公司。 但无论如何,为了实现On-demanding (按需使用,按使用付费)的目标,很多过程必须自动化,而不能手工完成。 云计算概念从2007年到2008年开始炒热,经过几年的快速发展,已经有了长足的进展, 涌现出众多的云服务供应商。表一列举了一些典型的供应商,显然, 现在已经不可能把所有的云计算服务供应商都列在这个简单的表中。 这个清单不仅越来越长,而且还在快速增加中。
表1 云计算服务供应商 大数据 大数据是不同于传统的商业智能,大数据的价值是通过精炼建模过程中来发现的。 由于云计算包含了许多细分领域,不同领域的发展是不平衡的,请看图3的技术周期预测:
图3 技术周期预测(来源:IDC 2012) 依据这个预测图,云计算应用领域之一的大数据还处在上升期,大数据技术及服务市场呈快速增长之势。某种程度上可以说,“大数据”和云计算是相伴而生,这个领域里,最主要的两项技术是NOSQL数据库和大规模并行数据处理技术(Hadoop为代表)。经过几年的发展,更多的技术已经涌现或进化成(或包装成)云计算技术平台,按照数据处理的时间性需求,我们把大数据的各种技术列在表二中。 分类 | 技术 | 特点与应用 | 批处理分析(Batch) | 分析与处理或查询平台: Hadoop | 用于从几分钟到数小时的数据存储,分析和报告, PB级的日志处理, 社交网络的行为分析, 信号分析,图像处理,转换与分析, GPS记录分析,基因序列分析,信用卡欺诈分析等等。据2012年六月报道,yahoo已经有四万多台服务器在运行用hadoop开发的应用。 | 数据库管理系统: HDFS | 近实时分析( Near-Real Time Analytics ) | 分析与处理或查询平台: Gridgain Impala Shark ElasticSearch | 几秒到几分钟内的快速特定和互动查询。
| 数据库管理系统: Aerospike, Cassandra, CouchDB, Hbase, MongoDB, Redis, Riak Spire | 实时分析( Real Time Analytics) | 通用性平台: S4,Storm |
实时数据流处理(一秒以内) | CEP 平台: Hstreaming, StreamBase Complex Event Processing (CEP)/ StreamBase LiveView™, Streambase, SQLStream, OpenCQ,NiagaraCQ, TelegraphCQ, Gemfire, CEDR, Cayuga, Sase+,Amit, Progress Apama, Tibco Business Events, Esper/Nesper,Aleri/Coral8, OracleCEP |
表2的说明: Hadoop和HDFS就不多说了,这两项技术已经成了大数据和云计算事实上的标准了。 众多的开发都在使用Hadoop和HDFS。 GridGain 是由网格技术演化而来的,可以把它当成Hadoop 的替代方案,它支持Java、Scala和Groovy三种语言。Impala是基于谷歌的查询引擎Dremel由云计算服务商Cloudera开发出来的,据有关报道,Impala比Cassandra快得多。 而Shark是Spark的一个模块,Spark是一个分布式,基于内存的分析系统。ElasticSearch是用Java语言开发的一个基于Lucene的开源,分布式,RESTful搜索引擎。Aerospike号称第一个支持ACID 的NOSQL数据库系统。Cassandra以Amazon的Dynamo为基础,结合了Google BigTable的NOSQL数据库系统。CouchDB 是一个开源的面向文档的数据库系统,可以通过 RESTful 和 (JSON) API 访问。HBase是Apache的Hadoop项目的子项,HBase是一个分布式的、面向列的开源数据库。MongoDB是面向文档的数据库系统,MongoDB, CouldDB 和Cassandra是最流行的NOSQL数据库系统。Riak 也是以Amazon的Dynamo为基础,它是用ANSI C开发的。Spire 号称功能齐全,支持JDBC, RESTful, JSON的数据库系统。它并不使用NOSQL数据库常用的分片技术。Spire是由一个创业企业(DrawnToScale)开发的。 S4的全称是:Simple Scalable Stream System, 最早是由yahoo实验室在2008年开发,2010年十月成为Apache的开源项目。S4是一个通用的,分布式的,可扩展性,容错性应用平台,使程序员可以很容易地开发应用程序的无限连续的数据流处理。 Storm也是一个自由和开放源码的分布式实时计算系统(被Twitter购得后)。可处理无限的数据流,与Hadoop类似,但不同的是做实时的批处理。Storm很简单,可以使用任何编程语言。Storm可用在线实时分析,机器学习,连续计算,分布式RPC,ETL等。它是可扩展性,容错,保证您的数据将被处理,很容易设置和操作。本质而言,Storm是一个复杂事件处理系统(Complex Event Processing - CEP)。 CEP 处理或加工的信息流(数据),并跟踪和分析有关的事情发生(事件),并从中得出一个结论。数据可以有多个来源,结合来自多个来源的数据来推断事件或较为复杂的情况。复杂事件处理的目标是要找出有意义的事件(如机会或威胁),并尽快地回应。 今天,大容量的事件流自然地存在于各种环境,包括物联网传感设备,金融服务,网络监视器等等,及时从这样的事件流中提取有用的信息。 CEP旨在提供一套核心功能:
- 过滤消除不必要的事件
- 相关检测复杂的模式,在不同的事件。
- 聚合计算汇总值。
- 转换生成新的事件类型。
比如,在金融领域,可以应用CEP来监控可疑的资金转移—— 所有提款(ATM,支票等),欺诈检测,两个信用卡购买发送警报通知, 市场趋势与汇率监测, 客户服务等等。 表2中除了S4和Storm外,都属于或来源于CEP类的处理平台或引擎。其中,NiagaraCQ是由几个来自于清华和中科大的毕业生在博士论文中提出的系统。论文曾获得2010年ACM SIGMOD十年最佳论文奖。 CEP早在“大数据”或云计算之前就存在了,从CEP供应商的角度,“大数据”早就存在了。如果云计算比作长江的话,诸如CEP,虚拟计算,软件即服务,NOSQL, 网格计算/分布式计算等技术就像上游的支流(金沙江,嘉陵江等等),云计算是由这些技术汇聚而成的,当然不是这些技术的简单相加, 其中把这些技术聚在一起的主要驱动力是Usage on Demanding(按需使用)。云计算领域,集中了许多创业公司,专注于报道创业公司的网站http://startup50.com列举了25家热门云计算公司的清单,请参见表三。 云计算代表性创业公司
公司名称 | 业务领域 | 创建时间 | AppZero | 帮助客户移植应用到“云”上 | 2010年九月 | Aryaka Networks | 提供基于云的广域网优化和应用加速服务 | 2008年11月 | Blue Jeans Networks | 开发基于云的视频会议工具 | 2009年11月 | BrightTag | 开发基于云的数据整合工具 | 2009年 | Cedexis | 开发监控云和CDN性能的工具 | 2009年第四季度 | CipherCloud | 开发基于云的应用的安全工具 | 2010年 | Cloudant | 数据库作为服务(DaaS)的提供商 | 2008年 | CPUsage | 为高通量的任务,提供按需访问的计算能力 | 2010年10月 | DinCloud | 帮助小中型企业移植和/或配置到虚拟专用数据中心的台式机,服务器,存储,网络和应用程序。 | 2011年1月 | Eucalyptus Systems | 开发IaaS平台 | 2007年 | HyTrust | 研发虚拟安全工具 | 2009年4月 | Nasuni | 提供云存储服务 | 2009年 | NetCitadel | 为虚拟化,云计算和移动环境开发“软件”定义的安全解决方案。 | 2013年1月发布 | OnApp | 提供云服务,包括IaaS,CDN和存储服务。 | 2010年7月 | Pertino | 开发网络虚拟技术 | 2011年 | Piston Cloud Computing | 帮助企业创造私有云 | 2011年 | Plivo | 开发基于云的电话托管应用程序和服务。 | 2011年11月 | Ravello System | 为开发人员提供服务,不需任何改变,复制其现有的应用程序,并将它们部署到任何公共或私有云。 | 2011年 | SaaS MarkETS | 提供基础设施,企业可以用来启动应用程序商店。 | 2011年 | Transverse | 开发云和SaaS服务的收费平台 | 2011年 | Veeva Systems | 为生物医药行业提供基于云计算的客户关系管理(CRM)和内容管理服务. | 2007年 | VirtualSharp | 为基于云的应用和基础设施的提供灾难恢复(DR)服务。 | 2010年 | VoloMetrix | 提供基于云的企业社会智能平台,从协作应用,包括电子邮件,日历,即时通讯,企业社交网络的匿名数据进行提取和分析。使企业了解和管理人员和团队都在做什么,提升企业效率。 | 2011年 | WatchDox | 提供基于云的存储和协作工具。 | 2009年 | Zscaler | 提供云安全工具 | 2008年 |
表3 :蓝色行的是被美国CIO网站评为2013年前10名的创业公司。 从表三我们可以看出,很多创业公司都选择云计算工具类或某项细分服务方向,因为直接做平台类的,如果没有基础,将首先面对大公司的竞争。还有,据笔者掌握的信息,很多创业团队选择大数据应用方向,这也是一个容易入手的切入点。很多创业团队在开发产品过程中,为了降低成本,也选择云平台(主要是IaaS, PaaS)作为研发环境,那么在选择云服务平台时,都要注意哪些方面呢?下面或许是该考虑的要点:
- 高可靠性(high Reliability)
- 价格.
- 安全性.
- 编程接口(API)
- 服务水平协议(SLA).
- 技术支持或服务
- 配置管理( Configuration Management).
- 移植性(Migration).
- 高可用性(High Availability).
未来一年的趋势 云计算领域仍在快速地发展中,根据各方面的综合信息,未来一年的发展,下面一些话题更值得关注: 1.对许多大中型企业来说,已经过了概念炒作,观望期,开始进入实施期和应用期。 2.云计算和移动互联网将更融而为一 3.SDN将引起更高度的关注 4.大数据应用和大数据工具将获得更大的影响力 5.云计算的标准将开始提上日程 6.软件产品模式将更快式微,被SaaS模式取代,许多软件将以SaaS的形式出现。 7.个人云(Personal Cloud)将开始兴旺
(文/五湖客)
|