载入中…
公告栏:
当前位置: 中国商业智能网 >> 资讯 >> BI资讯 >> 文章正文
2014年是“大数据堆栈”年吗?
作者:中国商业智能网    来源:本站原创    点击数:    时间:2014-2-23
【摘要】2014年将出现相当于LAMP堆栈的大数据吗? Richard Daley是专门从事商业智能(BI)的Pentaho的创始人之一和首席战略主管,他相信这样的堆栈今年将开始汇集,随着围绕一定的大数据参考架构的共识开始发展 —— 尽管堆栈的上层可能比LAMP有更多的专有的元素。 “动态的激增、1990年代末和2000年代交互式网站被(至少在某种程度上)包括Linux、Apache HTTP服务器, MySQL和PHP(或Perl或Python)的” LAMP堆栈所驱动。 “出现了成千上万的大数据参考架构,” Daley说。“这将是一件“历史重演”的事情。我们看到同样的事情发生在AMP堆栈。它被痛苦所驱动。痛苦的最初是什么来驱动它,痛苦的是形式的规模和成本。”

2014年将出现相当于LAMP堆栈的大数据吗?

Richard Daley是专门从事商业智能(BI)的Pentaho的创始人之一和首席战略主管,他相信这样的堆栈今年将开始汇集,随着围绕一定的大数据参考架构的共识开始发展 —— 尽管堆栈的上层可能比LAMP有更多的专有的元素。

“动态的激增、1990年代末和2000年代交互式网站被(至少在某种程度上)包括Linux、Apache HTTP服务器, MySQL和PHP(或Perl或Python)的” LAMP堆栈所驱动。

“出现了成千上万的大数据参考架构,” Daley说。“这将是一件“历史重演”的事情。我们看到同样的事情发生在AMP堆栈。它被痛苦所驱动。痛苦的最初是什么来驱动它,痛苦的是形式的规模和成本。”

但是, Daley说, 企业用大数据技术来处理这样的痛苦 —— 据CompTIA的一项研究,42%的企业在2103年已经进行某种形式的大数据计划,很快开始看到数据的好处,特别是利用它为市场营销或网络入侵检测的企业。

“在过去的12个月里,我们看到越来越多的人用大数据争取好处,”他说。“更多的是从分析中获得好处,利用大数据而不是只存储它。”

动态的激增、1990年代末和2000年初交互式网站被(至少在某种程度上)包括Linux、Apache HTTP服务器,MySQL和PHP(或Perl或Python)的 LAMP堆栈所驱动。

这些免费和开源组件都是分别独立开发的强大工具,但像Voltron一样共同组成一个Web开发平台,比它各部分的总和更强大。这些组件都是现成的,有开放的许可和相对较少的限制。也许最重要的是,这些开源的可用性,给开发人员提供了很大的灵活性。

尽管LAMP堆栈指定单个组件(虽然对某些层的替换并不少见), Daley设想的大数据堆栈在每个层上有更多的选择,取决于你想要的应用程序。

D 是数据层

是堆栈的底层,是基础,是数据层。这一层是负责Hadoop的分布,NoSQL数据库(HBase,MongoDB,CouchDB等等), 甚至是关系数据库和分析数据库如SAS,Greenplum, Teradata 和Vertica。

“任何这些技术都可用于大数据应用,” Daley说。“Hadoop和NoSQL是开放的、更多的可扩展性和更具成本效益,但他们不能做所有的事。这就是人们喜欢Greenplum和Vertica的地方,它们可以完成一些非常快的分析应用程序。”

在许多方面,这一层堆栈之前有许多工作,Daley说。关系和分析数据库在他们之后有多年的发展,但Hadoop和NoSQL技术仍处于相对的早期。

“Hadoop和NoSQL,我不得不说我们还处于早期,” Daley说。“我们越过了早期的采用,不再是早期采用者。但在这两种环境下的管理,服务和操作能力上仍有许多工作要做。Hadoop是一个非常复杂的技术,在尖端方面还很粗糙。如果你看看NoSQL环境,它可以说是很混乱的。每一个NoSQL的引擎都有自己的查询语言。”

“I”是整合层

下一层是整合层。它是数据准备、数据清理、数据转换和数据整合所发生的地方。

“我们很少只从一个源头得到数据,” Daley说。“如果我们要看一个全方位地观察的应用程序,我们可以从三个,四个或者五个来源得到数据。当有人做一个分析应用甚至预测应用,有70%的时间是花在这一层上的,混合各种数据。”

虽然这层是大数据不迷人的一部分,这也是一个相对成熟的一个区域, Daley说,有很多实用工具(如Sqoop和Flume)和供应商在填补空白。

“A”是分析层

下一层是分析层,分析和可视化的地方。

“现在我得到了数据。存储它们并准备观察,” Daley说。“我用Tableau或Pentaho 或Qlikview对数据进行可视化。我有模式吗? 这就是业务用户可以开始从中得到一些价值的地方。这也是我包括搜索的地方。它不仅仅是切片或切块或仪表盘。

这一领域也相对成熟, 但Daley承认还有一段路要走。

“我们必须弄清楚作为一个行业如何从Hadoop 中“挤”出更多的果汁 —— 更快的获得数据的方法,”他说。“也许我们要承认这是一个批处理环境,而我们需要把某些数据放入其他数据源吗?供应商昼夜不停地工作, 使这些整合越来越好。”

“P”是预测/规范的分析层

堆栈的顶层是预测/规范的分析, Daley说。这里企业开始真正认识到大数据的价值所在的地方。预测分析使用数据 (历史数据,外部数据和实时数据), 业务规则和机器学习来进行预测和识别风险和机遇。

更进一步的是规范的分析,有时被认为是商业分析的圣杯,它用这些预测和所提供的建议作为利用未来机遇或降低未来的风险,以及各种选项的含义的方法。

“你必须经历这些并进行预测来获取大数据的价值,”他说。“仅仅对数据进行切片或切块是不太可能获得很多价值的。你必须一路沿着堆栈向上走。”

“我们所看到的围绕大数据的应用程序中,目前至少有70%,甚至80%的是预测, 甚至是规范分析,” Daley补充道。“这是必要的,他们是创新之母。它从底部技术开始 —— 数据存储、数据操作、转换、基本分析。但是发生的事情越来越多, 最后, 是预测, 高级分析时代的到来。它变得越来越主流。”

虽然预测分析有一些成熟了,但目前这个领域只有科学家们有能力来处理数据。

“我认为预测会沿着底层堆栈走的更远,” Daley说。“从技术的角度来看,我认为它是成熟的。但是我们要搞清楚如何让更多的用户使用它。我们需要将它构建到应用程序中,让业务用户可以访问,而不仅仅是数据科学家。”

那会是什么? DIAP? PAID?

称之为DIAP堆栈。或者从顶层开始,称之为PAID堆栈。Daley说,现在的花样不仅仅是添加更多的成熟度到组件中,像Hadoop和NoSQL,它要从上到下地为堆栈提供整合。

“这非常关键,”他说。“到目前为止,所有这些事情都是独立的。很多公司只做这些事情中的一件。例如Hortonworks只做数据方面, 他们不会做整合。但客户想去购买一个完整的整合堆栈。我们至少应该确保我们的产品从上到下的堆栈是真正的整合。这是它必须实现的。为了真正得到采用,产品和供应商都需要从上到下地完善堆栈。我需要支持Hadoop的每一种风格——至少对商业有利的一种。在NoSQL也是一样的。”

责任编辑:朱莉   
 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    ChinaBI版权、投稿与免责申明:
    1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明稿件来源:中国商业智能网,违者本网将依法追究责任。
    2)本网注明“本站来源处不写本站原创”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    最新热点
    娱乐资讯
    最新推荐
    网站合作、内容监督、商务咨询、投诉建议 电话:0512-62861389  邮箱:chianbi@126.com
    Copyright 2004-2014 中国商业智能网版权所有   |    苏 ICP 备 13004727 号