载入中…
公告栏:
当前位置: 中国商业智能网 >> 资讯 >> BI资讯 >> 文章正文
大数据
作者:中国商业智能网    来源:本站原创    点击数:    时间:2017/7/4
【摘要】大数据正在快速增长——今天的企业领导者意识到,如果他们想要保持竞争力,就需要挖掘他们的大数据以获取有价值的洞察力。

大数据已经成为大业务。IDC称,“大数据和商业分析(BDA)的全球收入将在2017年达到1508亿美元,比2016年增长12.4%。

“大数据解决方案的市场可能会变得更大。”IDC的报告补充说,“与BDA相关的硬件、软件和服务的商业购买,预计到2020年将保持每年11.9%的复合年增长率(CAGR),届时收入将超过2100亿美元。”

对于企业来说,管理和分析大数据已经成为商业运作的关键部分。根据一项2016年进行的大数据调查,在接受调查的1000家公司中,大多数(62.5%)的企业至少有一个大数据的生产实例,只有5.4%的人表示他们没有计划或正在进行的大数据计划。

显然,大数据是企业和IT领导者的主要关注点。


大数据是什么?

第一个(或第一个之一)使用“大数据”的人是John Mashey,他在上世纪90年代末为SGI工作时开始讨论大数据。

对大数据的权威定义来自于Doug Laney,他是META集团的分析师,该集团后来成为了Gartner的一部分。2001年,Laney发表了一篇题为“3D数据管理:控制数据量、速度和多样性”的论文。他的三个V——容量,速度和多样性 —— 已经成为定义大数据的行业标准方法。


容量:

大数据最明显的特点是它包含了大量的信息。在大数据趋势的早期,大部分数据来自于电子商务交易。从那以后,移动设备、社交媒体和物联网(IoT)都为企业IT系统中不断增长的数据量做出着贡献。


速度:

企业正在以非常快的速度创造新的数据。今天的组织需要处理来自微博、微信、物联网传感器、RFID标签和移动应用等来源的实时数据流。企业必须找到方法跟进,否则它们将落后于竞争对手。


多样性:

在过去,组织能够将大量数据存储在结构化关系数据库管理系统(RDBMSes)中。然而,今天,许多企业数据是非结构化的,包括文本文档、照片、视频、音频文件、电子邮件消息和其他类型的信息,这些信息不适合传统的数据库。事实上,大多数组织发现处理数据的多样性要比处理容量或速度要困难得多。例如,在一项的调查中,40%的被调查者说数据多样性是他们大数据计划的主要技术驱动因素,相比之下,只有14.5%的人说是因为容量,3.6%的人选择了速度。

一些供应商试图在原有的三个V上增加第四个V。他们可能会谈论可变性(variability),指的是在不同时间数据流的加速或减速;准确性(veracity),指的是数据的可信度、准确性和一致性;或价值(value),即组织能从数据中获得的金钱数量。然而,这四种版本没有一种被广泛应用,大多数人仍然使用原来的三种V来描述大数据。


大数据技术

为了处理庞大的数据量、速度和多样性,企业部署了各种各样的技术,包括以下内容:


存储

为了有足够的空间存储他们的大数据,企业需要大量的物理或基于云的存储硬件。通常,他们选择提供卓越的可扩展性的虚拟化存储解决方案。

组织还需要能够存储大数据的软件。他们可能选择数据仓库、数据湖、NoSQL数据库和/或分布式存储解决方案,比如Hadoop。


数据管理

供应商还提供各种工具,帮助组织移动、集成、清理和准备数据以进行分析。这些工具适用于各种类别,包括数据集成、数据虚拟化、数据准备、ETL、数据质量和数据治理。


分析学

对于大多数组织来说,大数据计划的目的是产生有价值的洞察力,使公司能够更高效、更好地服务客户或变得更具竞争力。大数据分析工具包括数据挖掘、商业智能、预测分析、机器学习、认知计算、人工智能、搜索和数据建模解决方案。一项相关的技术,内存中的数据结构,可以加速大数据分析任务的完成。


安全

对于黑客来说,大型数据存储库可能是一个很有吸引力的目标,因此企业需要确保大数据的安全。流行的大数据安全技术包括加密和访问管理解决方案。

另一方面,一些组织对其安全性和日志数据进行大数据分析,以发现、预防和减轻攻击。具有这些功能的软件通常被称为安全智能或安全信息或事件管理(SIEM)解决方案。


基于云计算的工具

许多供应商提供基于云的解决方案,用于存储、管理、分析或保护大数据。选择云大数据工具的优势在于云提供的可负担性和可扩展性。然而,一些组织有安全或遵从性的问题,这使他们无法使用基于云的大数据工具。


大数据分析

对于大多数组织来说,启动大数据计划的主要目的是分析这些数据,以提高业务结果。在一项新的调查中,大数据项目的头号商业驱动力是“更大的商业洞察力”,37%的受访者选择了它。

组织用分析软件产生这些洞察力。供应商使用大量不同的术语,如数据挖掘、商业智能、认知计算、机器学习和预测分析,来描述大数据分析解决方案。然而,总的来说,这些解决方案可以分为四大类:


描述性分析

这是数据分析最基本的形式。它回答“发生了什么”,把每周、每月、季度和年度报告放在一起时,几乎每个组织都会执行某种形式的描述性分析。


诊断分析

一旦一个组织知道发生了什么,接下来的一个大问题是“为什么?”诊断分析应运而生。它们帮助业务分析师理解特定现象背后的原因,比如销售下降或成本增加。


预测分析

组织不仅仅想要从过去吸取教训,他们还需要知道接下来会发生什么。这就是预测分析的范围。预测分析解决方案经常使用人工智能或机器学习技术根据历史数据预测未来的事件。许多组织目前正在研究预测分析,并开始将其投入生产。


规范分析

最先进的分析工具不仅告诉组织接下来会发生什么,他们还提供处理问题的建议。它们使用复杂的模型和机器学习算法来预测各种行动的结果。供应商还在开发这种技术的过程中,大多数企业尚未开始在运营中使用这种水平的大数据分析

规范分析

大数据的挑战

虽然大数据提供了巨大的商机,但也带来了一些挑战,包括以下内容:


处理数据的增长

根据IDC的数字世界报告,存储在世界系统中的数字信息的数量每年增长40%。对于企业来说,仅仅存储不断增长的信息可能就是一个困难和昂贵的命题。分析这些海量数据带来了额外的挑战,因为随着数据存储的增长,分析过程需要更长的时间,更多的计算能力。


及时产生洞察力

许多组织都在寻求实时分析和对大数据的响应。这需要具备高级功能的专用硬件和软件。过去,业务分析人员可能每周或每月生成商业智能(BI)报告,但是现在许多组织都在向他们的分析师施压,要求他们每天创建这些报告,甚至更多,一天几次。


招聘和留住大数据人才

大数据专家和数据科学家是极具竞争力的IT人才市场上最受追捧的资源。根据2017年的一项技术行业工资导引,大数据工程师的平均收入在美国有13.5万美元到19.6万美元之间,而数据科学家们的收入为11.6万美元至16.35万美元,商业智能分析师们的收入为11.8万美元至13.8万美元。许多组织发现很难雇佣到他们需要的大数据专家。为了填补这一空白,他们经常寻找能够让业务用户使用的大数据分析工具,提供自助式的服务。


集成不同的数据来源

大多数组织都有来自各种不同的企业应用程序的数据,以及内部和外部的数据源。在他们能够对这些不同的数据集进行分析之前,他们需要一种方法将所有的数据整合在一起。一些供应商提供了可以帮助的大型数据集成工具,但是对于许多组织来说,集成仍然是困难的


验证数据

大数据分析只能在数据准确的基础上才能得出有价值的洞察力。不幸的是,许多组织发现在不同系统上的数据是不一致的。在能够有效地分析这些数据之前,他们需要有一个清理和标准化数据的过程和技术。


保护好大数据

大型数据存储库对高级持久威胁(APTs)特别有吸引力,拥有资源的国家和竞争对手,可以发起复杂的、难以检测的网络攻击。组织需要确保使用适当的安全措施保护大数据存储,包括加密和访问控制。


大数据安全

由于数据的体积、速度和多样性,保护大数据的任务变得复杂。任何大型数据存储都可能包含一些敏感信息,比如客户信用卡号、用户名、密码、电子邮件地址等等。企业经常用加密技术解决这个问题,但标准加密技术可以减缓数据检索,或者使大数据分析变得困难甚至是不可能的。

为了解决这个问题,企业组织有几个选择。首先,基于属性的加密用于加密敏感数据。例如,它可以在一个数据库加密信用卡号但不对姓名或顾客的年龄和性别加密。这允许业务用户对匿名数据进行分析,同时限制对个人信息进行访问。

另一个选择是完全同态加密。这种技术允许用户对加密的数据进行分析。生成加密的结果,可以通过使用与加密相同的密钥进行解密。这个选项让即使是被分析的数据得到安全。

企业组织还应该确保他们部署的任何大型数据解决方案都具有基于角色的访问控制,并使用审计跟踪。这可以防止内部威胁,并为组织提供了一种方法查看谁可以访问数据。此外,组织应该使用实时监控和入侵检测以及预防系统来阻止对其大数据系统的攻击。

另一个使大数据安全性复杂化的问题是开源解决方案的流行。许多组织使用免费软件拼凑出他们自己的大数据解决方案。然而,开源软件并不总是具有与专有解决方案相同的内置安全级别。特别是NoSQL数据库,常常因为缺乏对攻击的保护而受到批评。严重依赖于开源软件的组织需要特别警惕以确保他们的大数据使用了适当级别的数据保护。


开源大数据工具

一些最好和最流行的大数据解决方案都是在开源许可下可用的。事实上,开源的Apache Hadoop项目在大数据领域占据主导,Forrester的分析师甚至称Hadoop为“大企业的必备品”。

最著名的开源大数据解决方案包括以下:

Cassandra

CouchDB

Hadoop

HPCC

Lucene

MongoDB

Pentaho

R

RapidMiner

Solr

Spark

Storm

Talend Open Studio

Tibco Jaspersoft

    中国商业智能网(BI )

    责任编辑:朱莉   
     
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    ChinaBI版权、投稿与免责申明:
    1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明稿件来源:中国商业智能网,违者本网将依法追究责任。
    2)本网注明“本站来源处不写本站原创”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    最新热点
    娱乐资讯
    最新推荐
    网站合作、内容监督、商务咨询、投诉建议 电话:0512-62861389  邮箱:chianbi@126.com
    Copyright 2004-2014 中国商业智能网版权所有   |    苏 ICP 备 13004727 号