来自：http://www.cnblogs.com/wenllsz/archive/2012/11/16/2774205.html

了解大数据带来的机遇；

透视架构与工具；

开源节流，获得竞争优势。

聚焦大数据

组织为了变得更高效，盈利能力更强，或生产率更高，对信息的渴求似乎永远也无法得到满足。为此它们一直在寻找更强大的数据存储技术，包括超大型数据库（VLDB），以满足他们对信息存储和获取的需求。最近几年数据的爆炸式增长催生了新的存储技术。用于保存和管理大数据的技术作为企业级数据库技术的补充出现在了人们的视野中。

大数据有四个关键特性：容量，速度，多样性和价值。对于IT管理者来说，容量和速度并不是什么新问题；它们现在只是被放大了。大数据成为新问题是因为它们的多样性和数据价值密度过低。与传统的交易数据不同，大数据有各种不同的形式。它们的价值密度通常也都不高；数据本身一般没太大价值，但数据之中所蕴藏的趋势信息却非常有意义。

爆炸式数据增长

全球数据大爆炸的产生有技术方面的原因，比如数字多媒体、智能手机和互联网的增长。举例来说，在浏览器成为通用的客户端之后，出现了数以亿计的互联网用户点击流数据。社交网站变得如此庞大，以致于现在的数据挖掘活动也变成了数以亿计的行为。智能手机为基于位置的服务提供的信息很快就会出现在十几亿用户手中。从Web服务器日志、工具中的数据流、实时交易数据、博客，还有社交网站这些不同的数据源中，能提炼出非常有价值的信息。

目前的在线或移动金融交易、社交网站流量以及GPS定位每天所产生的数据已经超过了2.5 * 10²¹个字节（EB,2⁶⁰字节）

提示数据量的单位

KB ，2 的 10 次方： 1024 BYTE.

MB，2 的 20 次方： 1048576 BYTE,或 1024 KB.

GB ，2 的 30 次方： 1073741824 BYTE,或 1024 MB.

TB ，2 的 40 次方： 1099511627776 BYTE,或 1024 GB.

PB ，2 的 50 次方： 1125899906842624 BYTE,或 1024 TB.

EB ，2 的 60 次方： 1152921504606846976 BYTE,或 1024 PB.

ZB ，2 的 70 次方： 1024 EB.

YB ，2 的 80 次方： 1024 ZB.

应用和效益

因为cpu和存储越来越便宜，很多组织现在都有能力处理TB，甚至是PB级别的数据。他们都能从大数据中获益。

利用好大数据，组织能对自己的用户和客户群，运营和供应链，甚至竞争环境或监管环境有更深入的理解。如果处理得当，大数据会对组织产生积极的影响，在经过改善的BI基础之上提供更好的服务，做出更好的决策。组织可以通过分析大数据开发并提炼出先进的预测分析体系，从而降低成本，提供可持续的竞争优势。

如果组织能利用大数据增强对客户的了解，对行业和政府都有好处。比如说在零售行业，产生了用于点击流监测、消费者信息指数分析，以及对在线客户进行推荐所需的数据集。在金融服务业，加强对客户的认识可以使欺诈检测及预测更准确，还能通过分析消费习惯增强每客户盈利能力。而且无论是在公共医疗还是私人保健领域，大数据都有望能帮助行业降低成本，提高效率，从而也会使病人护理得到改善。

基于大数据的应用及其所能带来的收益，行业分析师预测大数据技术和服务市场将得到迅猛发展。

发展大数据策略很复杂，要面对不同的数据种类，新的用例，还要增加软件投入。最重要的是，对企业有什么价值呢？请看视频

架构

大数据代表着为了做出决策而采用的技术发生了翻天覆地的变化。组织所要整合和分析的数据来自多种不同的数据源，要用来自社交网络、视频、智能移动设备和其它来源的数据补充企业数据库。为涵盖大数据而产生的信息架构演化很可能会为新一代的企业基础设施提供基础。要利用这些来源不同的数据做决策，必须开发出一套行之有效的策略，做好大数据的获取，组织和分析工作，由此产生新的业务洞察力，做出更好的决策。

大数据提炼过程中的每一步都需要合适的软硬件。可以对现有数据仓库基础设施进行扩充，以应对大数据的规模需求和不同的分析需求。但要获取和组织好新的数据类型，必须有新的软件，Hadoop就是这种新型软件之一。

Hadoop有两个主要组成部分：用于数据存储的Hadoop分布式文件系统（HDFS），以及用来管理数据处理过程的MapReduce编程框架。组织可以使用Hadoop的工具套件组织原始（通常是非结构化的）数据，并对其进行转换，以便能把它们加载到数据仓库和数据集市中，然后进行综合分析。

Hadoop支持大数据的并行处理机制，用集群或计算网格来处理大数据工作负荷。它主要运行在HDFS上，HDFS有很好的容错性，并且可以扩展到多个带有上千节点的集群上。Hadoop MapReduce提供了用大量处理器分析海量数据集的能力。Yahoo的研究人员曾在一个有3800个节点的集群上用16.25个小时完成了对1PB数据的排序操作。

Hadoop是很多大数据架构中的核心构件。它可以用于数据获取和存储，在组织内部，它还有三个主要用途。请看视频

数据获取

大数据的数据源有很多。线上活动、RFID、仪器仪表、社交网络、点击流和交易系统这样的数据源，具有交易数据量大，数据流速快，数据格式多样的特点。数据获取所需的延迟也不同，既有需要在一秒内响应服务请求的交互式系统，也有把数据存起来用于以后进行离线分析的批量式系统。

内容的多样性要求软件在高吞吐量的情景下操作结构化和非结构化数据。一个有效的大数据解决方案必须为数据采集、组织和提炼大量数据提供存储和处理能力，甚至是PB级别的数据集。

在选择正确的存储技术时，既要理解准备存储的数据种类，也要知道将来怎么使用。尽管有很多针对特定场景专门优化的专业存储技术，但其中主要有两种用例。

比较偏批处理的系统对响应时间、更新和查询的要求都不太严格，通常会使用Hadoop分布式文件系统（HDFS）。而对于时间限制更加严格，需要亚秒级查询响应时间的应用，或者要经常更新现有数据的，通常会使用某种Nosql 数据库。Amazon、 Google、LinkedIn 和 Twitter 这样的公司要在严格的延迟时间限制下跟史无前例的数据量做斗争，在斗争过程中，出现了Nosql技术。利用非结构化和半结构化的数据源开发新的业务分析模型，分析像网站点击流这样的大容量实时数据能取得显著的业务优势。因此，这些企业在研究了十多年的分布式哈希表（DHT）基础之上，或者利用传统的关系型数据库系统，或者利用嵌入式键/值存储数据库（比如Berkeley DB），开发出了高可用的分布式键值存储库。

组织获取和存储多种结构化和非结构信息。他们必须明白自己的用例是需要亚秒级的交互响应，还是可以慢一些的批量操作。请看视频

数据组织

从大数据中汲取价值的过程是一个从原始数据获取到有价值信息提炼的多阶段过程。数据获取，比如从点击流和社交媒体订阅源中取得数据，是对数据进行转换和组织以汲取商业价值的前提。之后还需要预处理过程将那些没什么价值的数据筛选掉，并将剩余数据结构化以用于分析。因为大数据形态多样，大小不一，并且格式各异，所以把数据转移到分析环境之前的转换至关重要，不可或缺。

把大数据收集过来之后，在进一步提炼和分析之前，要先对其进行转换和组织，形成先导数据。用Hadoop转换和组织数据

提炼过的大数据可以和企业数据一起进行分析。在得到原始数据之后，可以用HDFS或Nosql 数据库把数据存储起来，并在经过预处理后加载到分析环境中，比如运行在Oracle数据库云服务器Exadata 上的数据仓库。

这种工作一般是由Hadoop来处理的。现在通常都是由开发人员定制开发Java代码，与MapReduce编程框架一起处理和转换节点上存储的数据。总体来说，数据迁移达到了最小化，因为只有预处理的最终结果才会被加载到数据仓库中。

准备好加载到Oracle数据库云服务器Exadata上的数据后，对大数据与传统企业数据进行集成分析的舞台就算是搭建起来了。

数据分析

很久以前，组织就开始通过搭建数学模型和大容量数据的筛选来汲取有价值的信息。一旦经过提炼，大数据就会扩展已有模型，并很有可能为使用数据仓库的BI应用透视组织情况提供丰富的信息源。

大数据的分析与以前的数据分析是不同的。请看它如何揭示事情发生的原因，以及补充了哪些新的分析工具和流程。视频：用统计分析产生新的见解

Oracle R 企业版

数据库内分析

数据挖掘

文本分析

语义分析

空间分析

数据仓库是大数据分析的关键。尽管数据的来源多种多样，但新的见解是通过对所有数据的集成分析得到的。因此，现代数据仓库中不光要存储更多的传统企业数据，还要存储Hadoop才产生的汇总数据。

新的数据源是不同的，对数据的理解可能更少，也可能因历史原因不太精确，或者与问题的相关性只是间接的。所以，为了从大数据中汲取价值，我们必须转向一种迭代的、不断细化的分析流程。每次迭代或者揭示新的见解，或者只是简单地让分析师排除某条查询语句。大数据分析不仅仅是要充分理解数据集并做出报告，还要发现新的关系。

先进的分析方法

传统的分析工具依然很重要，但要充分利用好大数据，还需要同时涉及到统计分析和数据挖掘的先进分析方法。开源的统计编程语言R自1997年发展至今，已经吸引了大量用户群。R在分析师和数据科学家之中相当流行，在学术界也得到了广泛应用，所以训练有素的R开发人员也大有人在。

一种被称为预测分析的统计分析技术已经引起了各行各业的注意，其中包括金融、零售、保险、医疗健康、制药和电信等多种行业。预测分析可以利用客户数据来构建并优化预测模型。组织使用预测指标来指导其营销活动，使其更加有效。借助计算能力的提升，对预测分析激增的兴趣已经变成了可能。借助现代化的工具，可以创建尖端的预测分析模型，并在大量数据集合上执行多种情景的模拟计算。

决策

现如今这个年代，我们所做的每个决定后面都充斥着大量的数据，我们可以用强大的工具提炼数据，展示信息，使决策过程更加智能。使用自动化的分析工具，我们可以做出数据驱动的决策。可以把大数据变成可执行的洞察力，并且如果技术得当，还可以达到实时的效果。

数据可视化和商业智能仪表盘是决策过程的强力辅助工具，特别是在处理海量数据时。统计分析软件是数据分析、商业智能和决策支持的关键要素。运行统计分析语言R脚本的Web界面可以集成到仪表盘中，为决策过程提供分析和流式图形。

实时决策

大数据的容量和速度对数据分析软件和BI工具的扩展性及性能提出了新的要求。服务器容量，高速互联能力和网络带宽的提升对新一代软件的出现做出了贡献，使它们可以实现在内存中、数据库中的实时分析。

比如说，内存数据库给了我们实时决策的能力。现代系统的64位寻址能力使我们可以在服务器上配置TB(2⁴⁰B)级的内存。这就是说，某些超过了十几亿行记录的数据库可以被加载到内存中，维系更快的决策所需的高性能、低延迟处理。

大数据软件

友情提示：即将进入Oracle广告时段，请自行判断以下内容的可信度。

Oracle 提供了一系列的软件，包括专为应对大数据挑战而专门设计的新功能。这些软件既可以运行在Oracle工程系统上，也可以运行在自行集成的硬件上。

Oracle Nosql 数据库

应用软件的架构和性能需求各不相同，对数据存储和获取能力的需求也各不相同。很多大数据应用软件都希望能有快速、精简的数据存储方式，能够支持大容量数据的交互式查询和更新。

Oracle Nosql 数据库能迅速获取和组织无模式、非结构化，或半结构化的数据。它是一个“永远可用”的分布式键-值数据存储库，具有查询延时可预测、响应快速的特点，并且所支持的交互用例范围广泛。它的编程模型也很简单，易于集成到新的大数据应用软件中。

Oracle Endeca 信息探索平台

Oracle Endeca 信息探索平台是一个对复杂多变的数据进行高级勘探和分析的企业数据探索平台。从多个分散的源系统中加载进来的信息被存储在一个对变化中的数据提供动态支持的多面体数据模型中。这些经过整合的丰富数据可以由交互式的、可配置的应用程序进行搜索、探索和分析。Oracle Endeca直观的界面让企业用户可以轻松地对大数据进行探索，以确定其潜在的价值。

用信息探索快速回答新问题

Oracle 数据集成工具

Oracle Data Integrator 为Oracle 数据库、Oracle 应用程序和其它第三方应用软件源提供数据抽取，加载和转换（E-LT）服务。Oracle GoldenGate具备大容量数据实时转换的能力，并把数据加载到数据仓库或数据集市中。这些产品与Oracle大数据连接器（Oracle Big Data Connectors）一起提供了一个集成大数据的网关。数据大爆炸使得这些产品变得更重要了，因为孤立的大数据是没用的。

Oracle 大数据连接器

Oracle 已经开发了一套软件来集成Oracle数据库和Hadoop。Oracle大数据连接器即可作为Oracle 大数据应用软件的一部分，也可以作为独立的软件产品。它们能帮助Oracle数据库访问Hadoop分布式文件系统（HDFS），也可以从Hadoop中把数据加载的Oracle数据库中。它们还为HDFS和MapReduce框架提供了原生的R接口，使得Oracle 数据集成工具能够生成Hadoop MapReduce 程序。

Oracle 高级分析平台

大数据和分析经常出现在同一句话中，因为技术的发展，我们可以分析不断增长的大数据集。至少这些发展让Oracle数据库能够把分析嵌入到数据库中，这是一个具备可扩展性、性能卓越并且安全的架构层解决方案。这个架构把分析工作从内存有限的计算机上卸载下来，让分析过程更加靠近数据。这样可以消除不必要的网络往返时间，充分利用企业级数据库，并能降低硬件成本。

Oracle 高级分析平台把Oracle数据库变成了一个先进的分析平台，为分析大数据做好了准备。它和Oracle R 企业版（开源R语言的改进版本）的Oracle 数据挖掘能力结合在一起。因为Oracle高级分析平台不需要为了进行分析而在数据库和其外部客户端之间封送数据，所以消除了网络延时。这比在数据库外进行分析处理提高了10到100倍的性能。把分析逻辑封装在数据库中还可以利用数据库的多层安全模型，并且数据库也因此能够管理实时预测模型和它所产生的结果。

工程系统

通过部署Oracle的工程系统，组织可以把大数据方案作为业务系统、数据仓库、分析软件和商业智能过程的补充。工程系统是预先集成好的，所以部署起来更容易，支持维护也方便，而且它们的性能是经过调优的。它们既可以单独部署，也可以集成到已有的基础设施中。

Oracle大数据应用(Oracle Big Data Appliance)是一个全面的、企业级的软硬件组合，借助它可以轻松快速的启用大数据。它被设计成用Hadoop和Oracle Nosql 数据库来获取数据，用Hadoop MapReduce算法组织数据，并加载到数据仓库中进行综合分析。

Oracle已经跟Cloudera联合，在Oracle大数据应用中提供 Hadoop的Cloudera版本。确保客户能够使用一个全面集成并得到支持的Hadoop版本，它能部署在上万个节点上，部署速度更快，持有成本更低。

Oracle云服务器Exadata（Oracle Exadata Database Machine）是先进的软硬件结合的代表，它易于部署、完全可扩展、安全并且冗余。像Exadata智能扫描,Exadata 智能闪存和混合列式压缩这些技术创新让Exadata的性能表现极其优秀，无论是在数据仓库中，还是在线事务处理，以及混合的工作负荷上，都非常棒。Oracle Exadata使用大规模并行架构和高速InfiniBand网络来维系数据库服务器、存储服务器，以及其它工程系统（比如Oracle大数据应用和Oracle Exalytics）之间的高速带宽连接。

Oracle Exadata支持大规模数据仓库的部署，以及发现新关系，开发新见解所需的迭代式分析。这种分析一旦得以实施，决策者就可以据此采取行动，实现商业价值。

Oracle 内存服务器Exalytics是为不会超出预算的快速决策提供内存分析的软硬件集成方案。部署它可以支持需求预测，收入和收益管理，定价，库存管理，以及无数的其他应用。此外，它也可以用在高速InfiniBand 连接的Oracle Exadata的数据仓库上，为访问大数据仓库的BI应用提供实时分析。

Oracle 内存服务器Exalytics能够实现“像思考一样快速的分析。”这从根本上改变了你和BI软件交互的方式，对数据的利用会更加充分，因此产生更大的商业价值。

结论

要从大数据中汲取真正的商业价值，需要用合适的工具从不同的数据源捕获类型多变的数据，然后组织好它们，把它们放在所有企业数据的上下文中。借助这些工具，它们分析起来并不困难。Oracle的工程系统及其补充软件能打开大数据的财富之门，为得到大数据中的商业价值铺平道路。

迎战大数据-Oracle篇