RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:8:30-17:00
你可能遇到了下面的问题
关闭右侧工具栏

新闻中心

这里有您想知道的互联网营销解决方案
hadoop的发展及原理?windows10hadoop

hadoop的发展及原理?

Hadoop的发展历史

2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。

2005年12月— Nutch移植到新的框架,Hadoop在20个节点上稳定运行。

2006年1月— Doug Cutting加入雅虎。

2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年2月— 雅虎的网格计算团队采用Hadoop。

2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。

…………

Hadoop的工作原理是:

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。………

Hadoop生态系统及各模块的功能?

HDFS 是 Hadoop 生态圈中提供分布式存储支持的系统,上层的很多计算框架(Hbase、Spark 等)都依赖于 HDFS 存储。

2. MapReduce(分布式计算模型)离线计算

何为离线计算,其实就是非实时计算。

3. Yarn(分布式资源管理器)

Yarn 的出现主要就是为了解决原始 Hadoop 扩展性较差、不支持多种计算模型的问题。

4. Spark(内存计算)

Spark 提供了内存中的分布式计算能力,相比传统的 MapReduce 大数据分析效率更高、运行速度更快。

5. HBase(分布式列存储数据库)

Hbase继承了列存储的特性,它非常适合需对数据进行随机读、写操作。 其次,Hbase构建在HDFS之上,其内部管理的文件全部存储在HDFS中。这使它具有高度容错性和可扩展性,并支持Hadoop mapreduce程序设计模型。

6. Hive(数据仓库)

Hadoop大数据框架的发展历程?

  · 2008年1月,Hadoop成为Apache顶级项目。

  · 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

  · 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

  · 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。

  · 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。

  · 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。

  · 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。

  · 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

  · 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。

  · 2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。

到此,以上就是小编对于的问题就介绍到这了,希望这3点解答对大家有用。


网站名称:hadoop的发展及原理?windows10hadoop
本文来源:http://www.jxjierui.cn/article/djsodjj.html