信管网babab***: [回复] hadoop起源于apache nutch项目,始于2002年,是apache lucene的子项目之一 [2]。2004年,google在“操作系统设计与实现”(operating system design and implementation,osdi)会议上公开发表了题为mapreduce:simplified data processing on large clusters(mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的doug cutting等人开始尝试实现mapreduce计算框架,并将它与ndfs(nutch distributed file system)结合,用以支持nutch引擎的主要算法 [2]。由于ndfs和mapreduce在nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为hadoop。到了2008年年初,hadoop已成为apache的顶级项目,包含众多子项目,被应用到包括yahoo在内的很多互联网公司
信管网cnitpm608372976***: [回复] ndfs, 分布式文件储存(nutch distributed file system) mapreduce 是google研发的一款编程模型。doug cutting将ndfs和mapreduce进行改造升级后命名为hadoop,并将ndfs改命为hdfs
信管网墨锦0***: [回复] mapreduce是一个软件架构,用于大规模数据集的并行运算
信管网li***: [回复]
hdfs的全称为hadoop distributed file system,是hadoop分布式文件系统
datanode是一个在hdfs实例中单独机器上运行的软件节点
mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算
hive是基于hadoop的一个数据仓库工具
信管网hacker-***: [回复] 其他选项可以解释一下吗
信管网1yi***: [回复] hive:数据仓库
信管网rae。(。-ω-)***: [回复] mapreduce
信管网cnitpm538816851***: [回复] mapreduce是google提出的一个软件架构,用于大规模数据集的并行运算
信管网木***: [回复] mapreduce是google提出的一个软件架构,用于大规模数据集的并行 运算
信管网cnitpm448665639***: [回复] hdfs为海量数据提供了存储。mapreduce为海量数据提供了计算。
|