`

hadoop源码分析(一)

阅读更多

           懵懵懂懂,不知不觉和小伙伴们就搞到了云计算这个东西上来了,在没接触这个之前,心里只是充满了崇敬之情,现在还是充满崇敬之情,不同的想法就是现在大体知道了他是个什么东西,所谓的云计算就是(本人目前的肤浅的理解)“一大堆衣服自己慢慢洗经过很长时间也洗得完,但是把它分给许多人来洗是不是会快很多”云计算也就是这个意思,随着当今信息时代的告诉发展,数据可以说是爆发式的增长,而且数据中包含的信息越来越得到大家的重视,然而,数据是很乱的,很杂的,我们所需要的有用的信息也就只占其中的一部分,因此我们所要做的就是在大量数据中挖掘出我们所想要的数据,因此云计算就派上了用场了,把大量的数据分配到很多很多的机器上去处理就是云计算所要做的。

         上面说云计算就是把数据进行分配,让更多的机器来做一件大的事情,因此就到了今天的主角出场了“Hadoop”,Hadoop是一个能够大量数据进行分布式处理的软件框架。 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。

         如果要想知道Hadoop内部是怎么实现的 ,我们就要去看看他的源码了,网上 Hadoop源码分析一大堆,Apache官网也能下载,这几天看了一点,今天说说Hadoop中的包,他所有的包都在(org.apache.hadoop)下面。具体有以下一些包

hadoop中主要的五个包:

mapreduce:hadoop的Map/Reduce实现
fs:文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口
hdfs:HDFS,Hadoop的分布式文件系统的实现
ipc:一个简单的IPC的实现,依赖于io提供的编解码功能
io:表示层。将各种数据编码/解码,方便在网络上的传输

hadoop中其他的一些包:

tool:提供一些命令行工具,如DistCp,archive
filecache:提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问的速度
net:封装部分网络功能如:DNS,socket
security:用户和用户组的信息
conf:系统的配置参数
metrics:系统统计数据的收集,属于网管范畴
util:工具类
record:根据DDL(数据描述语言)自动生成他们的编解码函数,目前可以提供c++和Java
http:基于Jetty的HTTP Servlet,用户通过浏览器可以观察文件系统的一些状态信息和日志
log:提供HTTP访问日志的HTTP Servlet

   

     慢慢来,继续我们的源码之路,任重道远。

             

           

3
1
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics