数据并行,处理串行!
模块理解:
HDFS:是一个高度容错性的系统,提供高吞吐量的数据访问,突破硬盘大小的限制,适合大规模数据集上的应用,可为yarn和Hbase服务。
Yarn:通用的资源协同任务调度框架,解决namenode负载太大和其他问题,提高资源利用率,具有良好的扩展性,可用性,可靠性,向后兼容性。在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)
mapreduce:计算框架,通过map,reduce来分布式的流式处理数据,适用离线,实时要求低的需求。
添加节点
步骤:
- 在新加的节点上配置好环境,包括jdk,ssh;
- 将新的datanode加到hosts里加到集群namenode;
其他的节点我没加进去,但是能跑起来。存储的时候节点之间沟通让我很奇怪!有空去源码瞅瞅。
- 将新节点加到master的slaves;
- 重启集群(这有坑!注意id,不是必须重启的);
- 平衡数据:
start-balancer.sh
# 不执行该命令,会把新数据都存放在这个新节点上
dfs.replication设置的副本系数只在文件系统写入时有效,并不影响在新添加,平衡时副本数
namenode 宕机恢复
- 编辑core-site.xml 增加checkpoint相关配置
| fs.checkpoint.dir | 恢复文件的存放目录 |
|---|---|
| fs.checkpoint.period | 同步时间检查 |
| fs.checkpoint.size | 超过大小直接同步 |
- 将新节点配置好
- 同步配置格式化namenode,启动
启动时日志会error
如果硬盘损坏,把secondnamenode 打包放在namenode的 fs.checkpoint.dir目录下
执行:
hadoop namenode -importcheckpoint
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。


