hadoop总结-模块

小编 2026-06-30 阅读:655 评论:0

数据并行，处理串行！模块理解： HDFS：是一个高度容错性的系统，提供高吞吐量的数据访问，突破硬盘大小的限制，适合大规模数据集上的应用，可为yarn和Hbase服务。 Yarn：通用的资源...

数据并行，处理串行！

模块理解：

HDFS：是一个高度容错性的系统，提供高吞吐量的数据访问，突破硬盘大小的限制，适合大规模数据集上的应用，可为yarn和Hbase服务。
Yarn：通用的资源协同任务调度框架，解决namenode负载太大和其他问题，提高资源利用率，具有良好的扩展性，可用性，可靠性，向后兼容性。在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）
mapreduce：计算框架，通过map，reduce来分布式的流式处理数据，适用离线，实时要求低的需求。

添加节点

步骤：

在新加的节点上配置好环境，包括jdk，ssh；
将新的datanode加到hosts里加到集群namenode；

其他的节点我没加进去，但是能跑起来。存储的时候节点之间沟通让我很奇怪！有空去源码瞅瞅。

将新节点加到master的slaves；
重启集群(这有坑！注意id，不是必须重启的)；
平衡数据：

start-balancer.sh
# 不执行该命令,会把新数据都存放在这个新节点上
dfs.replication设置的副本系数只在文件系统写入时有效，并不影响在新添加,平衡时副本数

namenode 宕机恢复

编辑core-site.xml 增加checkpoint相关配置

fs.checkpoint.dir	恢复文件的存放目录
fs.checkpoint.period	同步时间检查
fs.checkpoint.size	超过大小直接同步

将新节点配置好
同步配置格式化namenode，启动

启动时日志会error

如果硬盘损坏，把secondnamenode 打包放在namenode的 fs.checkpoint.dir目录下
执行：

hadoop namenode -importcheckpoint

版权声明

本文仅代表作者观点，不代表百度立场。
本文系作者授权百度百家发表，未经许可，不得转载。

上一篇：3分钟搞掂Set集合 下一篇：Java集合总结【面试题+脑图】，将知识点一网打尽！

hadoop总结-模块

模块理解：

添加节点

namenode 宕机恢复

版权声明

热门文章

机房智能化温湿度解决方式之POE供电以太网温湿度传感器

Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

HTTP状态保持的原理

Hive 系统函数及示例

CSRF的原理和防范措施

最近发表

标签列表

hadoop总结-模块

模块理解：

添加节点

namenode 宕机恢复

版权声明

相关阅读

网页|CSS继承性

Java集合总结【面试题+脑图】，将知识点一网打尽！