什么是大数据平台有三个疑问:
1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?
2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?
3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?
大数据平台个人理解:
是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个
完整的大数据业务解决方案,而不仅仅是做一个集群的维护者
大数据平台的价值 1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率
2.运维角度
一.降低运维门槛
二.提升运维效率
3.公司角度
一.数据统一管理(OneData理念),降低成本
大数据平台架构选型 
离线计算:
1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL
离线数据同步:
1.DataX(Alibaba,开源支持单机版本)
- F X(Dtstack,开源支持单机,standalone,yarn 模式)
- Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
- Kettle
实时计算:
1.F
2.SparkStreaming
- Storm
- JStorm(Alibaba)
- StreamCQL(华为)
实时数据同步:
1.Flume
- Logstash(Elastic)
- JLogstash(Dtstack)
多维分析(即席查询):
1.Kylin
- SparkSQL+CarbonData
- Impala+Kudu 或Parquet
机器学习:
1.Spark MLib
- F MLib
- XGBoost
深度学习:
1.TensorFlow
- Caffe
- Keras
- Keras
资源管理器:
1.Yarn
- Mesos
- Kubernetes+Docker
集群管理:
1.Cloudera
2.星环
- Hortonworks
- Ambari
继续阅读与本文标签相同的文章
上一篇 :
值得收藏的27个Linux文档编辑命令
下一篇 :
Koa代理Http请求的示例代码
-
QQ上这3个隐藏功能,“偷偷”告诉谁在暗恋你,不准不要你钱
2026-05-18栏目: 教程
-
戴森电动汽车梦破碎 业内人士:及时止损明智之举
2026-05-18栏目: 教程
-
SpaceX提交3万颗Starlink宽带星座卫星发射申请
2026-05-18栏目: 教程
-
APP开发中有什么错误是不可以犯
2026-05-18栏目: 教程
-
如何1秒在Word中输入10000+个字?这个功能太强大了!
2026-05-18栏目: 教程
