编译:
诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。
使用Spark SQL 运行大规模基因组工作流

在过去十年中,随着基因组测序价格下降,可用基因组数据的数量逐渐激增。研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联。这些分析将使人们更深入地了解疾病的根本原因,从而治疗当今一些主要的疾病问题。但是,目前用来分析这些数据集的工具还没有跟上数据增长的步伐。
许多用户习惯于使用命令行工具(如p 或单节点Python和R脚本)来处理基因组数据。但是,单节点工具暂时还不足以达到TB级甚至更高级别的程度。 目前Broad研究所的Hail项目建立在Spark之上,可以将计算分配到多个
继续阅读与本文标签相同的文章
下一篇 :
学生服务器,我为什么推荐阿里云?
-
UAVStack JVM监控分析工具:图形化展示采集及分析监控数据
2026-05-17栏目: 教程
-
LeetCode 202: 快乐数 Happy Number
2026-05-17栏目: 教程
-
云原生时代,蚂蚁金服公开了新的金融混合云架构
2026-05-17栏目: 教程
-
AliOS Things 3.0应用笔记:支付宝小程序设备控制 - 全栈开发(附全部源码)
2026-05-17栏目: 教程
-
我的DDD实践之路:第一战
2026-05-17栏目: 教程
