【译】使用Spark SQL 运行大规模基因组工作流

浏览：807 2026-05-17

编译:

诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

使用Spark SQL 运行大规模基因组工作流

在过去十年中，随着基因组测序价格下降，可用基因组数据的数量逐渐激增。研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联。这些分析将使人们更深入地了解疾病的根本原因，从而治疗当今一些主要的疾病问题。但是，目前用来分析这些数据集的工具还没有跟上数据增长的步伐。

许多用户习惯于使用命令行工具（如p 或单节点Python和R脚本）来处理基因组数据。但是，单节点工具暂时还不足以达到TB级甚至更高级别的程度。目前Broad研究所的Hail项目建立在Spark之上，可以将计算分配到多个

继续阅读与本文标签相同的文章

None

上一篇 :

RDS&POLARDB归档到X-Pack Spark计算最佳实践

下一篇 :

学生服务器，我为什么推荐阿里云？

热门标签

1阻止表单提交 1篇

3关闭浏览器 1篇

6css文件 1篇

7光标位置 1篇

9javascrpt 1篇

10!important 1篇

11超链接 2篇

14自定义 1篇

20自动填充 1篇

21html敏捷包 1篇

23水平垂直居中 1篇

24百分比 1篇

25placeholder 1篇

26相同高度 2篇

27并排div 2篇

29innerHTML 1篇

30pdf文件 1篇

31html文件 1篇

32选择框 1篇

33屏幕可见区 1篇

34DOM元素 2篇

您的足迹：