基因组survey

在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下

基因组大小:基因组越大,测序花的钱越多
简单基因组: 杂合度低于0.5%, GC含量在35%~65%, 重复序列低于50%
二倍体普通基因组: 杂合度在0.5%~1.2%中间,重复序列低于50%。或杂合度低于0.5%,重复序列低于65%
高复杂基因组: 杂合度>1.2% 或 重复率大于65%
k-mers估计法
最简单的策略就是基于k-mer对基因组做一个简单的了解, 使用jellyfish统计k-mers,然后作图

jellyfish count  -m 21 -s 20G -t 20 -o 21mer_out  -C  <(zcat test_1.fq.gz) <(zcat test_2.fq.gz)# -m k-mer
收藏 打印