Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
查看: 688|回复: 3

大数据汇总共享:Bam转23andme-like

[复制链接]
发表于 2018-8-19 15:11 | 显示全部楼层 |阅读模式
本帖最后由 Yungsiyebu 于 2018-9-8 10:59 编辑

有一个小程序可以便捷的将Bam大文件提取出类23andme的genotype数据,便于使用gedmatch等流行分析工具。名字叫:tkrahn/extract23。可github免费下载使用。readme文件中的命令代码有详细说明,Linux系统。不过,我尝试提取欧亚草原样本和田园洞样本的BAM文件,结果导出的内容是空的,没有任何错误提示,还没找到原因,大家试试吧。

https://github.com/tkrahn/extract23

y-str.org还提供了一个windows版的程序BAM Analysis Kit ,也可以做类似的提取,发烧玩生信工具,把win7卸载好久,没亲自试,但网友有用的,可以通。

http://www.y-str.org/2014/04/bam-analysis-kit.html


另外,经典工具GATK应当也可以实现,但还没去学。

有其它开源代码,也欢迎分享。

因为Bam太过庞大,下载和运算都太费劲,我拉一个共享帖,欢迎大家一起下载和转化数据,把23andme-like格式的数据汇总一下。

我先开头,用tkrahn/extract23提取的阿穆尔鬼门洞Mos4/Mos5/Mos6,上传云盘,欢迎下载。

23andme_like data:
链接: https://pan.baidu.com/s/1ZiReY10dkJZUIFh9mlxpJw 密码: hgpe


另外,genotype还上传至gedmatch,大家可以随时查看,其中,Mos6有效数据量太小,未被gedmatch接受。

gedmatch ID
Mos4: M643438
Mos5: M940107

更新:

田园洞Bam文件不是Hg19作为ref,所有提取时出现问题,调整一下,跑出来数据,更新到网盘,链接同上。

gedmatch ID
Tianyuan: M575278

更新:越南新石器时代样本:

Vietnam_neolithic_I0626.1240K: M217159

更新:马来西亚前农业时代样本:

Ma911: M777094

更新:日本绳纹人样本:

IK002 Jomon: M592785

评分

1

查看全部评分

 楼主| 发表于 2018-8-19 15:13 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-8-19 15:21 编辑

Mos4和Mos5的K7b计算结果,大家参考。

结果来看,在未录入Ulchi/Nivkh等潜在的更近人群时,Mos4-Mos5与阿穆尔河流域的达斡尔、鄂伦春、赫哲族等最为接近。
Mos4-k7b.png
Mos5_K7b.png
Mos4_FstDistance.png
Mos5-FstDistance.png
 楼主| 发表于 2018-9-8 11:19 | 显示全部楼层
更新日本绳纹样本IK002。欢迎更多朋友一起处理各类Bam数据,转化为23andme-like格式。
Jomon-K7b.png
Jomon-K12b.png
Jomon-Harappaworld.png
发表于 2018-9-8 21:59 | 显示全部楼层
Mos4和Mos5的K7b计算结果,大家参考。

结果来看,在未录入Ulchi/Nivkh等潜在的更近人群时,Mos4-Mos5与阿穆尔河流域的达斡尔、鄂伦春、赫哲族等最为接近。
Yungsiyebu 发表于 2018-8-19 15:13
.

     建议把K12b的结果发上来~
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2018-10-22 00:42 , Processed in 0.135653 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表