返回列表 回复 发帖

基因组水平是否可以区分苗汉?南汉有多少类苗族血统?

本帖最后由 Yungsiyebu 于 2018-1-7 00:18 编辑

在以往文献报道的admixture分析,因为K值通常不够深,非常难区分汉族-苗族,乃至汉族-土家族。

K7b计算器所得南北平均值也非常接近:

Pop(东亚-东南亚)/Pop(西伯利亚)
Han: 11.70/88.30
Miao: 9.80//90.20
Tujia: 13.30/86.70

那么,如果我们单独比对苗族-汉族及相关族群土家族和畲族,是否有可能在基因组水平普遍区分苗汉呢?抑或根本无法区分,二者只是个体差异,表现出不同水平但非常接近的南北混血呢?

方法:
首先,HGDP下载raw data,illumina芯片,65万+snp。
然后,筛选全部汉苗畲土家样本,plink制作bed文件,再然后,admixture运行K=2-4,计算结果如下:

结果:
K=2时,畲族独立成簇,北汉与苗、土家聚类为另一个pop。
K=3时,peak在苗族的pop出现,与畲族pop,北汉pop并存,其它样本不同程度混合。
K=4时,南汉pop出现,与苗族pop、畲族pop,北汉pop并存。

显然,基因组水平是可以较为普遍的将苗族和畲族个体样本与汉族相互区分的,土家族虽然未出现独特的pop成分,但平均20-30%的类苗族成分,还是非常明显可以与汉族区分,后者通常不超过10%的类苗族pop。

另外,畲族苗族并没有表现出非常近的基因组水平关联。

K=4时的Fst值如下:

Fst divergences between estimated populations:
            Pop0     Pop1    Pop2   
Pop0   
Pop1    0.076   
Pop2    0.053    0.069   
Pop3    0.049    0.064    0.048

pop0pop1pop2pop3
MiaoSheN.HanS.Han


苗族的pop0与畲族pop1的关系最为疏远,与北汉pop2关系居中,与华南汉pop3的关系相对最近。

北汉pop2和南汉pop3,相对畲族和苗族,还是彼此更为聚类一些,尽管南汉和苗族的pop的Fst值非常接近。

K=4

HGDP she miao tujia Han.xls (26 KB)

新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
...然后,筛选全部汉苗畲土家样本,plink制作bed文件,再然后,admixture运行K=2-4,计算结果如下...
Yungsiyebu 发表于 2018-1-3 21:04
只用bed运行一次?须知ADMIXTURE一次运算的data missing是常见的,难道没有二次确认? 没有.bim.fam格式数据运行比对?
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
最好用R运行一下hapmap3.3.Q(不知道你有没有?),导出直观的色谱图,一目了然,而且非常公正,而不是人为标注的‘某某族裔成分’标签表,可能会有失客观
如下是标准的运行结果,至于其中的各种成分,大家可以客观评判:
(请注意,图中每一个族群都会有个别‘特异’的个体,不足为奇,大体上可以看出,汉族包括南北汉与临近兄弟民族土家苗畲没有本质区别,尽管细微的差异亦是可以检测到的)

K13-汉苗南汉畲-土家1-RSmith2017.png
2018-1-4 08:49
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
只用bed运行一次?须知ADMIXTURE一次运算的data missing是常见的,难道没有二次确认? 没有.bim.fam格式数据运行比对?
imvivi001 发表于 2018-1-4 07:51
所以,你要是多少会一点基本生信工具该多好,就没必要整体纠结于这些问题。plink对缺失数据是有滤过功能的。而没有bin,fam,你觉得admixture能运行吗?
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
4# Yungsiyebu
答非所问。你既然要演示给大家,就应该展示全过程,而不是掐头去尾
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
本帖最后由 Yungsiyebu 于 2018-1-4 09:14 编辑
最好用R运行一下hapmap3.3.Q(不知道你有没有?),导出直观的色谱图,一目了然,而且非常公正,而不是人为标注的‘某某族裔成分’标签表,可能会有失客观
如下是标准的运行结果,至于其中的各种成分,大家可以客观 ...
imvivi001 发表于 2018-1-4 08:49
这是HGDP数据。不是hapmap,后者民族有限。

没有出现苗族的peak pop,不是人为标注,而是k值不够深。另外,直接看数据,比作图更清楚,有具体的值,我的附件中有Q文件中具体每个样本的数据。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
...K=4时的Fst值如下:

Fst divergences between estimated populations:
            Pop0     Pop1    Pop2   
Pop0   
Pop1    0.076   
Pop2    0.053    0.069   
Pop3    0.049    0.064    0.048

Yungsiyebu 发表于 2018-1-3 21:04
族群之间的距离都是相对的,即便是几个亲兄弟与几个亲姊妹结合产生的堂兄弟,之间也是有差异的,但是放到其他外部家庭大背景下作比较,那这种差异是完全可以忽略不计的
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
4# Yungsiyebu
答非所问。你既然要演示给大家,就应该展示全过程,而不是掐头去尾
imvivi001 发表于 2018-1-4 08:58
所以,说你要学习基本的生信工具,免得不知所云。我对方法的描述,应当比一般的文献描述的清楚,你可以对比。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
族群之间的距离都是相对的,即便是几个亲兄弟与几个亲姊妹结合产生的堂兄弟,之间也是有差异的,但是放到其他外部家庭大背景下作比较,那这种差异是完全可以忽略不计的
imvivi001 发表于 2018-1-4 09:04
疏远不疏远,是计算出来的,不是随口说出来的,pop之间的遗传距离,我已经给出了Fst值。可以依据此,用nj等方法做树,会更加清晰。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-4 12:18 编辑

第一个问题,基因组水平数据是否可以普遍区分苗和汉,当K值增加至4时,可以非常明显的将南汉与苗族相互区分,这个问题已经解决。

看一下第二个问题,汉族有多少类苗族血统?

当K等于3时,peak在苗族的成分就已经出现,这种成分在北汉样本很少见,而南汉样本则比例高达30-99%,也即,南汉是某种类北汉pop始祖成分与以类苗族pop成分的不同程度混合,附带少量类畲族pop成分。

当K等于4时,南汉的pop出现,此时,绝大多数南汉样本只有不高于10%的类苗族pop成分。

结果翻转了吗?很多朋友在这时就开始争论了,支持类苗族土著是长江流域汉族核心血统源流的就认为K=4不靠谱,认为南汉纯血统的就认为K=3不靠谱。

事实上,我从前就对这个问题做过说明,admixture的K值并不存在靠不靠谱的问题。核心问题在于,大家在看admixture分析结果时,从来没看最为重要的Fst值。

根据Fst,可以明显的观察到peak在南汉的pop成分,其与北汉pop和苗族pop的Fst值非常接近,分别为0.048和0.049,可见,当K值拉大到4时,南汉pop大体上是距离北汉和苗族聚集相当的一种成分,是从K=3时的两种成分分离合并的一种成分。

可见,两种看起矛盾的类苗血统计算结果,事实上,一点也不矛盾,南汉的确是类北汉成分和类苗族成分的混合,附带少量类畲族成分。但当这两种混合成分合并成一种南汉成分后,多数样本再看到的类苗族成分就不高于10%。

历史的理解,K=3时,应当反应的是,较远历史时期,某些类北汉成分南下与长江流域类苗族始祖成分混合,二者比例接近1:1,这是南汉pop形成的基础。当K=4时,两种合并成分经历一定历史发展稳定下来,可以非常明显的与苗族样本区分。此时,通常不高于10%的类苗族血统,应当反应的是南汉血统稳定后,与苗族人群的血统交流。

另外,请注意,比例要看相对值,北汉也是一个复杂的混合体,且现代北汉并不能反应历史时期北汉人群的血统组成。畲族也未必反应出岭南土著人群的血统特征,未来古dna才能提供混合比例的绝对标尺,目前只能看相对值。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
缺乏aDNA做比对,都还是无法证实的推测。在农业发明之前,各地人群应该是处于不断地重组之中的,起码相当一部分allels是如此。而农业时期之后,大体上是稳定下来了,尤其是经过新石器中晚期的人口膨胀之后。

另外,ADMIXTURE的K值不能按照你的说法来理解,它只是人为地要求算法自动分出K=n种成分,并不代表事实就一定如此,尤其是动态的演变则更无法断定,因为对于常染的snp,目前的技术还无法判断上下游关系。  当然,通过观察不同的K值,加之有aDNA数据做比对,则大体的演变轨迹是看得出来的。  而你这里的寥寥几个族群的低K值则根本无法得出可信演变结论。
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
缺乏aDNA做比对,都还是无法证实的推测。在农业发明之前,各地人群应该是处于不断地重组之中的,起码相当一部分allels是如此。而农业时期之后,大体上是稳定下来了,尤其是经过新石器中晚期的人口膨胀之后。

另外 ...
imvivi001 发表于 2018-1-4 12:19
还是建议你学学基本工具,避免说完全不贴板的话,当锁定在目标样本后,K=2的计算深度,就要高出全球样本K=36时的深度了。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
12# Yungsiyebu
难道你的65万+元数据的测算(暂且不论你的missing是如何处理的),比人家这个研究成果的更深?

A comprehensive map of genetic variation in Han Chinese
doi:
https://doi.org/10.1101/162982
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
本帖最后由 Yungsiyebu 于 2018-1-4 13:12 编辑
12# Yungsiyebu
难道你的65万+元数据的测算(暂且不论你的missing是如何处理的),比人家这个研究成果的更深?

A comprehensive map of genetic variation in Han Chinese
doi:
https://doi.org/10 ...
imvivi001 发表于 2018-1-4 13:02
所以,还是让你学算法学工具,避免总大偏度的贴不粘板的话。
一个研究广度再大,也不见得深度多深。这种研究别说运算深度,根本区分不见苗汉,连更明显的蒙古人种内部族群差异都难,基本相当于K7b的深度。另外,不同芯片数据拼在一起,会大大降低snp数量,而区分相近人群基因结构,需要大量maf非常低的snp,这些snp在合并不同数据时,会被大量漏掉。比如,你用很多芯片数据跟23andme数据merge,最后就剩不了多少了,会大大影响精度。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
14# Yungsiyebu
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
14# Yungsiyebu
讲话不看原稿,水平真高。人家的运算分析可以清楚地区分各个省的汉族差异,难道还分不清苗汉? 更遑论你说的差异宛如两个不同族系的内外蒙古的蒙古族了吧。
还有,你知道人家运算的是多少个variants吗?
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
最好用R运行一下hapmap3.3.Q(不知道你有没有?),导出直观的色谱图,一目了然,而且非常公正,而不是人为标注的‘某某族裔成分’标签表,可能会有失客观
如下是标准的运行结果,至于其中的各种成分,大家可以客观 ...
imvivi001 发表于 2018-1-4 08:49
这里的倒数第三个北京汉族连浅黄色的北亚成分也没有,只有黄褐色的南东亚成分和黄色的东亚成分,构成的比例和畲族几乎一致,不知道测的是本土居民还是外来人口
17# lll
北京汉族内部差异很大,多种检测方法均可以看到这一点,提示作为中国政治中心其居民成分的复杂性
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
老北京人应该没这些个体。有个北京汉的样本来自北京高校,个体来自全国各地。
O3a3c* (M134+, M117-)
本帖最后由 Yungsiyebu 于 2018-1-7 00:32 编辑

根据K=4 Q文件结果,R制图。民族辨识效果应当比较理想。最后一列为畲族,没有保存上。
K=4 han_miao_tujia_she.png
1

评分次数

  • imvivi001

新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
返回列表
baidu
互联网 www.ranhaer.org