返回列表 回复 发帖
图瓦的中国成分,倒可能是晚近由蒙古等带来的,而哈萨克、吉尔吉斯、乌兹别克等中亚的中国成分有可能是更早的突厥、匈奴、乌孙时期来的。
版权声明:我发表的文章是我潜心研究并参考国内外文献后所写,我拥有全部版权。读者可以转载,但必须注明出处、原作者——哈萨克族网友“乃曼”,并且不得在转载时夹杂谩骂、攻击性言语,否则一经发现勒令删除并追究法律责任!任何情况下,如果我要求转载方删除转载内容,则转载方必须删除,否则追究法律责任!
Kirgzi_North 从K=6含有大量中亚的类乌兹别克始祖成分来看,不像是遥远的西伯利亚哈卡斯,也许就是中亚的北吉尔吉斯。但问题未必像表面看的那样。

1、先假设 Kirgzi_North是中亚的北吉尔吉斯。从Fst值,乌兹别克始 ...
乃曼 发表于 2018-1-14 00:13
族群数目极为有限的ADMIXTURE检测分析参考价值不大(无论K值多少均是如此),切莫当真~
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
本帖最后由 Yungsiyebu 于 2018-1-14 09:22 编辑
族群数目极为有限的ADMIXTURE检测分析参考价值不大(无论K值多少均是如此),切莫当真~
imvivi001 发表于 2018-1-14 07:11
不存在这个K值靠谱那个不靠谱,这个样本数靠谱,那个不靠谱的事情,都是一致的算法,一样的工具。且,当样本全部来自一个文献,一个平台,不需要拼贴时,snp数量要大得多,有大量maf很低的突变位点,可以更精细的反应种系结构。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-14 09:45 编辑
从Fst值,乌兹别克始祖成分与乌克兰的遗传距离最近看,我觉得乌兹别克始祖成分也并非继承于历史上的中亚突厥人的类中亚突厥成分,而是比如粟特等的印欧语系北伊朗语族成分 ...
乃曼 发表于 2018-1-14 00:13
Fst值要看相对比值,这种peak在乌兹别克的pop,与图瓦和乌克兰的距离都是很近的,在K=3,大约相当于略多一些印欧成分和东方成分的混合。不可能跟北伊朗这种以典型高加索血统为主的种系一致。

但这种混血种系经过一段历史时期的融合,族群内部形成较为一致的遗传结构,当拉大K值,增加计算深度,可以非常清晰的辩识携带该血统的族群,与斯拉夫人相互区分。也与西伯利亚族群相互区分。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
我之后把K值拉大,先后在乌克兰内部和布里亚特内部分别出现两种pop,但哈萨克和吉尔吉斯还是无法彼此区分。那么,哈萨克和吉尔吉斯仅仅是文化驱动的突厥民族还是确实存在一定的彼此区分的血统基础呢,稍后,会专门尝试对两个民族样本进行更深运算。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
不存在这个K值靠谱那个不靠谱,这个样本数靠谱,那个不靠谱的事情,都是一致的算法,一样的工具。且,当样本全部来自一个文献,一个平台,不需要拼贴时,snp数量要大得多,有大量maf很低的突变位点,可以更精细的反 ...
Yungsiyebu 发表于 2018-1-14 09:20
看来你还是没明白ADMIXTURE算法的精髓。ADM算法之所以被称为美女唐华算法的升级版或优化版,就是因为这种算法在展现大数目的族群的多K值方面具有优越性,你倒好,取其之短来使用,那你还不如直接使用唐华算法呢,起码速度会更快,精确度在你的低族群数目低K值情况下二者是差不多的
看来你还是不懂ADMIXTURE的精髓。我的原话很明确:仅有四个族群就选取K=4, 则很难看出真正的区别,因为会逼迫算法必然把差别细微的两种成分硬性分成两种外表是截然不同的成分,这个对初学者来说容易出现误导性。
换言之,这种仅有四个族群就取K=4,必然会带来四种不同的成分。就好象我前面所说的,如果是两个亲堂兄弟(父亲亲本与母亲亲本皆为亲兄弟姐妹),在足够深度的情况下,如果取K=2,也会出现两种截然不同的成分,甚至两个亲兄弟姐妹也会如此,但是这个有意义吗?
imvivi001 发表于 2018-1-7 11:07
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
本帖最后由 Yungsiyebu 于 2018-1-14 14:17 编辑
看来你还是没明白ADMIXTURE算法的精髓。ADM算法之所以被称为美女唐华算法的升级版或优化版,就是因为这种算法在展现大数目的族群的多K值方面具有优越性,你倒好,取其之短来使用,那你还不如直接使用唐华算法呢,起 ...
imvivi001 发表于 2018-1-14 12:47
你还是先学会自己试试。贝叶斯算法不是说几个族群就没算。瞎说不如用结果讲话,比如,用目标族群加深运算深度,可以清晰的辩识出中亚族群和欧洲族群的结构差异。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
47# Yungsiyebu
如果通过ADMIXTURE只对两个亲堂兄弟(父亲亲本与母亲亲本皆为亲兄弟姐妹)测算,在足够深度的情况下,如果取K=2,也会出现两种截然不同的成分。明白吗?
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
OCA2的两个浅肤色类型,北亚地区兼具,而南方地区单一,也同样体现了蒙古人种内部遗传多态性由北向南递减的整体规律。具体,1000G做一下发育树,可以获得更清晰的演化结果。

http://www.ranhaer.com/viewthread.p ...
Yungsiyebu 发表于 2018-1-13 18:15
你不能一张嘴两层皮,正反都是你有理。东南亚多样性高是因为混血,这会怎么不说北亚多样性高是因为混血了呢?
O3a3c* (M134+, M117-)
47# Yungsiyebu
如果通过ADMIXTURE只对两个亲堂兄弟(父亲亲本与母亲亲本皆为亲兄弟姐妹)测算,在足够深度的情况下,如果取K=2,也会出现两种截然不同的成分。明白吗?
imvivi001 发表于 2018-1-14 14:57
两个样本跑不了,所以说,耍嘴皮子,不如学学工具,用结果讲话。如果是两个族群的混合样本,放在一起,一种情况是两个族群有明显的种系差异,另一种,是两个peak值出现在同一个民族内部。总之,即使只有两个族群,也同样可以跑出结果。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-14 23:02 编辑
你不能一张嘴两层皮,正反都是你有理。东南亚多样性高是因为混血,这会怎么不说北亚多样性高是因为混血了呢?
hercules 发表于 2018-1-14 15:03
十年了,你也没学会任何一个生信工具吧?你要是自己会分析下数据,就不会说,这么可笑的话,admixture结果是首先把非蒙古人种成分,欧罗巴和尼格利陀,先相互区分。比的是没有非蒙古人种混血成分的内部多样性。能听懂吗?
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-14 23:15 编辑

OCA2的树,用N-J做了一个tree,选取了一个非洲样本做为outgroup。

1000G数据,其中有27条基因链携带rs74653330 (Ala481Thr)突变,用绿色标记;另一个浅肤色突变rs1800414 (His615Arg)样本用粉色标记,两个突变都不携带的用黄色标记。

reference:蓝色欧洲样本,黑色非洲样本,灰色印度样本,红色美洲样本。

从tree上观察,两个突变阳性样本,都没有完全的聚类在各自的群内。很可能类似mtdna上的热点突变,可能不同的群都有一些分支发生两个热点突变。极少情况下,也可能是重组造成的,尽管基因内的重组现象通常较为少见。
Oca2 tree.jpg
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
http://www.nature.com/articles/hgv201558

Distribution of two OCA2 polymorphisms associated with pigmentation in East-Asian populations
Published online: 10 December 2015



Figure 1   Distribution of allele frequencies for SNPs rs1800414 (blue) and rs74653330 (orange) in East-Asian populations: (1) Dia; (2) Daur; (3) Han; (4) Hezhen; (5) Japanese; (6) Lahu; (7) Miaozu; (8) Mongola; (9) Naxi; (10) Oroqen; (11) She; (12) Tu; (13) Tujia; (14) Uyghur; (15) Xibo; (16) Yakut; (17) Yizu; and (18) Cambodia.

图1,东亚人群中,单核苷酸多态性rs1800414 (蓝) 和 rs74653330 (桔黄)等位基因分布频率:

(1) 傣族; (2) 达斡尔族; (3) 汉族; (4) 赫哲族; (5) 日本人; (6) 拉祜族; (7) 苗族; (8) 蒙古; (9) 纳西族; (10) 鄂伦春族; (11) 畲族; (12) 土族; (13) 土家族; (14) 维吾尔族; (15) 锡伯族; (16) 雅库特人; (17) 彝族; (18) 柬埔寨.
http://www.nature.com/articles/hgv201558

Distribution of two OCA2 polymorphisms associated with pigmentation in East-Asian populations
Published online: 10 December 2015

https://media.nature.co ...
ChinaHistory 发表于 2018-1-14 23:53
这种连三一学院大三paper水平都达不到的paperwork,居然还能够发表在大名鼎鼎的nature正版,可见nature的审稿水平的进步是多么的神速,呵呵
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
论坛怎么允许这种人肆意乱喷没有营养的东西!!!
本帖最后由 大昊 于 2018-1-15 22:35 编辑
http://www.nature.com/articles/hgv201558

Distribution of two OCA2 polymorphisms associated with pigmentation in East-Asian populations
Published online: 10 December 2015

https://media.nature.co ...
ChinaHistory 发表于 2018-1-14 23:53
在你给的连接论文里,日本的OCA2-615arg应该被高估了。
你这论文的样本来源,来自HGDP-CEPH。

HGDP-CEPH的样本来自全球52个族群,一共有1050个样本(所以常号称超过1000个样本)。
平均一个民族才20个样本而已。
当然,HGDP-CEPH的本意就研究常染(全基因组),那一个民族20个样本足够了。
因为研究常染的话,一个族群只要能保证3代土著的话,五六个人的常染就可以看个大概了。
但是,对于像血型频率啊,Y染频率啊,还有比如这个OCA2的等位基因的频率,这个样本量就太少了。

QQ图片20180115021712.png
2018-1-15 02:34



关于HGDP-CEPH,参考http://www.cephb.fr/en/hgdp_panel.php

Introduction to the HGDP-CEPH Panel
A resource of 1063 lymphoblastoid cell lines (LCLs) from 1050 individuals in 52 world populations and corresponding milligram quantities of DNA is banked at the Foundation Jean Dausset-CEPH in Paris. These LCLs were collected from various laboratories by the Human Genome Diversity Project (HGDP) and CEPH in order to provide unlimited supplies of DNA and RNA for studies of sequence diversity and history of modern human populations. Information for each LCL is limited to sex of the individual, population and geographic origin.
snp_world.jpg
2018-1-15 02:54

上面这图,就是这五十几个族群的分布,平均一个民族才20个左右的样本量。

HGDP-CEPH,这个名字虽然“高大上”,但平均一个民族(族群)20人的样本量,对于研究频率和比例的项目来说是完全不够的。
很多小民族连20个样本量都没有。
傣族、拉祜、苗族、畲族、纳西、这些小民族都是10个样本(如下图所示)
OKKKKKKK.jpg
2018-1-15 22:21

这图就是53楼原文里用来对照的HGDP-CEPH的样本的常染PCA(和原文测OCA2采用的样本是完全一样的
其中,一个点就代表一个样本。
可以发现,像傣族、苗族、畲族、纳西、拉祜、这些小民族都是10个样本。
日本就算多点,也就约20个样本的样子。

而我在27楼给的表格,光是日本的样本量(4个不同地点相加)就应该超过500人了。
1

评分次数

本帖最后由 大昊 于 2018-1-15 02:59 编辑

我在27楼给的表格,光是日本的样本量(4个不同地点相加)就应该超过500人了。

180113141412eee89279691428_副本_副本.jpg
2018-1-15 02:49


显然,这个表格数据的可信度肯定是超过53楼HGDP-CEPH样本的,因为HGDP-CEPH的样本量,平均一个民族才20人。
所以,这表格里日本人的OCA2-615arg的频率才是可信的。
日本人的OCA2-615arg的频率,绝对没那么高!
1

评分次数

数据量用于定性分析足够了!!!
本帖最后由 大昊 于 2018-1-15 03:06 编辑
数据量用于定性分析足够了!!!
ChinaHistory 发表于 2018-1-15 02:54
同样是日本人,
20人的样本量和500人的样本量有冲突,哪个有参考价值?
难道20人样本量用来定性分析足够,500人样本量用来定性分析反而不够?
认为那篇文章数据有问题,投诉Nature!!!
返回列表
baidu
互联网 www.ranhaer.org