Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
楼主: wmch_928

关于欧亚草原数据分析的说明和其他问题

[复制链接]
发表于 2018-6-13 23:14 | 显示全部楼层
专业怼民科。
发表于 2018-6-14 05:08 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 05:18 编辑
专业怼民科。
yiking 发表于 2018-6-13 23:14

我无法想象,同样的专业工具,同样的专业数据库,人还分三六九等,你哪怕是只猴子,只要按标准程序录入数据,admixture等专业工具跑出的结果都应当是一致的。

另外,请注意,K7b e11等小计算器,都是便于快速跑商业芯片数据的网友开发小程序,并不是专业的生信工具,人群遗传结构,admixture是目前最广为应用的专业工具,文献中,绝大多数都会引入这个工具做分析。
专业科研工具最大的好处就是可重复可拆解验证,比如有网友也用标准科研工具admixture跑了数据,并生成与我的结果不同,经bed包拆解复原,发现原来他把1号染色体上3万+markers人为删除了约2/3,仅剩1/3左右的数据量,我用同样的删减数据,也的确只能得出非常南的遗传结构结果。
发表于 2018-6-14 06:50 | 显示全部楼层
小云老师,你这句话的表述不太准确噢。应该是:你用你自认为比较专业的方式对元数据进行了处理,但是跑出来的结果与专业团队用同样的元数据经过专业的处理加工得到的结果很不一样,尽管目前不清楚为什么会有这么大的差异,但是的确是这样。

不过我目前为止更愿意相信专业团队发表在专业杂志上的结果~~
imvivi001 发表于 2018-6-12 00:00
.
    这一段无疑是需要完善一下:

小云同学,你这句话的表述不太准确噢。应该是:你用你自认为比较专业的方式,对本文的元数据进行了切割或阉割,于是跑出来的结果,与本文的专业团队用国际学术界公认可验证的专业measures & methods得到的结果完全不一样。
    尽管目前不清楚这其中的具体原因,不过鉴于您为本坛专业群所熟知的专业水平,以及您一贯以来的“专业表现”,那俺目前只能------更愿意相信本文专业团队发表在国际专业杂志上的结果,呜呜呜~~



发表于 2018-6-14 06:54 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 07:03 编辑
.
    这一段无疑是需要完善一下:

小云同学,你这句话的表述不太准确噢。应该是:你用你自认为比较专业的方式,对本文的元数据进行了切割或阉割,于是跑出来的结果,与本文的专业团队用国际学术界公认可验证的专 ...
imvivi001 发表于 2018-6-14 06:50

请注意,人为删减数据的,不是我。首先将原bam文件按染色体切分,是便于个人电脑运算,你可以对比我的文件和wmch传的,结果是一致的。另外,wmch的数据是用23andme的array snp滤过的,我的是包含了全部rsid,而无诸王,又用wegene的affy array snp再删减了一遍,1号染色体最后仅剩1万左右,后者是造成其admixture分析结果极其南的主因。所以,你说的阉割数据,是谁你知道了吧?
发表于 2018-6-14 06:59 | 显示全部楼层
请注意,人为删减数据的,不是我。
Yungsiyebu 发表于 2018-6-14 06:54
.
您的语文理解力显然存在不足,请看清楚,我的原话是:

“你用你自认为比较专业的方式,对本文的元数据进行了切割或阉割,于是跑出来的结果,与本文的专业团队用国际学术界公认可验证的专业measures & methods得到的结果完全不一样。”

    请别告诉我说,你跑的元数据与本文作者团队的不一样吧?
发表于 2018-6-14 07:06 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 07:09 编辑
.
您的语文理解力显然存在不足,请看清楚,我的原话是:

“你用你自认为比较专业的方式,对本文的元数据进行了切割或阉割,于是跑出来的结果,与本文的专业团队用国际学术界公认可验证的专业measures & methods得 ...
imvivi001 发表于 2018-6-14 06:59

都来自一个源文件bam,我最初用三个染色体跑的数据,是无折损删减的,match了全部hgdp的snp,仅滤过极少的问题位点。而merge的数据中,我加入了hgdp的东亚组数据,而文献一个没有。所以,我很奇怪,文献中一个东亚样本,你能吻合什么?你反复贴的图,就是说明了,他们以蒙古人种因素为主,少量类高加索因素。
发表于 2018-6-14 07:14 | 显示全部楼层
86# Yungsiyebu
呵呵。我就知道,你还是没有看懂原文专业团队公开发表的admixture检测分析图。

也难怪,阁下连admixture分析中的Fst图表这些基本功都没能够做好,更复杂的自然很难保证了

K=5时,可能是问题所在,出现了很强的类拉祜族因素,类雅库特因素大幅降低。

此时,Fst值:

    Pop0    Pop1    Pop2    Pop3   
Pop0   
Pop1    0.051   
Pop2    0.075    0.057   
Pop3    0.116    0.117    0.137   
Pop4    0.219    0.218    0.236    0.196   



类雅库特类日本类拉祜族类玛雅类玛雅
DA43_23andmeXiongnu
period
0.0862610.5423530.3713660.000010.00001
...
Yungsiyebu 发表于 2018-6-12 09:58
发表于 2018-6-14 07:14 | 显示全部楼层
我没有特别分析过中国公司的商业芯片snp list,但一般而言,都是为中国人特别设计的,会针对性录入中国人特异的snp,对于健康目的有很价值,可以挖掘很多仅中国人高频而大人群低频的snp。但对于祖源分析,因为snp总量没变,可能滤过大量其他人群的特异性markers,我估计,wegene芯片再滤过一次,admixture运算结果如此之大,可能是这个原因。
发表于 2018-6-14 07:16 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 07:17 编辑
86# Yungsiyebu
呵呵。我就知道,你还是没有看懂原文专业团队公开发表的admixture检测分析图。

也难怪,阁下连admixture分析中的Fst图表这些基本功都没能够做好,更复杂的自然很难保证了

imvivi001 发表于 2018-6-14 07:14

这不是做的,而是admixture运行的原始结果,欢迎验证。
另外,一个对admixture基本操作都不会的人,天天说别人admixture解读的不专业,真的很尬。
发表于 2018-6-14 07:42 | 显示全部楼层
永谢布难道不知道,无论是e11、dodecad都是基于admixture算法的吗,另外建议永谢布看看admixture相关的paper。有关dodecad运用的技术,2015年已经发表成paper了。paper中也已经验证,该技术的结果和普通admxiture的结果几无差别,同时速度大大加快。
结果不同最大的原因是:1,低质量的位点没有被filter掉2,参考集中缺少西欧亚人群,一些低质量的位点被算法误判成非东亚人群,也就是所谓的“戎狄”成分
发表于 2018-6-14 07:51 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 08:09 编辑
永谢布难道不知道,无论是e11、dodecad都是基于admixture算法的吗,另外建议永谢布看看admixture相关的paper。有关dodecad运用的技术,2015年已经发表成paper了。paper中也已经验证,该技术的结果和普通admxiture的结 ...
无诸王 发表于 2018-6-14 07:42

没必要讨论这种低级问题,wegene上的颜那亚血统计算器就是我这边基于admixture的运算结果设计的,所以你说我知道不知道这些网友计算器和admixture的关系?这种非专业小工具根本没法搞定古人基因组分析,都是基于写死的结果运算的,的确快。

至于数据本身,我加过高加索等ref跑过数据,请看主贴,我没看到有任何差异,欢迎验证,至于低质量位点,我后期做的全组数据,就是wmch的,结果一样吻合。这个光说没用,建议你自己跑下。
发表于 2018-6-14 07:59 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 08:03 编辑

建议大家多像无诸侯那样跑下数据,原因一下子就找到,上一个原因,很清楚,就是其1号染色体,用wegene这种中国人设计的affy array滤过了大约2/3的marker,我用滤过的1万多snp跑admixture,也的确很东亚。这些问题光猜光说没用。跑跑数据,什么问题什么原因,一目了然,有码字扯皮的功夫,早跑完了。长篇大论码字比谁头上的犄角大',这事不懒,跑数据,懒,传数据,懒,很不可思议。
发表于 2018-6-14 08:12 | 显示全部楼层
这不是做的,而是admixture运行的原始结果,欢迎验证。
另外,一个对admixture基本操作都不会的人,天天说别人admixture解读的不专业,真的很尬。
Yungsiyebu 发表于 2018-6-14 07:16
.
     汝之问题一贯如此或一惯如一,选几个数目有限的族群跑一下低K值的ADM。更何况这次,你不单是刻意挑选了族群的个体(请大家注意,是个体,而不是专业团队一般是选取一个族群的多个个体),而且你破天荒地把元数据一段一段切割开来,或许是有‘阉割’之妙也说不定。


族群数目极为有限的ADMIXTURE检测分析参考价值不大(无论K值多少均是如此),切莫当真~
imvivi001 发表于 2018-1-14 07:11
看来你还是没明白ADMIXTURE算法的精髓。ADM算法之所以被称为美女唐华算法的升级版或优化版,就是因为这种算法在展现大数目的族群的多K值方面具有优越性,你倒好,取其之短来使用,那你还不如直接使用唐华算法呢,起 ...
imvivi001 发表于 2018-1-14 12:47



   另外,你一直强调“是个猴子也可以敲敲键盘跑一次程序’,俺承认,俺不如你这说的这个‘猴子’,呵呵。


    再次建议阁下先学会看懂专业团队的admixture分析结果! 想飞之前,请先学会正常走路!
发表于 2018-6-14 08:17 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 08:20 编辑

用数据说话,什么都一目了然,比如楼主说我做的mos4分型不对,但你看数据就知道,的确覆盖到一个c的marker且结果阳性,我的分析流程没有任何问题。至于低质量,当然,一个几个K大小的bam,当然,没有什么质量可言,我在分析前就说的很清楚。但我也要同时强调,NGS的数据,与吉大跑的,snp与str分型严重不匹配的情况不同,对于,NGS数据,哪怕非常低质量的数据,其准确率也是相当高的。我之前验证过一个样本的private snp,所有一个read的极低质量数据,其阳性结果,被后来的标准测序深度证明,都是正确的。所以,我有把握说,mos4是c这个结果,肯定比吉大的一大把数据把握的多。
发表于 2018-6-14 08:18 | 显示全部楼层
永谢布在低k值时用他自己的da43_yungsiyebu跑出类北亚的结果,在高k值以后用天水马的da43数据跑出比较典型的东亚人结果。
发表于 2018-6-14 08:19 | 显示全部楼层
然后,以低k值“北亚”,高k值“东亚”为由,给两者的“戎狄”身份定性
发表于 2018-6-14 08:24 | 显示全部楼层
比如k=6时,使用天水马的da43时那个结果,和其他方面的结果就不矛盾了。但是,永谢布还要坚持那个和其他方面都产生矛盾的k=2、k=3的用da43_yungsiyebu跑出来的结果
发表于 2018-6-14 08:27 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-6-14 08:32 编辑
永谢布在低k值时用他自己的da43_yungsiyebu跑出类北亚的结果,在高k值以后用天水马的da43数据跑出比较典型的东亚人结果。
无诸王 发表于 2018-6-14 08:18

请仔细看数据,跟哪个东亚典型了?这么多口水贴没有用,把你删除的数据补回来,再跑跑,比码字发口水贴省力,我知道你人比较懒,大家别浪费口舌。
1806131216ae59347454d4700e.jpg
发表于 2018-6-14 08:36 | 显示全部楼层
比如k=6时,使用天水马的da43时那个结果,和其他方面的结果就不矛盾了。但是,永谢布还要坚持那个和其他方面都产生矛盾的k=2、k=3的用da43_yungsiyebu跑出来的结果
无诸王 发表于 2018-6-14 08:24

用数据讲话,真的比码字发口水贴难吗?
IMG_20180614_083516.jpg
发表于 2018-6-14 08:37 | 显示全部楼层
Screenshot_2018-06-14-08-36-39-128_浏览器.png
永谢布自己贴的
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2018-12-14 20:34 , Processed in 0.169331 second(s), 16 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表