返回列表 回复 发帖

一些关于各种遗传距离算法的神论

本帖最后由 Yungsiyebu 于 2018-1-27 13:16 编辑

避免反复胡搅蛮缠,我把一些神论集中汇总一下。

隔壁老王看来是真把论坛网友都当傻缺了。
由于PCA分析中,由于主成分比较多时,尤其是不同成分负荷较为接近时,无法从二维空间进行展示,容易被很多人错误解读,而欧式距离则准确的多。
隔壁老王 发表于 2018-1-26 18:14
隔壁老王码字无数来论证,欧式距离比PCA准确。那么,PCA和欧式距离到底什么关系,百科一下不就得?
在所有的图像距离度量算法中,欧氏距离因其算法简单
高效,被普遍应用于各种图像识别算法中,比如sVM、LDA和PCA等。《图像欧氏距离在人脸识别中的应用研究》
看明白了吗?欧式距离比PCA准确?别把网友当傻X了,欧式距离就是PCA最常用的图像距离度量算法。我自己做的PCA算法中,都是用的欧式距离。

新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
无语了,欧式距离反映的是多维空间中的关系,PCA图再有用,也只是一张二维图,从高维降维到低维必然会损失信息,所以看PCA图远近关系不能光看平面距离,要看提取出的主成分所占的权重负荷。结果提取出的第一主成分占比很高也很稳定,其他主成分没有能与之相比的,但在二维图中被放大到与第一主成分相同的地位,所以其他主成分只要偏离一点,在PCA图上就会产生很大的偏差。这么浅显易懂的道理连我这种外行都能看明白,隔壁老王的话就这么难理解么?
1

评分次数

整天叫别人学这个工具,学那个工具,自己半瓶水,什么都不懂,果然只有百科的水平。见过脸皮厚的,没见过脸皮这么厚的,果然只有MNOPS这样的崇拜者能赶得上
即使考虑到情感因素影响了老永的理性判断,但从老永的许多帖子来看,数理逻辑是老永的硬伤。老永大概不会成为一个优秀的科技工作者。但会是一个优秀的营销高手.表达能力,推广能力是他的优势所在....
呵呵,干嘛打搅人家小云老师的美梦呢,多不人道吖~
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
我都不知道说明过多少遍了,小Y水平真的不行

欧氏距离矩阵是保留了N维度下的原始值,最精确,PCA图只是N个成分中最大的两个,舍弃了N-2个成分,是近似值,肯定不如欧氏距离矩阵里的原始数值更准确

而且小Y的另一些习惯也不好,看聚类图只简单是看聚类图上的顺序,不看首次聚类的阶数,看PCA图只看直线距离,不看两个成分的贡献度,不看某单一成分下的分析,这种方式只对第一主成分约等于第二主成分,且两者累计贡献度非常高的情况才有效,但这个是非常难出现这种情形的
本帖最后由 Yungsiyebu 于 2018-1-29 10:02 编辑

一些连基本分析工具都不会用,还大谈你不懂原理的神论,也是醉了。

如果你在使用PCoA,MDS,cluster等遗传距离可视化工具时,都要选择一下算法时,你就不会胡扯什么PCA比欧式距离准因为PCA的默认图像距离算法就是欧式距离。PCA仅仅是一种将工具,把肉眼不容易看的多维数据降成二维或者三维,变得更直观,但遗传距离依然是默认欧式距离。

另外,PCA,MDS要比欧式距离的数值列表更大的优势是,肉眼看欧式距离列表,只是简单看一个距离,但在多样本比对时,肉眼很难观察变化趋势。比如,当我们比对青铜时代的河南古中原组更接近古华北种系还是本地新石器时代土著时,我们在比对薛村等欧式距离结果时,绝大多数河南青铜组更接近古华北类型,这一点不需要多论。如果你看殷墟2组数据,肉眼看欧式距离,你似乎认为2组是典型土著,但反应在任何一个工具上,PCA也罢,MDS也罢,都可以明显的观察到殷墟介于古华北类型和新石器时代本地土著种系之间。

具体案例,请看:




最后看一下raw data,即使仅凭肉眼,你也可以观察到哪怕是河南新石器时代样本中最接近现代东亚人的庙底沟组,也在绝大多数测量性指标上与现代人差异明显。反应在欧式距离上,西戎齐家磨沟组和现代华北组的欧式距离为8.809502,而与疑似上古华夏黄帝族的庙底沟组遗传距离高达83.51427,近10倍,我们一眼就能看出山西河北人和福建人的差异,而二者之间的遗传距离不过29.685309。

这是最接近现代东亚人的一个河南新石器古代组。疑似黄帝族庙底沟二期居民超高超阔偏园的颅骨,宽大的颧骨,配有低矮的上面,偏低阔的鼻型,超大的脑容量,这种特征的种系,现在族群已经消失了。


所以,隔壁老王你的PCA没有euclidean准的理论就是扯破天,也改变不了一个基础事实,就是论坛除了你都不瞎。















最后,老生常谈,你敢不敢。



请隔壁老王,正面回答三个问题问你八百变的问题,你敢不敢?你想躲多久?

1)如果我们讨论青铜时代河南组到底更接近古华北类型还是本地新石器时代土著,你能不能比河南,而不是跑到姜戎老家宝鸡找证据?比的是河南,你敢吗?


2)你的赵国华夏族大堡山组,你到底敢不敢录入数据,比对大堡山组和新石器时代古华北类型和新石器时代各地古中原类型之间的关系?


3)当我讲新石器时代古中原各组均无法找到现代族群中的典型继承者,你敢不敢把东亚汉族等数据录进来讲话?






新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
呵呵,干嘛打搅人家小云老师的美梦呢,多不人道吖~
imvivi001 发表于 2018-1-28 21:28
同样的,如果你有空长篇码字反复胡扯,不如学一下工具,如果你自己跑一下admixture,就知道你要是想用missing data是要单独加参数的,默认状态下都是没有的。
只用bed运行一次?须知ADMIXTURE一次运算的data missing是常见的,难道没有二次确认? 没有.bim.fam格式数据运行比对?
imvivi001 发表于 2018-1-4 07:51
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-29 10:28 编辑
无语了,欧式距离反映的是多维空间中的关系,PCA图再有用,也只是一张二维图,从高维降维到低维必然会损失信息,所以看PCA图远近关系不能光看平面距离,要看提取出的主成分所占的权重负荷。结果提取出的第一主成分占 ...
Lep1dus 发表于 2018-1-28 21:00
你百科来这么多,但一个最基本的道理要先明白,PCA就是默认欧式距离算法。

至于PCA把多维数据压缩为2维或者3维,你要是觉得PCA不如你肉眼看的准(尽管pca是最广为接受的工具),ok,没问题。那就请看raw data,大家都不瞎,隔壁老王就是说破天,你觉得这组数据你能看出来庙底沟上古黄帝族,比庙子沟北狄始祖更接近现代汉族?而庙底沟组几乎是所有河南新石器时代古代组中遗传距离最接近现代东亚人的了,其他各组更奇形怪状。














新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-29 11:17 编辑

当你明白PCA就是默认欧式距离算法这个大前提下,在看PCA如何将20维数据降为2维的就清楚了。

这里我用可选算法的普通版PCA,即PCoA来运算(因为PCA就是欧氏距离算法),具体看一下,欧式距离算法和其他通用算法会不会得出明显的差异。

首先看欧式距离算法的PCoA结果,两个axis的权重如下,可见Axis1比例高达97.278%。而未体现在2维图谱中的3-13 axis,总权重不过1.5%,非常低。可以忽略不计。

AxisEigenvaluePercent
16160097.278
2768.681.2139
34640.73274
4225.780.35655
5119.920.18937
672.2040.11402
731.9720.05049
819.8030.031272
910.9720.017327
105.10510.008062
113.60250.005689
121.33250.0021042
139.89E-121.56E-14
河南PCoA.png
河南raw data.png
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-29 11:16 编辑

接下来,我们首先看一下,如果我们只取权重高达97%+的axis1,忽略权重1.2%的axis 2,加入其它axis来看一下结果。结果如下,可以明显观察到,虽然由权重1.2%的axis-2更换为权重更低的3-6,PCA图形结构会有一定变化,但并不影响整体结果,即中原新石器时代的上古华夏族与现代东亚人种系差异巨大,而内蒙古长城沿线的北狄种系则相对近得多。
河南PCoA axis 1&3.png
河南PCoA axis 1&4.png
河南PCoA axis 1&5.png
河南PCoA axis 1&6.png
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-29 11:26 编辑

然后,我们将欧式距离换为另一个比较常用的Manhaton距离。axis2-6,

结果如下,可以明显观察到,绝大多数上古华夏族都明显偏离现代东亚组,而后者更接近北狄种系。结论一致。

AxisEigenvaluePercent
11.28E+0573.419
2150088.6196
3135267.7688
46542.63.7577
54324.12.4836
61532.80.88033
71099.20.63133
8849.740.48804
91.89E-111.09E-14
10-45.377-0.026062
11-760.24-0.43664
12-904.08-0.51925
13-1688.6-0.96983
河南PCoA axis 1&2 manhaton.png
河南PCoA axis 1&3 manhaton.png
河南PCoA axis 1&4 manhaton.png
河南PCoA axis 1&5 manhaton.png
河南PCoA axis 1&6 manhaton.png
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-29 11:39 编辑
整天叫别人学这个工具,学那个工具,自己半瓶水,什么都不懂,果然只有百科的水平。见过脸皮厚的,没见过脸皮这么厚的,果然只有MNOPS这样的崇拜者能赶得上
Lep1dus 发表于 2018-1-28 21:07
骂街解决不了问题,百科来的是专业文献,他告诉你PCA就是欧式距离算法,所以,你知道探讨欧式距离比PCA准确有多么可笑了吗?一群连PCA算法是什么都不不知道的的人,嘲笑百科和百科来的专业文献,哈哈,你开心就好。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
一些连基本分析工具都不会用,还大谈你不懂原理的神论,也是醉了。

如果你在使用PCoA,MDS,cluster等遗传距离可视化工具时,都要选择一下算法时,你就不会胡扯什么PCA比欧式距离准,因为PCA的默认图像距离算法就 ...
Yungsiyebu 发表于 2018-1-29 09:13
狡辩没有用的,小Y你这种低下的水平已经露馅了,靠百度是弥补不了的,而且越解释越搞笑,越显得小Y没有搞懂

Y的认知逻辑是,PCA分析需要对数列矩阵计算欧氏距离,所以PCA图等于欧氏距离,PCA图上就是精确的欧氏距离,小Y认为两者是一样的所以不存在谁更精确,这个就是小Y的认知水平,他自己还觉得他挺有道理的

实际上,小Y的这些PCA图里,如果方法选的用欧氏距离,就是最小值,PCA图里得到特征向量中特征值最大的两个,得的的即沿着其方向的直线距离,因此是数列矩阵中两点间实际欧氏距离的近似值。

PCA的欧氏距离近似值和不相关矩阵里欧氏距离的原始值,哪个更精确,这个还用问吗?
骂街解决不了问题,百科来的是专业文献,他告诉你PCA就是欧式距离算法,所以,你知道探讨欧式距离比PCA准确有多么可笑了吗?一群连PCA算法是什么都不不知道的的人,嘲笑百科和百科来的专业文献,哈哈,你开心就好。 ...
Yungsiyebu 发表于 2018-1-29 11:37
Y的脸皮厚,伶牙俐齿,被揭穿了也不会承认的。

下次小Y你把原始数据贴出来让大家给你验证一下真伪,也许会有更精彩的事情发生。
返回列表
baidu
互联网 www.ranhaer.org