Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
楼主: 风虎云龙

O3a1c-002611新文章

[复制链接]
发表于 2013-3-25 14:30 | 显示全部楼层
surfer频率图最开始是没放的,因为小支系会因取样造成较大偏差,后来审稿人非要求把频率图画上,就这样子了。。。
王传超 发表于 2013-3-25 13:41


我想请教一下王兄,该文献中002611下游无论是F11、002611*,在东南部和南部的几省如浙江、福建、广东省的发生频度按你文献中的图似乎都低于1%,这是你们复旦目前的研究结论吗?那么这个空白区域是打算等着为M117和某些N1*、Q、P164*、O1、O2a等而留的咯?因为在你的图中,即使加上广东的F238,该三大亚群的频度之和看上去也不像能到5%的样子。特别是福建,三大亚群几乎都是空白(当然我认为闽西的情况你们的采样是显然有问题的这个毫无疑问,云南我认为也有问题),这个空白区域是专为M117而预留的吧?

看起来吴薇薇那份据称以浙江某市为重点的浙江文献,对于该省的单倍群整体情况所透露出的信息是有误导性的。浙江的整体002611应该低于5%才对,属于稀有单倍群之列,是不是这样?
发表于 2013-3-25 17:50 | 显示全部楼层
surfer频率图最开始是没放的,因为小支系会因取样造成较大偏差,后来审稿人非要求把频率图画上,就这样子了。。。
王传超 发表于 2013-3-25 13:41


Eastern Han: Shandong, Jiangsu, Shanghai, Zhejiang, Jiangxi, Anhui of China.
Central Han: Hunan, Henan, Hebei, Hubei, Shanxi, Beijing of China.
Northeastern Han: Heilongjiang, Jilin, Liaoning of China.
Northwestern Han: Gansu, Xinjiang of China.
Southwestern Han: Sichuan, Guangxi, Yunnan of China.
Laos: Bo, Lao, Laven, PhuThai, Rien, Sô, Tai Mène from Laos.
Altaic: Tu (Qinghai), Manchu (Jilin and Liaoning), Mongolian (Inner Mongolia) from China.
Korean: Korean from Jilin, China.
Baima: Baima from Gansu, China.
Qiangic: Muyag, Queyu, Qiang from Sichuan, China.
Tibetan: Tibetans from Qinghai, Tibet, and Gansu of China.
–, missing data.

另外此文的研究对象不包含Southeastern Han,也令人颇费思量。大概是样本数过低的原因?

因为小支系会因取样造成较大偏差
-------
不管是大支系还是小支系,这篇文章给出的数据都是令人意外的,我并不认为该文的STR及SNP本身不可靠,但我有理由怀疑小样本量下的机误是非常大的,拿大支系的F11来看,你的F11图中河北西南部是F11的一个高频中心,但以当前从YHRD上采到的河北石家庄数据来看,石家庄的002611 Overall是偏低的,不如一些西北民族和部分西北汉族数据,且YHRD石家庄样本虽然总数只有152个,但包含近20个002611,而本文提到的508(out of 7801)个样本中整个就只有6个河北样本,从采样数来看其精度显然还不如我那个YHRD上的数据精度。因此即使是对F11这种大支系,又是如何保证绘图质量的?

另外,附件中显示甘肃的Northwestern Han就占了134/508也就是超过1/4,远远超过甘肃人口在全国总人口中的比重,而来自广东的Southern Han只有1/508,而福建省则一个样本都没有?广东福建的人口基数远远高于甘肃,但前者却是本文中仅有的被忽略的一个人口大省。你的频度图中两省的频度着色显示几乎呈空白缺失状态,这是因为在该两省没采到样呢,还是因为采到了但本文所涉各(亚)单倍群在该两省的频度接近零所造成的?抑或你们的图根本就不是基于这508人的样本,那又是基于哪次“大规模未公布研究”呢?
 楼主| 发表于 2013-3-25 18:51 | 显示全部楼层
复旦-王传超:在后续研究中,我已将其划为东夷//@苏三-历史: 仅只读4个图的感受:总体有较强相关性,但一级相关性为AB图,二级加上D,最后加C。C的重心跑到山西了,D多出一个珠三角中心。ABD在湘鄂赣大湖区有明显沉淀,AB显示出环渤海黄海明显倾向。结合远古地理地貌,可能ABD自古习惯在海湖边、沼泽地区生存         (今天 15:09)
发表于 2013-3-25 20:52 | 显示全部楼层
本帖最后由 雄镇散人 于 2013-3-25 21:57 编辑
我想是采样原因,甘肃的样本确实采得多
sahaliyan 发表于 2013-3-25 20:15


我认为广东福建的M117和002611(包括F444)之比例无论如何夸张,都不可能是一个深红色一个呈空白缺失状。

另外我建议复旦大学各研究小组适时公布一下部分paper采样的各省样本数具体构成,并希望能以语系为单位而不是以行政区划为单位进行统计。

因为各亚区之间的差别非常巨大,比如河南晋语区的数据,当然不能跟伊洛地区以及信阳相提并论,广东潮汕数据,当然不能跟粤北客家数据相提并论,山东鲁西南地区,也显然不能跟山东胶东地区相提并论。即使是相近地区比如同样的冀鲁官话区,我们看到的鲁中北邹平数据,就跟王兄搜集的鲁中北高唐数据大不相同,这当然也有采样量偏低的缘故,但也未必是全部。

我个人认为当前不仅王兄而且POLY兄的数据根本就没采到过多少华南样本,所以其频率图中华南基本一片空白也是不难理解的了。
发表于 2013-3-25 21:02 | 显示全部楼层
  1. 想请教一下王兄,该文献中002611下游无论是F11、002611*,在东南部和南部的几省如浙江、福建、广东省的发生频度按你文献中的图似乎都低于1%,这是你们复旦目前的研究结论吗?那么这个空白区域是打算等着为M117和某些N1*、Q、P164*、O1、O2a等而留的咯?因为在你的图中,即使加上广东的F238,该三大亚群的频度之和看上去也不像能到5%的样子。特别是福建,三大亚群几乎都是空白(当然我认为闽西的情况你们的采样是显然有问题的这个毫无疑问,云南我认为也有问题),这个空白区域是专为M117而预留的吧?

  2. 看起来吴薇薇那份据称以浙江某市为重点的浙江文献,对于该省的单倍群整体情况所透露出的信息是有误导性的。浙江的整体002611应该低于5%才对,属于稀有单倍群之列,是不是这样?
复制代码
Haplogroup                 O-M175                O3-M122                O3a1c-002611       
Region,Population        Sample size     N    %         N    %                N        %
Han(Jiangxi,China)        33        29        87.88        16        48.48        5        15.15
Han(Zhejiang,China)70        62        88.57        40        57.14        10        14.29
Han(Fujian,China)        13        8        61.54        4        30.77       
Han(Fujian,China)a        53        31        58.5        16        30.2        14        26.4
Taiwanese Han(Taiwan,China)a
                               94        41        43.8        19        20.3        15        16
Han(Taiwan,China)b81        69        85.19        48        59.26        8        9.88
Vietnamb                        70        55        78.57        28        40        10        14.29
Han(Guangdong,China)b40        31        77.5        13        32.5        2        5
Han(Guangdong,China)8        6        75        5        62.5        1        12.5
发表于 2013-3-25 21:10 | 显示全部楼层
该文中002611在江西,浙江的比例分别是15.15%,14.29%,在汉族中虽然不算高,但也绝不算低。福建样本有两组,一组为零,一组为26.4%,平均一下为13.2%,也不算低,只能说两组样本组成差异巨大。台湾汉族也有两组,002611比例为16%,9.88%,虽然有一定差异,但也并非不可接受。广东汉族也有两组,样本量也偏少,比例分别为5%,12.5%,很可能出现了和福建类似的状况。
 楼主| 发表于 2013-3-25 21:16 | 显示全部楼层
部分数据有点小问题(求和错误、数据空缺)
1.png
2.png
发表于 2013-3-25 21:20 | 显示全部楼层
69# wolfgang


你认为下面这两个详细采样地不知为何处的8、13、53、40的样本,能代表1亿4千万人口的情况?

Haplogroup
O-M175
O3-M122O3a1c-002611
Region,PopulationSample sizeN%N%N%
Han(Guangdong,China)8675562.5112.5
Han(Fujian,China)13861.54430.77
Han(Fujian,China)a533158.51630.21426.4
Han(Guangdong,China)b403177.51332.525


O3a1c*-002611xF11,xF238O3a1c1-F11O3a1c2-F238
N%N%N%
112.5
------
------


文波的《汉文化》,“福建”的M134(含M117,当然也含F444)仅占24/148还是24/168(我记不清了,可以回头查一下,反正两者居其一)也就是M117+F444的总和都还不足25%,而YHRD的“福建”Minnan样本,14/12/11的M117约占43/109还是47/109,也就是光这部分M117就占了总样本量近半数,而以闽南粤东为主要采样地的《闽越消失》一文也是类似的高比例。你认为哪个“福建”更能代表福建?

其实答案很清楚,文波《汉文化》的“福建”采样,均来自福建长汀客家。而《闽越消失》一文的“福建”采样,绝大部分来自福建南部和广东东部,只有2个福建福州样本。

这几个数据中任意一个拿出来,就已经超过本文所用的“广东福建”两省那百来个样本的总和,其他的还需要我说吗?
发表于 2013-3-25 21:25 | 显示全部楼层
73# 雄镇散人
按照你的标准,需要多少样本?这样他们就别写论文了。我不知道上级有没有给他们足够的资金和时间,如果你是领导也许没有问题,但是你不是领导。
发表于 2013-3-25 21:30 | 显示全部楼层
73# 雄镇散人  
按照你的标准,需要多少样本?这样他们就别写论文了。我不知道上级有没有给他们足够的资金和时间,如果你是领导也许没有问题,但是你不是领导。
wolfgang 发表于 2013-3-25 21:25


写论文没关系,但不一定要画频率图,因为频率图很多都是有误导性的,我们看到王兄在前面已经解释了。

surfer频率图最开始是没放的,因为小支系会因取样造成较大偏差(注:其实我个人认为以现有样本基数,无论“大”支系还是“小”支系,偏差都是相当大的),后来审稿人非要求把频率图画上,就这样子了。。。
发表于 2013-3-25 21:30 | 显示全部楼层
71# sahaliyan
嗯。002611在甘肃总体上还是由东向西慢慢呈递减趋势的。兰州是其中一个高点。但是兰州恰恰是建国后甘肃外省人口涌入最多的地方,特别是华东和华中地区的外来人口。而这些地区,恰恰是002611频率较高的地区。
 楼主| 发表于 2013-3-25 21:33 | 显示全部楼层
统计了下表格里面的汉族数据:汉族样本总体2886,其中
O-M175=1984/2886=68.75%,
O3-M122=1516/2886=52.53%,
O3a1c-002611=403/2886=13.96%,
O3a1c*-002611xF11,xF238=41/2886=1.42%,
O3a1c1-F11=291/2886=10.08%,
O3a1c2-F238=71/2886=2.46%.
发表于 2013-3-25 21:41 | 显示全部楼层
78# sahaliyan
有两省甘肃和山东样本有意作了重点采样,肯定是为了对比。也许是领导的意图也说不定。
发表于 2013-3-25 21:42 | 显示全部楼层
统计了下表格里面的汉族数据:汉族样本总体2886,其中
O-M175=1984/2886=68.75%,
O3-M122=1516/2886=52.53%,
O3a1c-002611=403/2886=13.96%,
O3a1c*-002611xF11,xF238=41/2886=1.42%,
O3a1c1-F11=291/2886=10.0 ...
风虎云龙 发表于 2013-3-25 21:33


由于频度比例过于悬殊,所以按该文中的划分层次,等于跟什么都没分一样,因为目前来看002611的下游分型几乎等价于F11的下游分型问题,而该文没有提供任何有用信息。
 楼主| 发表于 2013-3-25 21:44 | 显示全部楼层
本帖最后由 风虎云龙 于 2013-5-5 23:21 编辑

对应三大簇中Oγ就是指F11下游的大簇,当然Oγ下面的Oγ1·······Oγ5才是重点
发表于 2013-3-25 21:47 | 显示全部楼层
78# sahaliyan  
有两省甘肃和山东样本有意作了重点采样,肯定是为了对比。也许是领导的意图也说不定。
wolfgang 发表于 2013-3-25 21:41

其實道理很簡單,之前我們實驗室就是在這兩個省有過集中採樣行爲。然後樣本也還有不少能用,所有就用了。然後我平時放出的樣是我自己慢慢攢的血樣,樣本量比較小。我們不會爲了這麼一個支系的硏究專門跑一個省採上千個樣的。領導?呵呵。
发表于 2013-3-25 21:54 | 显示全部楼层
82# polyhedron
所以你们吸引领导眼球以获得更多资金以及其他方面支持的能力还有待加强。
发表于 2013-3-25 22:00 | 显示全部楼层
打个岔:

吸引资金本质上就是个噱头技巧问题,关于这方面不好意思,我真不认为在博客或者个人网站里大谈特谈西欧亚类型能吸引多少人气,因为中国人不一定都对这问题感兴趣。所以这个路子未必是正确的。
发表于 2013-3-25 22:04 | 显示全部楼层
82# polyhedron  
所以你们吸引领导眼球以获得更多资金以及其他方面支持的能力还有待加强。
wolfgang 发表于 2013-3-25 21:54

科硏體系不是行政體系。中國基本上科硏體系不是領導批錢(少數例外,我們普通科硏工作者接觸不到),而是每年給自然基金委或科技部之類寫項目申請,由專家評議決定給哪個項目發錢。即使吸引了領導(跟我們完全不在同一系統,也幫不上我們)或媒體或公衆眼球,評議的專家委員會不同意,照樣項目做不下去。而評審的主要指標在實驗室和申請人之前發過多少文章(而且要是英文的SCI文章)。國外基本也都是類似系統。所以除非我們能靠測試養活自己(從匯澤來看是有困難的,尤其我們的科硏興趣不只是測STR這麼簡單),否則只能依賴發文章、申基金這套維生。
发表于 2013-3-25 22:11 | 显示全部楼层
86# polyhedron
中华断代工程就对你们一点没有启发?你说的那些其实我都知道。李辉能冒出头,学术能力是一方面,学术以外的技巧也是刚刚的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2020-6-3 07:59 , Processed in 0.171993 second(s), 16 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表