如需转载本站内容,请注明资料来源于: www.tofms.org
|
【要闻】【评论】当前质谱数据挖掘的四个严重误区 |
【评论】当前质谱数据挖掘的四个严重误区 极近几年,常常评审做蛋白和多肽质谱数据挖掘的论文,作者不乏知名生物信息学团队,他们提出了许多“质谱数据挖掘新框架”,也有一些人提出了一些“新算法”,这些思想的核心都是基于“数值分析”,采用数学和统计学原理对数据进行各种处理。 归纳起来,存在以下四个方面的严重误区,在此妄自评论一下,供大家商榷,欢迎批评指正。 他们的思路中极大的误区是:没有把质谱数据跟蛋白/多肽质谱峰关联起来。一张质谱数据点中只有一小部分是真正的蛋白或多肽,其它就是背景信号或噪音。比如,一张质谱图中的蛋白或多肽不到100个,数据点有15155个,其中有大量背景信号、干扰信号,尤其还可能有同位素信号,因此,在算法研究时,质谱数据区间是不可以随意设定的,也应该排除同位素峰。 做算法研究必须提取出真正的蛋白或多肽质谱信号,而不是数据点优化来进行临床样本判断,否则结果很可能是不真实的,起码不能对应到具体的生物标志物。 第二,对齐图谱存在明显误区。对于标志物的挖掘,必须采用大量数据,此时,m/z坐标对齐是个严格的专业性问题,用于对齐的参考峰首选真正的蛋白或多肽峰,不可随意指定。 第三,对数据库的判别也存在许多误区。许多人采用网上的公共数据集,但对于那些数据的理解常常缺少质谱专业人员的协助,所以,很少能真正理解那些质谱数据,有的甚至分不清哪些是高精确质量数据,哪些是低精确质量数据,这对于数据后续处理是极其关键的。 第四,结果复核存在误区。一般人都是把显著差异的m/z作为分类判据,很少有人去复核这些m/z是不是蛋白或多肽峰,用这样的数值去进行临床判断,就会走进“纯数值诊断”的误区,而不是采用真正的标志物了。 更多精彩文章,请关注公众号 【药网堂】 All rights reserved , visit the micromessage 药网堂 for more @ tofms_org@126.com ![]() 【wkh, 2012-08-30 17:51:19】 【责任人 wkh】 [已阅读 1690 次] |
Email:tofms_org@126.com 【有疑问,发邮件】 © 2008- All Rights Reserved, Powered by WKH© 2008 |