ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Mascot概率评分

2022-05-21 17:04:16  阅读:196  来源: 互联网

标签:分数 概率 匹配 评分 搜索 质量 MS 序列 Mascot


Mascot 使用基于概率的评分。 这使得一个简单的 用于判断结果是否显着的规则。

使用质量值(肽质量或 MS/MS 碎片离子质量)进行匹配 总是按概率处理 基础。 总分是观察到的匹配是 随机事件。 直接报告概率可能会令人困惑。 部分原因是他们 包含非常广泛的量级,并且还因为“高”分数是 “低”概率,可能是模棱两可的。 为此原因, 我们将分数报告为 -10*LOG 10 (P),其中 P 是绝对值 可能性。 的概率 -20 变为 200 分。

显着性水平

一个普遍接受的 阈值是如果预期会发生事件,则该事件是显着的 随机,频率小于 5%。 这是报告的默认值 在结果摘要页面上。

典型肽质量指纹搜索的蛋白质摘要页面 ( 在新窗口中打开 ) 报告说“分数大于 70 是显着的 (p<0.05)"。得分分布的直方图如下所示:

得分为 108 的蛋白质是来自酵母的 26 kDa 热休克蛋白。 这是一个很好的结果,因为最高分非常重要,几乎没有 怀疑的余地。

(将分数直方图视为极值的高度放大视图可能很有用 序列数据库中所有条目的分数分布的尾部。 在这种情况下, 561,356 个条目中的 50 个条目。 绿色区域的分数在这条尾巴里面,并且是 没有意义。 一场真正的比赛,这是一个非随机事件,给出的分数非常清晰 的尾巴。)

重要的是区分 显着 匹配和 最佳 匹配。 理想情况下,正确的匹配是最好的匹配 和一个重要的匹配。 然而,重要性是一个函数 数据质量。 可能是质量值不够或 质量测量精度不够好,无法获得显着 匹配。 这并不意味着最佳匹配不正确,它只是意味着 你必须更批判地研究结果。

为了说明显着匹配和正确匹配之间的区别, 尝试在示例中重复搜索,但使用质量容差 从±0.1 Da增加到 ±1.0 道尔顿。 搜索的区分度大大降低,分数 正确匹配刚好低于显着性水平:

最佳匹配仍然是正确的,但并不重要。 如果我们进行 20 次这样的搜索, 我们可以期望仅凭机会获得这个分数,因为有如此大量的条目 在序列数据库中。 增加质量 公差为±2.0 Da,正确匹配不再是得分最高的蛋白质。

即使这是一个未知数,但从显着性水平可以清楚地看出这不是有用的 匹配,并且该结果没有成为误报的危险。

期望值

肽质量指纹中的每个蛋白质得分,以及 MS/MS 搜索中的每个离子得分, 伴随着一个期望值。 这是匹配的数量 预期仅偶然发生的相同或更好的分数。 直接等价于 E值 在 Blast 搜索结果中。 对于恰好在默认显着性阈值上的分数 (p<0.05),期望 值也是 0.05。 将分数提高 10,期望值下降到 0.005。 期望值越低,得分越显着。

质量公差

如果匹配质量值的数量是恒定的,则肽质量中的分数 指纹将与 质量公差,如上例所示。 这不是一个 MS/MS 离子搜索,其中增加肽质量容差不会 对离子分数的影响。 这是 因为离子分数来自 MS/MS 碎片离子匹配。 开放肽质量耐受性意味着 Mascot 必须进行更多测试 肽,因此搜索时间更长,区分度降低,但 离子得分保持不变。

当然,如果肽质量公差设置得太紧, 为了提高辨别能力,一种或多种肽匹配 可能会丢失,这将大大降低总分。

限制

与任何统计方法一样,基于概率的评分取决于 关于假设和模型。

这些假设之一是 序列数据库可以建模为随机序列。 这并不总是一件好事 假设。 一些最明显的例子涉及扩展重复,例如 AAC62527 , 猪颌下无粘蛋白。 虽然分子量 该蛋白质为 1.2 MDa,超过 80% 的序列由相同的 7 kDa 组成 重复。 很难知道如何处理这种情况。 如果单个实验 允许肽质量与多个计算质量相匹配,然后单个 在重复中匹配的实验质量将产生巨大且 无意义的分数。 但是,如果不允许重复匹配,它 几乎不可能与这种蛋白质相匹配,因为数量 可测量的质量值太小,无法给出统计上显着的分数。

另一个假设是实验测量是独立的 决心。 如果数据包括 同一肽段的多个质量值,即使 这些来自电喷雾 LC-MS 运行中具有不同电荷状态的离子。 好的 峰值检测和阈值(在 LC-MS 的质量域和时间域中)是 任何评分算法都必须给出有意义的结果。

序列查询评分

氨基酸序列或组成信息,如果包括在 seq(…) comp(…) qualifiers,被视为候选序列的过滤器。 可以使用模棱两可的序列或组成数据(以类似的方式 到计算中的正则表达式搜索),但它仍然起到过滤器的作用,而不是 在 Blast 或 Fasta 搜索中找到的类型的概率匹配。

相反, tag(…) etag(…) 限定符是概率评分的。 即匹配的预选赛越多得分越高,但并非所有预选赛 需要匹配。

标签:分数,概率,匹配,评分,搜索,质量,MS,序列,Mascot
来源: https://www.cnblogs.com/xintai/p/16295420.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有