平均分数分布的性质

概率比法
  • 作者脚注
    § 这些作者同等贡献这项工作。
    ,
    作者脚注
    ¶现代地址:Centro Nacional deBiotecnologáa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。
    SalvadorMartiánez-Bartolomé
    脚注
    § 这些作者同等贡献这项工作。
    ¶现代地址:Centro Nacional deBiotecnologáa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • 作者脚注
    § 这些作者同等贡献这项工作。
    佩德罗·纳瓦罗
    脚注
    § 这些作者同等贡献这项工作。
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • 作者脚注
    § 这些作者同等贡献这项工作。
    FernandoMartián-Maroto
    脚注
    § 这些作者同等贡献这项工作。
    隶属关系
    加利福尼亚州圣何塞热电子公司95134
    搜索本作者的文章
  • 作者脚注
    **目前地址:生物科学司和环境分子科学实验室,太平洋西北国家实验室,Richland,WA 99352。
    DanielLópez-Ferrer
    脚注
    **目前地址:生物科学司和环境分子科学实验室,太平洋西北国家实验室,Richland,WA 99352。
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • 作者脚注
    ¶现代地址:Centro Nacional deBiotecnologáa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。
    Antonio Ramos-Fernández
    脚注
    ¶现代地址:Centro Nacional deBiotecnologáa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • 作者脚注
    ‡‡博士博士博士博物馆博士博物馆(JCCM)。现在地址:INST。 detecnologiáasquiámicay medioampiental(Itquima),校园大学S / N,13071 Ciudad Real,西班牙。
    玛格丽塔villar.
    脚注
    ‡‡博士博士博士博物馆博士博物馆(JCCM)。现在地址:INST。 detecnologiáasquiámicay medioampiental(Itquima),校园大学S / N,13071 Ciudad Real,西班牙。
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • Josefa P.Garciáa-Ruiz
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • jesuásvázquez.
    一致
    应该解决对应的通信:Centro deBiologáa分子Severo Ochoa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。电话:34-91-497-8276;传真:34-91-497-8087
    隶属关系
    蛋白质化学和蛋白质组学实验室,Centro deBiologáa分子“Severo Ochoa”-consejo高级InvestigacionesCientiáficas,28049 Cantoblanco,马德里,西班牙
    搜索本作者的文章
  • 作者脚注
    § 这些作者同等贡献这项工作。
    ¶现代地址:Centro Nacional deBiotecnologáa,Autónomade Madrid,28049坎托布兰科,马德里,西班牙。
    **目前地址:生物科学司和环境分子科学实验室,太平洋西北国家实验室,Richland,WA 99352。
    ‡‡博士博士博士博物馆博士博物馆(JCCM)。现在地址:INST。 detecnologiáasquiámicay medioampiental(Itquima),校园大学S / N,13071 Ciudad Real,西班牙。
      来自串联质谱数据的数据库中肽的高通量鉴定是现代蛋白质组学中的关键技术。解释大规模肽识别结果的常见方法基于平均得分分布的统计分析,该分布是通过使用诸如续集的搜索引擎的大量MS / MS光谱产生的最佳分数组成。其他方法基于理论模型计算单个肽识别概率或由由每个MS / MS光谱产生的一组分数构成的单频谱得分分布。在这项工作中,我们通过引入频谱质量的概念并表达这些平均分布作为单光谱分布的组成来研究平均续集得分分布的数学特性。在实践中,在实践中预测并证明,除了低概率区域之外,平均得分分布在频谱集合中的质量分布主导,可以预测数据库大小对平均概率的依赖性。我们的分析导致了一个新的指标,概率比率,这对第一和第二个最佳分数提供的统计信息进行了最佳。概率比是非参数和鲁棒指示器,其根据诸如电荷状态的参数进行光谱分类,并且允许肽识别性能基于错误的发现速率,这优于通过其他经验统计方法获得的参数。概率比也与通过通过构建单频谱序列分数分布而获得的统计概率指标相比。这些结果使概念性率算法的鲁棒性,概念简单性和易于自动化,以确定高吞吐量实验中的肽识别信念和误差率的非常有吸引力的替代方案。
      现代蛋白质组学主要基于质谱法分析蛋白质。随着多维肽分离的越来越多地耦合到串联质谱法作为蛋白质表达分析和高通量蛋白质识别的凝胶的方法,对用于自动化的分量系统的进展越来越感兴趣,较大的大规模肽鉴定。
      续集(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      • Schieltz D.
      将改性肽的串联质谱与蛋白质数据库中氨基酸序列相关联的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
      )是第一个和最受欢迎的评分计划之一,测量的程度 相关性 在实验观察和蛋白质数据库中存在的肽的理论MS / MS光谱之间,并确定产生最佳相关评分或XCorr的肽序列。另一个相关的续集参数是增量分数,或c:\ working \ bhatia \ 2020 \ 08-aug \ asmb \上载\ j-elbm0001-0142Cn,这测量了最佳和最佳分数之间的差异(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      • Schieltz D.
      将改性肽的串联质谱与蛋白质数据库中氨基酸序列相关联的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
      )。必须进一步加工续集结果以确定肽鉴定是否正确。传统上使用参数XCorr和C:\ Bhatia \ 2020 \ 08-Aug \ Asmb \ Upload \ J-ELBM0001-0142进行续集输出的过滤Cn 通过凭经验建立一套标准(
      • 链接A.J.
      • ENG J.
      • Schieltz D.M.
      • 卡马克E.
      • mize g.j.
      • 莫里斯D.R.
      • Garvik下午
      • YALES III,J.R.
      用质谱法直接分析蛋白质复合物。
      ,
      • Washburn M.P.
      • 擦拭。
      • YALES III,J.R.
      多维蛋白质识别技术大规模分析酵母蛋白质组。
      ,
      • 彭J.
      • eliasj.e.
      • Thororen C.C.
      • Licklider L.J.
      • Gygi S.P.
      多维色谱评价与串联质谱(LC / LC-MS / MS)进行大规模蛋白质分析:酵母蛋白质组。
      ,
      • Florens L.
      • Washburn M.P.
      • Raine J.D.
      • 安东尼下午
      • 格劳宾M.
      • Haynes J.D.
      • Moch J.K.
      • 鼓起的n ..
      • Sacci J.B.
      • Tabb D.L.
      • Witney A.A.
      • 擦拭。
      • 吴y.
      • 加德纳M.J.
      • 持有人A.A.
      • 辛保人R.E.
      • yates j.r.
      • carucci d.j.
      疟原虫生疟原虫生命周期的蛋白质组学视图。
      ,
      • 钱W.J.
      • 刘涛。
      • Monroe M.E.
      • strittmatter e.f.
      • Jacobs J.M.
      • Kangas L.J.
      • 肉炎K.
      • 营地II,D.G.
      • 史密斯r.d.
      肽和蛋白质鉴定的基于概率的评价与串联质谱和续集分析:人蛋白质组。
      )。因为已经描述了这些标准通常不会在任何数据集上普遍使用足够的辨别力来使用(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • Tabb D.L.
      • maccoss m.j.
      • 吴C.C.
      • 安德森S.D.
      • YALES III,J.R.
      来自蛋白质组学实验的串联质谱之间的相似性:检测,意义和效用。
      ,
      • Sadygov R.G.
      • YALES III,J.R.
      使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
      ),已经基于续集分数和/或机器学习算法的分布开发了替代过滤标准,以在正确和不正确的分配之间实现更好的分离(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • maccoss m.j.
      • 吴C.C.
      • YALES III,J.R.
      基于概率的蛋白质鉴定使用修改的续集算法验证。
      ,
      • 安德森D.C.
      • 李W.
      • Payan D.G.
      • 贵族W.S.
      一种新的蛋白质组学评估的新算法:肽MS / MS光谱和续集序列的支持向量机分类。
      ,
      • Razumovskaya J.
      • Olman V.
      • 徐D.
      • uberbacher e.c.
      • verberkmoes n.c.
      • Hettich R.L.
      • 徐Y.
      一种评估串联质谱分析中肽鉴定可靠性的计算方法。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。评估肽鉴定的重要性的常见方法是在将MS / MS光谱的大量收集到蛋白质序列数据库中,并将这些分布进行统计分析来构建续集的分布,以估计从中找到真正的肽序列的概率得分或假阳性分配的比例(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • maccoss m.j.
      • 吴C.C.
      • YALES III,J.R.
      基于概率的蛋白质鉴定使用修改的续集算法验证。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。为此,已经使用了几种统计模型(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。初始肽识别中的假阳性分配的比例,也称为虚假发现率(FDR)
      使用的缩写是:FDR,虚假发现率; e,期望。
      1使用的缩写是:FDR,虚假发现率; e,期望。
      (
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      ,
      • Benjamini Y.
      • DRAI D.
      • Elmer G.
      • kafkafi n。
      • Golani I.
      控制行为遗传研究中的假发现率。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      ),可以通过使用目标数据库构造的诱饵数据库来估计(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。还基于观察和理论光谱之间的相关性提出了其他评分(
      • 领域H.I.
      • Fenyo D.
      • Beavis R.C.
      雷达是一种自动化蛋白质组质谱分析,优化蛋白质识别和归档数据在关系数据库中的生物信息溶液。
      )和机器学习算法,考虑到MS / MS光谱中峰的强度模式(
      • eliasj.e.
      • 吉布斯F.D.
      • 国王O.。
      • 罗斯f.p.
      • Gygi S.P.
      基于强度的蛋白质识别通过串联质谱库的机器学习。
      )。
      其他得分方案基于不同的概念方法。它们而不是考虑大量的MS / MS光谱,他们考虑单独考虑每个光谱并尝试确定最佳序列匹配是由随机事件(空假设)产生的概率。一些算法基于理论概率模型(
      • Sadygov R.G.
      • YALES III,J.R.
      使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
      ,
      • BAFNA V.
      • 爱德华兹N.
      范围:对肽数据库进行串联质谱的概率模型。
      ,
      • 大歌j.
      • Masselot A.
      • 吉龙M.
      • Dessingy T.
      • Magnin J.
      OLAV:迈向高通量串联质谱数据识别。
      ,
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ,
      • 大歌j.
      • Masselot A.
      • Cusin I.
      • Mahe E.
      • Niknejad A.
      • argoud-puy g.
      • 雷布斯S.
      • 床边
      • 凝思A.
      • rey p.a.
      • Bougueleret L.
      通过串联质谱法的高性能肽鉴定允许蛋白质组学中可靠的自动数据处理。
      ),而其他人考虑在蛋白质序列数据库内对肽候选进行搜索而获得的分数的频率分布,并且因此可以应用以确定与经验评分方案相关的统计显着性(
      • Fenyo D.
      • Beavis R.C.
      一种使用普通评分方案评估质谱基蛋白质鉴定统计学意义的方法。
      )。通过所谓的统计显着性衡量统计学意义的常见措施 p 值,评估有效拒绝零假设的可能性(
      • Sadygov R.G.
      • YALES III,J.R.
      使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
      ,
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ,
      • altschul s.f.
      • GISH W.
      • 米勒W.
      • 迈尔斯。
      • Lipman D.J.
      基本的局部比对搜索工具。
      )。相关值是期望或e值(
      • Sadygov R.G.
      • YALES III,J.R.
      使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
      ,
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ,
      • Fenyo D.
      • Beavis R.C.
      一种使用普通评分方案评估质谱基蛋白质鉴定统计学意义的方法。
      ),一个参数,它反映了数据库中的命中次数,该参数预期偶然会发生给定或更好的分数。
      尽管有这些努力,但肽鉴定的确切置信度的计算仍然被认为是一个公开的问题。分析大数据集时缺乏适当的置信度指示符尤其成问题(
      • 卡车。
      • Aeberberold R.
      • Baldwin M.
      • 伯灵名A.
      • 克劳瑟K.
      • Nesvizhskii A.
      肽和蛋白质鉴定数据的出版指南的需要。肽和蛋白质识别数据的出版指南工作组。
      )因为不可能手动验证串联质谱和临时肽序列之间的所有匹配。最近,它已被承认,普遍接受和广泛可用的可用于验证已发布结果的计算工具(
      • 卡车。
      • Aeberberold R.
      • Baldwin M.
      • 伯灵名A.
      • 克劳瑟K.
      • Nesvizhskii A.
      肽和蛋白质鉴定数据的出版指南的需要。肽和蛋白质识别数据的出版指南工作组。
      ,
      • Baldwin M.A.
      质谱法鉴定蛋白质。要考虑的问题。
      )。除了在蛋白质组学研究中被报告为“鉴定”的显着但未定义数量的蛋白质,可能是误报(
      • maccoss m.j.
      • 吴C.C.
      • YALES III,J.R.
      基于概率的蛋白质鉴定使用修改的续集算法验证。
      )。
      在这项工作中,我们将参考由大型不同MS / MS光谱的大集合构成的(最佳)得分分布为 平均得分分布,而与特定频谱相关的分量分布,例如用于计算e值的特定频谱,将在此称为 单频谱得分分布。尽管他们广泛使用了,但平均得分分布的性质和行为,例如对数据库规模的依赖性,特别是与续集的续集相关的依赖性,仍然很糟糕。此外,它是一种令人惊讶的常见程序,用于推断使用特定数据集和数据库获得的统计参数和分布到非常不同的条件,其中可以使用相同的标准完全预测肽识别的误差率。使用最佳分数和三角洲得分也有一些混乱。 Delta得分已被用作“阈值鉴别器”,因此只有最小增量评分的那些光谱被认为是潜在的阳性(
      • 链接A.J.
      • ENG J.
      • Schieltz D.M.
      • 卡马克E.
      • mize g.j.
      • 莫里斯D.R.
      • Garvik下午
      • YALES III,J.R.
      用质谱法直接分析蛋白质复合物。
      ,
      • Washburn M.P.
      • 擦拭。
      • YALES III,J.R.
      多维蛋白质识别技术大规模分析酵母蛋白质组。
      ,
      • 彭J.
      • eliasj.e.
      • Thororen C.C.
      • Licklider L.J.
      • Gygi S.P.
      多维色谱评价与串联质谱(LC / LC-MS / MS)进行大规模蛋白质分析:酵母蛋白质组。
      ,
      • Florens L.
      • Washburn M.P.
      • Raine J.D.
      • 安东尼下午
      • 格劳宾M.
      • Haynes J.D.
      • Moch J.K.
      • 鼓起的n ..
      • Sacci J.B.
      • Tabb D.L.
      • Witney A.A.
      • 擦拭。
      • 吴y.
      • 加德纳M.J.
      • 持有人A.A.
      • 辛保人R.E.
      • yates j.r.
      • carucci d.j.
      疟原虫生疟原虫生命周期的蛋白质组学视图。
      ,
      • 钱W.J.
      • 刘涛。
      • Monroe M.E.
      • strittmatter e.f.
      • Jacobs J.M.
      • Kangas L.J.
      • 肉炎K.
      • 营地II,D.G.
      • 史密斯r.d.
      肽和蛋白质鉴定的基于概率的评价与串联质谱和续集分析:人蛋白质组。
      )或作为 额外的,与最佳分数一起评估的独立得分参数,以确定统计匹配意义(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。虽然它们显然是相互关联的,但尚未分析最佳分数和Δ分数(或第二个最佳分数)之间存在的理论关系。除了使用相同评分方案的平均得分分布和单频谱分布之间的关系,还没有探索大规模实验中肽鉴定的相对性能。
      在这项工作中,我们对续集的平均分子分布进行了数学分析,并分析了这些分布的行为和属性。为此,我们介绍了频谱质量的概念,并表达了平均得分分布作为单频谱分布的质量加权平均值。使用此数学框架,我们对这些分布对数据库大小的依赖性进行推论,并使用概率比例作为统计指标来考虑最佳和第二个最佳分数提供的信息。通过使用大量MS / MS光谱,在实践中测试了数学分析预测的所有属性。最后使用概率比指示剂通过续集序列的肽鉴定的性能与使用其他方法获得的基于平均得分分布的经验建模或单频谱得分分布的构造来进行比较。我们的结果有助于了解平均得分分布的性质和行为以及它们的实际限制,提供了与单频谱分布相关的理论框架,并在概率比概念的实践中展示了实用性,作为一个非常简单,稳健的实践,准确的方法评估大规模实验中最常用的肽鉴定信心。

      实验步骤

      从上一个工作中取出两个MS / MS Spectra数据集(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      );通过离子交换色谱法分析胰蛋白酶消化的全细胞提取物,然后使用如前所述的LCQ DECA XP或LTQ机器(THERMO FIRER)与离子阱质谱法进行反相色谱,然后如前所述(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。使用DECA XP机器分析的蛋白质片之一由来自Jurkat细胞的核蛋白组成(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      ),其分析产生了超过40,000毫秒/ ms光谱的集合。使用LTQ机器分析的其他蛋白质组由来自人骨髓样品的间充质干细胞的总细胞提取物组成,如前所述(
      • Ogueta S.
      • 慕尼宫
      • Obregon E.
      • 德尔戈多·巴埃萨E.
      • Garcia-Ruiz J.P.
      催乳素是人类滑膜液的组分,并调节骨髓衍生的间充质干细胞的生长和软骨形成分化。
      )并产生包含超过150,000ms / MS光谱的数据集。另外,含有13,000毫秒/ ms光谱的第三个集合,从分析中获得 大肠杆菌 蛋白质组通过使用混合动力LTQ - 轨道机(Thermo Fisher)并由Michaela Scigelova友好提供,用于测试方法在高精度质量测定的前体离子的条件下的性能。
      使用续集的数据库搜索如前所述执行(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。通过对Monte Carlo产生的大量随机胰蛋白酶序列进行大量搜索来构建单频谱概率分数分布,考虑到NR.fasta数据库中的天然氨基酸频率,或从反转数据库中获取的天然氨基酸频率。第一个,第二个,......的平均得分分布 j通过考虑这些分数,独立于它们衍生的光谱,从整个光谱组成最佳续集得分;这是通过以减少分数的顺序排列的每一个集合来实现这一点,并且通过表达与分数相关的平均概率作为其相对等级位置(等级/E 在哪里 E 是光谱的总数)。分析了来自相同光谱的分数,假设不同的电荷状态,好像它们是由不同光谱产生的。通过拒绝具有低于2或高于3的电荷的碎片前体离子来产生数据。因此,在这项工作中仅分析了双重和三重带电的肽。如图所示计算概率比 Fig. 1 并使用在C#中编写的程序解释(可根据要求免费提供)中的图例解释。该程序用作从对目标和诱饵数据库的一个或多个蛋白质组分开的原始文件的单独搜索获得的结果文件(以SRF格式为单位);通过逆转每种蛋白质的氨基酸序列来构建诱饵数据库。概率比程序分析为从大规模实验获得的所有结果,允许同时分析数百个SRF文件。输出以Pepxml格式进行。有关用于测试该方法的程序和原始文件集合的更多详细信息,可以根据要求获得。通过简单的数值校正续集Xcorr分数的简单数值校正,通过电荷和长度来校正概率比。通过考虑可以随机匹配的MS / MS频谱中的片段信息的量分别可以分别可以分别与单独带电的碎片的信息随机匹配的MS / MS频谱中的片段信息的量分别为大约一半和三分之一。因此,假设来自三个充电的前体离子的光谱增加了随机匹配的可能性相对于双电荷的前体假设的0.1/9 = 1.22;因此,Triply带电离子的相关评分仅为该因子除以校正,将校正加入双电荷的前体离子。通过使用公式原木来核对肽长度(x/ log(2L), 在哪里 x 是第一次,第二,......或 j最好的汇票和 L 是肽长度,以类似于其他作者提出的方式(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • nesvizhskii a.i.
      • Roos f.f.
      • 格罗斯曼J.
      • Vogelzang M.
      • eddes J.s.
      • Gruissem W.
      • Baginsky S.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的动态谱质量评估和迭代计算分析。为了更有效地识别翻译后修饰,序列多态性和新型肽。
      )。 FDRS(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      ,
      • Benjamini Y.
      • DRAI D.
      • Elmer G.
      • kafkafi n。
      • Golani I.
      控制行为遗传研究中的假发现率。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )通过计算在诱饵中鉴定的肽的数量和如图所示,通过计算鉴定肽的群体内预期的误报的比例。如图所示 Fig. 1.
      图缩略图GR1.
      Fig. 1确定概率比和FDR。最佳分数的平均概率分布, IN(x)通过对诱饵数据库搜索MS / MS光谱的集合来获得并确定每个分数的标准化等级位置来获得(左侧面板, 厚线; E 是光谱的总数)。然后将光谱搜索到目标数据库,以及第一个的平均概率(IN(xF))和第二份(IN(xS))通过曲线中的直接插值来确定分数。当分数高于搜索诱饵数据库后获得的最佳分数(左侧面板),概率不是通过外推的计算,而是仅假定低于1 /E。概率比(pR然后按照公式所示计算 左侧面板。通过确定给定的识别的光谱数量来计算FDR。 pR 按照诱饵和目标数据库分开搜索后,如图所示 右侧面板.

      结果

       续集平均得分分布的特性:概率比概念 -

      在这项工作中,我们分析了两种不同类型的续集分数。第一是MS / MS光谱中每一个的特征的分布。这 最佳分数x的单频谱分布 搜索后 N 序列候选是一种测量MS / MS谱产生最佳得分等于或更好的概率的函数 x 偶然。在使用使用真实MS / MS光谱获得的一些示例的实践中还在实践中进行了这种分布的数学特性。第二种分数分布,谱系的汇编的特征,是 平均分布的最佳分数 IN(x当针对诱饵序列数据库搜索大量MS / MS光谱时,获得的)。我们还分析了通过考虑第二个最佳分数而不是最好的分数而获得的分布 平均概率分布的第二个最佳分数, 或者 HN(x),并且,通常,那些 j最佳得分。
      在补充信息中分析续集平均分布的数学特性;这些分布在数学上被视为来自数据集中的所有MS / MS光谱的单频谱最佳分数分布的叠加。根据称为的参数,概念性地分类光谱 质量,在实践中的解释是,具有更高质量的光谱倾向于单独使用偶然的最佳分数(参见“讨论”和补充信息,以获取更多细节)。在实践中具有相关意义的两个主要特性来自分析。一个是,当概率足够低时,平均概率分布的平均概率分布的数量往往与序列候选的数量成比例, IE。当最佳分数采取高值时,预期阳性肽鉴定。这意味着平均概率与数据库大小成比例。第二属性是通过给定光谱产生的最佳得分的平均分布所采取的值是对质量等于或更高的集合中光谱分数的非常准确的估计。第二个最佳分数的平均分布具有相同的特性。因为当频谱数据集被搜索到目标数据库时获得的第二个最佳分数可以合理地假设是随机的(下面进一步讨论的点),所以可以使用第二个最佳分数的平均分数分布所采取的值作为谱的相对排名位置的准确估算器,根据其质量,在集合中的质量。
      在此数学框架的基础上,我们已经分析了如何处理第一和第二个最佳评分的信息,以对大规模实验中的肽鉴定进行统计学推论。我们得出的结论是,获得第一个得分等于或更好的条件概率 xF 当第二个最佳分数等于或更好 xS 可以获得可以通过第一个得分的平均概率与第二个最佳分数的平均概率的比率来估计。 IN(xF/IN(xS)(来自补充信息的等式14)。还可以通过使用分母中的第二个最佳分数的平均分布来估计条件概率, IE. HN(xS),而是(参见来自补充信息的等式13)。

       概率比的性质 -

      在实践中容易计算概率比,如图所示 Fig. 1。简而言之,Spectra集合是针对诱饵数据库的搜索,而且最佳(XCorr)得分集用于构建最佳分数的平均概率分布 IN(x);这是通过以减少顺序排列分数并根据分数的函数绘制标准化排名位置来完成的。曲线用于通过直接插值来确定最佳和第二个最佳分数的平均概率值, IN(xF) 和 IN(xS),用于计算概率比。相同的曲线还用于计算在搜索目标数据库之后确定的分数的概率比。当目标数据库搜索的最佳分数优于分布中的最高分数时(当它在质谱与正确肽序列之间存在非常明显的匹配时),概率未计算,但刚被认为是低于最好的诱饵分数(Fig. 1, 左侧面板)。然后使用诱饵和目标数据库获得的概率比来计算FDR(
      • Benjamini Y.
      • DRAI D.
      • Elmer G.
      • kafkafi n。
      • Golani I.
      控制行为遗传研究中的假发现率。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )在目标数据库中鉴定的诱饵数据库中鉴定的诸如诱饵数据库中鉴定的肽的比例(Fig. 1, 右侧面板)。
      如前一节所述,第二最佳分数的平均概率是根据其质量收集频谱中的相对排名位置的良好估计器。因此,可以认为概率比是具有内部校正的分数,即考虑频谱质量,补偿MS / MS光谱的收集是异构的,并且在一个方面的一个光谱与另一个光谱有很大差异对随机肽序列获得的分数。
      概率比也可以计算为比率 IN(xF/HN(xS)通过单独构造来自诱饵数据库搜索的第一和第二个最佳分数的曲线。如举例说明的那样 图2A,显示从来自Jurkat核的蛋白质组的分析获得的结果,该指标之间没有明显的差异,并且如图所示计算 Fig. 1 关于肽鉴定在FDR方面的表现。类似地,概率比通常可以通过使用来计算 j最佳分数和对应的平均概率分布 j最佳得分; FDR曲线也与使用原始方法(未示出)获得的FDR曲线无法区分。概率比的这种行为通过这些得分分布的性质是合理的,如补充信息中所述。
      图缩略图GR2.
      Fig. 2用于计算肽鉴定性能的方法的效果。含有从分析Jurkat细胞蛋白质组中获得的大于40,000 ms / MS光谱的大型集合,然后分析了搜索结果,通过绘制数量来评估肽鉴定的性能针对FDR确定的肽。在 A 如上所述计算概率比 作为比率 IN(xF/IN(xS)(黑线),并且将性能与使用比率获得的比较进行比较 IN(xF/HN(xS) 反而 (灰线)或仅选择FDR计算,充电状态产生MS / MS谱的每一个的最低概率比(不连续的线路)。在 B 概率比计算为 (PR.; 灰线)通过根据充电状态分类光谱并单独确定每个组中的FDR(PR.收费9月; 不连续的灰线),经过“实验程序”描述的充电和长度之后(pr corr.; 黑线)或根据充电状态校正充电和长度和光谱分类(Pr Corr充电SEP; 不连续的黑线 )。
      因为概率比率引入了频谱质量的内在校正,所以众所周知的因子影响续集分数的分布几乎没有效果,如果有的话,并且可能被忽略。其中包括充电状态分配的不确定性,通过该分配通常会在两个或多个假设不同的充电状态下搜索两次或更多次, IE。好像他们在实践中的两种或更多种不同的光谱;这可能会通过增加搜索空间来影响FDR的正确确定。通过比较当考虑不同电荷状态的相同光谱时获得的概率比被认为是不同的光谱来测试这种效果,因为它们是仅通过选择与较低的电荷状态而获得的概率比(IE。更重要的)值。如举例说明的那样 图2A,发现最佳充电状态的选择不会在低于0.05的值下改变FDR曲线,并且仅在0.2(未示出)高于0.2的FDR值下也是明显的。因此,当使用概率比用作指示剂时,正确的肽电荷分配不是肽鉴定的关键因素。
      还已知充电状态和肽长度会影响XCorr分数;如图所示 图3,A和D.,随着其他作者观察到的肽长度或充电状态增加,朝向更高值的值得明显的转变(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • nesvizhskii a.i.
      • Roos f.f.
      • 格罗斯曼J.
      • Vogelzang M.
      • eddes J.s.
      • Gruissem W.
      • Baginsky S.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的动态谱质量评估和迭代计算分析。为了更有效地识别翻译后修饰,序列多态性和新型肽。
      )。在清晰的对比度下,当根据这些因素进行分类,在概率比分布中没有观察到明显的转变(图3,B和E)。预期该行为是针对在其各自分布中的第一和第二个最佳分数中确定相同质量(按排名位置估计)的随机匹配。应该注意的是,随着肽长度或充电状态增加,续集得分的排名位置趋于降低,因此从较小的数量计算的比例显示出显着更高的色散(图3,B和E)。这种数值效果差异地改变了概率比分布的尾部;由于这种不对称性,当在由充电状态分类的光谱子组中单独计算FDR时,观察到肽鉴定的更好性能(图。2B)。由于这种效果纯粹是数值的,因此通过简单的续集转换来容易地占据了充电和长度施加的偏差(参见“实验程序”)。 “校正”概率比对于不同电荷态和肽长度的分布几乎是无法区分的(图3,C和F.),没有任何类型的光谱分类获得的FDR曲线显示出更好的性能(图。2B)。根据预期,根据充电状态分离光谱并未导致与在使用校正的概率比用作指示器时的所有光谱一起分析的结果相比,没有导致显着的改进(图。2B)。当分析来自间充质干细胞的蛋白质组(未示出)时获得了类似的比较结果。
      图缩略图GR3.
      Fig. 3电荷和长度对Xcorr和概率比分数分布的影响。 MS / MS Spectra的集合 搜索诱饵数据库,结果用于构建肽总数的直方图,作为它们各自的XCorr分数的函数(AD)或作为其概率比分数的函数,计算为 IN(xF/HN(xS)(B, C, E, 和 F)。光谱在 上面面板 (AC)根据肽质量进行分类(M)三类:800-1300 da(灰线条),1300-1800 da(黑线),1800-2300 da(不连续的线条)。下面板中的光谱(DF)根据充电状态分类: z = 2 (黑线) 和 z = 3 (不连续的线条)。概率比未校正(BE)或纠正如“实验程序”下所述的电荷和长度(CF)。
      为了确定用于计算概率比的集合中光谱的特定质量分布可能影响统计学意义,使用从不同的分析获得的最佳分数的平均分布计算属于集合的概率比。尺寸较大尺寸的光谱集合,反之亦然后者的概率比是从前者的平均分布确定的。如图所示 图4,A和B.,当使用不同的平均分布来确定概率比时,所识别的肽的数量不会明显变化。比较了这两个光谱集合的最佳分数分布 Fig. 4, C插入。这些结果进一步说明了所引入的概率比引入的质量校正的鲁棒性,这使得最终结果耐受用于构造平均得分分布的MS / MS数据集的分布。注意,尽管可以使用不同的分数分布来计算概率比,但是必须始终使用通过对相应的诱饵数据库的相同数据设置并插入相同的分数分布而获得的概率比来计算误差速率。
      图缩略图GR4.
      Fig. 4平均得分分布的效果来计算方法性能的概率比。这 黑线 代表这一点 FDR. 从人Jurkat核蛋白质组的胰蛋白肽分析获得的曲线(A)来自人间充质干细胞蛋白质组(B通过传统的概率比法。这 灰线条 当来自前一种蛋白质组的肽的概率比通过在从后者蛋白质组分析中获得的最佳诱饵分数的平均得分分布来计算时获得的FDR曲线(A)反之亦然(B)。来自核蛋白质组的分数分布(灰点)和干细胞蛋白质组(黑点)使用归一化频绘(C)或在对数刻度中使用归一化秩绘图(C, 插入)。

       概率比指标的比较表现 -

      将使用概率比作为指标获得的结果与先前公布的经验方法获得的结果进行比较,所述经验方法描述了描述最佳得分的行为和基于两个可变高斯模型(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。这是对该方法的适当测试,因为已经分析了与其他已知方法(例如肽前)使用本工作中使用的相同数据集(例如Peptipeprocle)的实证方法的性能,并且它在降低FDR时显示了更好的性能超过0.05(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。如图所示 图5A,即使没有对电荷和长度的任何校正,概率比具有与双变量高斯模型的性能类似(使用不同的充电状态的光谱分布),而校正概率比指示器的性能显然是优越的。因此,在纯粹分析考虑因素开发的概率比法得到的结果,尽管其概念和计算简单,并且没有可调节功能,拟合参数和光谱分类,优于通过专门设计的经验方法获得的处理最续集的分数参数。
      图缩略图GR5.
      Fig. 5概率比法和其他经验统计方法的比较表现。在 A 通过使用双变量高斯模型分析续集来获得FDR曲线(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )(2VGM; 灰线),单频谱分布(SSD.; 薄黑线)和如所述计算所描述的概率比 (PR.; 不连续的厚黑线)或纠正充电和长度后(pr corr.; 连续厚黑线)。在 B 使用校正概率比获得的FDR曲线(pr corr.; 厚黑线[通过应用离散Xcorr和C:\ Bhatia \ 2020 \ 08-Aug \ Asmb \ Upload \ J-ELBM0001-0142进行了比较Cn 阈值,迭代地优化以获得通过使用如前所述的复合数据库计算的固定FDR处的最大鉴定肽数(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。根据充电状态在单独的组中分类光谱,并且在0.005的FDR下优化得分阈值(不连续的线路),0.01(灰线)和0.07(薄黑线)或在没有先前的电荷分类的情况下为0.07的FDR(没有费用; 不连续的细线);通过修复C:\ Working \ Bhatia \ 2020 \ 08-Aug \ Asmb \ Upload \ J-ELBM0001-0142来绘制线路Cn 在每种情况下优化的阈值并改变XcorR阈值。在 C 将通过使用单独的数据库搜索获得的FDR值与通过针对固定的,优化的续集得分阈值方法(FT.; 黑点)或概率比例(PR.; 白点)。这 数字 表示线条的斜率。
      尽管使用使用续集验证肽识别的统计方法基于由由频谱集合获得的结果构建的平均得分分布,但是存在基于单频谱得分分布的分析的其他评分方法,从而可以应用于单独考虑的MS / MS频谱。例如,已经用于在数据库搜索期间获得的肽分数的频率直方图构成的生存功能用于计算肽识别的期望或e值(
      • Fenyo D.
      • Beavis R.C.
      一种使用普通评分方案评估质谱基蛋白质鉴定统计学意义的方法。
      )。这种方法已经应用于分数,如声纳(
      • 领域H.I.
      • Fenyo D.
      • Beavis R.C.
      雷达是一种自动化蛋白质组质谱分析,优化蛋白质识别和归档数据在关系数据库中的生物信息溶液。
      ),其中随机概率分布不提供一般的参数化表单(
      • 大歌j.
      • Masselot A.
      • 吉龙M.
      • Dessingy T.
      • Magnin J.
      OLAV:迈向高通量串联质谱数据识别。
      )。如前所述,这些生存功能等同于我们在这里呼叫的单频谱得分分布。保持未解答的问题是是否通过使用具有续集的单频谱分布而不是平均得分分布,可以实现肽识别的更好性能。为了解决这一点,我们对来自本研究中使用的两个模型蛋白质群体的单频谱得分分布的单频谱得分分布进行了计算的,如补充图1所示。与观察到的XcorR分数相关的概率然后直接从这些得分分布和数字计算 N 序列候选人。虽然这种方法在实践中的常规使用太耗时,但在这项工作的背景下,结果非常丰富。通过这种方法获得的肽鉴定的比较性能与概率比和双可变经验模型进行了比较 图5A。如图所示,使用该方法获得的FDR曲线是相似的而不是通过经验模型获得的FDR曲线和未校正的概率比方法而不是通过使用校正概率比而获得的那些。该发现表明,尽管基于单频谱分布的实证计算的方法允许确定肽识别置信度(IE。与单独考虑的光谱相比,与最佳得分相关的概率,与概率率相比,在概率达到阳性肽识别的基础上,它不会产生显着的改进,基于所考虑的实验的误差率。
      最后将使用概率比获得的肽鉴定的性能与通过使用Xcorr和C:\ Bhatia \ Bhatia \ 2020 \ 08-Augo \ Asmb \ Upload \ J-ELBM0001-0142使用固定阈值而获得的 Cn 动态调整以获得所需的FDR(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。这是通过在与目标和诱饵数据库构建的连接数据库中搜索相同的数据集并计算误报率通过倍增阈值(如前所述)来计算误报率(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。两种续集得分迭代地改变,直到在0.005,0.01和0.07的FDR获得最佳性能;这是单独在根据充电状态分类的光谱子集中进行,添加每个FDR的鉴定肽的数量。 图5B. 显示通过固定最佳C:\ Working \ Bhatia \ 2020 \ 08-AUG \ ASMB \ Upload \ J-ELBM0001-0142获得的曲线Cn 每个充电状态和FDR值的阈值并改变XcorR阈值。如图所示,尽管通过使用所选择的FDR处的概率比获得的曲线,但在曲线的其余部分中肽鉴定的性能差。注意,通过该过程谱分类为不同类别,例如充电状态,无法根据充电状态进行比较,以获得使用和没有光谱分类而获得的FDR曲线 Fig. 5)。在明确的对比中,只需要使用不具有光谱分类的一个参数来使用概率比方法构建整个FDR曲线,并且允许肽鉴定的优异性能。另外,通过将鉴定的肽作为概率比顺序分选,如在概率率下 Fig. 1,可以将FDR值分配给临时肽鉴定的每一个,表明具有相同或更好的概率比得分的肽群中的错误率。这允许非常实用的输出,其中可以放宽FDR截止以检查较低的置信度标识,而不会丢失与良好的肽识别相关的误差信息。
      在最近的工作中,有人建议使用诱饵和目标数据库的FDR估计应通过单一搜索对连接数据库进行,而不是通过单独的目标和诱饵数据库来执行(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。串联方法允许诱饵和目标序列之间的直接竞争最佳分数,因此不考虑对应于真正肽的MS / MS光谱在诱饵数据库中产生的相对高分的分数(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。换句话说,连接的数据库策略避免了通过该MS / MS光谱的该子集产生的质量效应。在概率比的情况下,尽管搜索是针对目标和诱饵数据库的单独执行(Fig. 1, 右侧面板),指示灯本质上考虑频谱质量,因此质量效应可以忽略不计。为了说明这种属性,将通过在复合数据库中使用竞争策略获得的FDR与通过基于离散XCorr / C:\ Bhatia \ 2020 \ 08的传统方法单独搜索目标和诱饵数据库而获得的FDR。 -aug \ asmb \上传\ j-elbm0001-0142Cn 阈值和概率比法。如图所示 图5C.当根据传统方法使用的续集参数的可调阈值时,当与先前发表的结果的同意相协议将单独的搜索方法进行比较单独的搜索方法时,FDR增加了40%(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。在明确的对比度下,使用概率比进行比较两种搜索方法时,无需对FDR的差异。因此,该指示器还显示有关用于使用诱饵数据库确定错误率的策略的强大行为。
      在分析影响搜索空间的其他因素时,已经一致地获得了类似的结果,如可变修改,错过的裂缝和前体质量耐受性。通常,增加序列候选人数的因素使概率比例更可靠地作为指标。该指标的性能也在搜索空间非常小的情况下进行测试。为此,我们将校正的概率比方法应用于从一个超过10,000毫秒/ ms / ms光谱的集合。 大肠杆菌 使用LTQ-轨道机的蛋白质提取物;数据集被搜索,蛋白质数据库仅包含来自该物种的条目的蛋白质数据库,具有10ppm的前体质量耐受性,无可变修改,没有缺失的切割。在FDR曲线方面的肽鉴定的性能仍然优于此处测试的其他实证方法(未示出)。

      讨论

      几乎所有描述用于使用续集的肽识别的统计推论的所有方法都基于在使用大量MS / MS谱的序列数据库中获得的最佳分数(XCorr分数)的分析(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • maccoss m.j.
      • 吴C.C.
      • YALES III,J.R.
      基于概率的蛋白质鉴定使用修改的续集算法验证。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。最佳分数将分组在一起,排名并用于构建分数的累积分布,用于确定肽鉴定和FDR的统计学意义。这些累积分布可以被认为是统计估计 平均概率分布最佳分数,一种评估获取频谱的概率的函数,其产生相同或更好地得分。在这项工作中,我们对这些平均分数的分析研究进行了分析研究。为此,我们分析了单频谱分布的特性,它们是每个光谱的功能特征,并且表达了作为单频谱分布的组合的平均分布。单频谱分布与概念关系 p 和e值,这是数据库搜索算法使用的常见参数(
      • Sadygov R.G.
      • YALES III,J.R.
      使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
      ,
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ,
      • Fenyo D.
      • Beavis R.C.
      一种使用普通评分方案评估质谱基蛋白质鉴定统计学意义的方法。
      ,
      • altschul s.f.
      • GISH W.
      • 米勒W.
      • 迈尔斯。
      • Lipman D.J.
      基本的局部比对搜索工具。
      );补充信息解释了这一关系。表达作为潜在单频谱分布的函数的平均分布的基本原因是后者在不同光谱中可能明显不同,因此不能预期大量的光谱集合具有均匀的统计行为。
      我们的分析考虑到MS / MS Spectra在数据库中搜索的序列候选数量通常是大量的。这对平均分量分布的性质有关的相关后果,具体取决于概率的幅度。在预期阳性肽鉴定的低概率区域中,平均概率与序列候选的数量成比例,并因此与数据库尺寸成比例。通过使用来自真实MS / MS光谱的单频谱分布构造的模型平均序列分数分布,在实践中展示了该属性。另一种基本财产也在实践中验证,即给定分数的平均分布所采取的价值非常准确地反映了具有更高质量的集合中的光谱部分, IE。这倾向于偶然产生更好的分数。术语质量已经先前施加到MS / MS光谱,指的是使它们更容易衍生自肽的碎裂(
      • 伯尔尼姆。
      • 戈德伯格D.
      • 麦当劳W.H.
      • YALES III,J.R.
      肽串联质谱的自动质量评估。
      ,
      • strittmatter e.f.
      • Kangas L.J.
      • 肉炎K.
      • 莫斯塔赫苗
      • 安德森G.A.
      • 沉Y.
      • Jacobs J.M.
      • 营地II,D.G.
      • 史密斯r.d.
      肽LC保留时间信息在串联质谱中肽鉴定的判别函数中的应用。
      )。在我们的研究中,质量被引入作为数学概念,其实际解释是具有更高质量的光谱是倾向于在搜索随机序列数据库时产生更高分数的光谱。质量和分数排名位置之间的关系可能看起来非常明显,因为通过根据其最佳分数排序光谱来构造平均分布,因此相对排名位置只是具有更高分数的光谱的分数。然而,应该注意的是,从诱饵数据库搜索的实践中构建的累积分数分布是估计MS / MS光谱的底层平均分布(这是未知的),并且频谱的排名位置可以仅用于估计其同样的意义上的未知质量,即常数分布变量的有限次数可以仅用于估计其隐藏的正态分布。因为大规模识别实验中使用的光谱数量通常非常大,所以从数据库搜索获得的累积评分分布可以被认为是基础平均分子分布的可靠估计。这是在实践中支持的,即当搜索相同的数据集时,当与随机肽序列的等同分布的不同诱饵数据库(例如,反转和伪versed数据库(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )),获得相同数量的随机匹配,以上离散得分阈值(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。然而,除非行为(以行为)无法达到与给定光谱的排名位置的质量估计的相同结论IE。分析了这种特定光谱产生的随机最佳评分的分散体;该信息包含在单频谱得分分布范围内。我们的分析表明,最佳分数的单频谱分布迅速成为数量的陡峭函数 N 序列候选人增加,使得最佳得分的密度分布非常窄,因此具有非常小的分散。只有在分析这些属性之后,我们可以得出结论,可以根据其分数在集合中根据频谱的排名位置可靠地估计频谱的质量。
      由于平均分布主要反映了质量分布,因此当分析不同的样品时,它们应该不同,并且仅受改变样品质量分布的因素影响。例如,预期提高样品中的肽浓度增加,增加具有良好碎片的光谱比例,因此倾向于单独偶然产生高分的光谱比例;观察到的光谱之间的质量分布将移位为更高的值。另一方面,改变数据库尺寸,通过改变呈现给每个光谱的序列候选的数量,也会影响分数的分布;这将在大部分分布中产生一些位移,但不会显着改变他们的 形状 如其他作品所述(
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。然而,这种效果在对应于低概率区域的尾部中尤为重要,其中概率往往与数据库大小成比例。据我们所知,这些效应尚未从纯粹分析观点之前治疗。
      我们的结果再次突出了平均概率或得分阈值与错误率之间的关系强烈依赖于所用的实验,数据库大小和搜索条件,并且不能直接从使用不同的光谱数据集或不同数据库获得的数据外推。因此,不可能建立普遍有效性的固定肽鉴定标准。令人惊讶地使用固定序列肽识别阈值,使用尺寸的数据库估计误差率,该数据库与用于分析数据的数据库,以及先前使用不同数据集获得的外推结果仍然是常见的实践。另一个重要的关注是曲线的外推,例如高斯或γ函数,用于适应平均得分分布以估计肽识别概率。如本作工作所示,平均得分分布在低概率区域中处于完全不同的方案,因此应执行任何从大部分分布的任何类型的外推。
      当在大规模实验中进行统计分析时,通常考虑的两个参数是XCorr(或最佳分数)和Delta得分C:\ Working \ Bhatia \ 2020 \ 08-Aug \ Asmb \ Upload \ J-ELBM0001-0142Cn (或最好和最佳分数之间的相对差异)(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      • Schieltz D.
      将改性肽的串联质谱与蛋白质数据库中氨基酸序列相关联的方法。
      ,
      • YALES III,J.R.
      • ENG J.K.
      • mccormack a.l.
      采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
      );假设这两个参数包含有关临时肽识别的最相关的信息(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。这两个参数通常被视为独立指标,并经过经验地提出了不同的方法,以以单一统计分数的形式将它们一起服用(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      ,
      • kislinger t.
      • 拉赫曼K.
      • Radulovic D.
      • Cox B.
      • rossant J.
      • Emili A.
      棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      )。但是,尚不清楚这些算法是否是最佳的,并且此问题仍然很大程度上从分析观点中取消了未开发。在这项工作中,我们已经分析了如何处理从数据库搜索的信息,当时只有每个命中的最佳信息和第二个最佳分数提供的信息都可提供的信息。数学分析导致​​我们推导出新的指标,有效考虑了使用大型MS / MS Spectra的续集数据库搜索提供的信息的概率比,从中考虑了最佳和第二个最佳分数。虽然概率比表达的衍生不是琐碎的,但它的含义在前段所指出的平均分布的性质的基础上易于理解。第一次分数的平均概率 IN(xF)衡量获得等于或更好的最佳分数的可能性有多可能性 xF 偶然在收集MS / MS光谱;然而,低平均概率不一定表明识别是正确的(非随机匹配),因为它还可以指示频谱质量非常高。例如,如果集合包含100,000毫秒/ ms光谱,则平均概率为10−5 为了获得最佳分数 xF 如果数据集中质量最高的频谱达到此分数,可能偶然发生。因此,使用最佳得分,因为唯一的信心指标可能低估了高质量的光谱群体识别的信心;这可能产生误报。通过考虑频谱的质量来校正该效果,该频谱的质量可以从第二个最佳分数的平均概率估计。因此,概率比中的分母可以被视为精确地补偿质量效应的因素。在上面的例子之后,第二个最佳分数的平均概率也是10的−5;因此,概率比率将在1附近产生值,表明该匹配可能是通过机会产生的。虽然可以在某种意义上评估这种效果,但是通过计算第一和第二个最佳分数之间的相对差异, IE。 Delta得分C:\ Working \ Bhatia \ 2020 \ 08-Aug \ Asmb \ Upload \ J-ELBM0001-0142Cn直到现在,它仍然尚不清楚如何与最佳分数结合分析统计上这个参数;这项工作的数学分析给出了第一次概念框架来分析这两个参数提供的信息。
      概率比可以通过简单和非参数方法来计算,其避免使用可调拟合参数或在随机平均分布的尾部执行任何类型的假设或外推。因此,在计算平均概率的计算中没有引入任何类型的不准确性,并且可以针对每个可能鉴定的肽的每种潜在的肽来简单地计算FDR。概率比概念完全是新的,是在纯粹分析考虑的基础上得出的,并且在实践中申请比其他实证方法更简单。尽管其简单性,概率比率优于其他先前公布的经验统计方法,并且具有额外的优点。通过对每个光谱引入内部质量校正,该方法使得不必根据诸如肽长度或充电状态(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      ),不需要选择预定义的数学函数和可调参数以适合数据(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • Lopez-Ferrer D.
      • 马丁内斯 - Bartolome S.
      • Villar M.
      • Campillos M.
      • Martin-Maroto F.
      • Vazquez J.
      使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
      ,
      • 大歌j.
      • Masselot A.
      • 吉龙M.
      • Dessingy T.
      • Magnin J.
      OLAV:迈向高通量串联质谱数据识别。
      ,
      • Sadygov R.G.
      • 刘H.
      • yates j.r.
      使用串联质谱数据和蛋白质氨基酸序列数据库的蛋白质验证的统计模型。
      )。除了在该方法中引入的质量校正之外,它对使用诱饵数据库估计FDR的特定质量分布以及用于使用诱饵数据库的方法非常鲁棒。
      尽管在最常规的情况下,在一些情况下,第二个最佳分数可以被认为是随机匹配的后果,在某些情况下,可以预期可以从具有高同源性的序列衍生出具有正确肽序列的序列的显着比例。这是针对未经过滤的整个蛋白质数据库搜索的情况,其中鉴定的肽可以属于来自各种不同生物的蛋白质。在这些情况下,利用从第三,第四,...最佳分数构造的平均分量分布也可以计算质量级分也可能是有用的。因此,可以计算例如最佳和第四最佳分数的概率比,而不是从第二,第三和第四和第四最佳分数的分布获得的第二甚至是平均质量。此选项包含在程序中。
      在实践中具有相关意义的结果是通过构建每个MS / MS光谱的单频谱最佳分数分布来确定肽命中的统计显着性并未改善使用概率比和第一和第二最佳获得的结果仅在大规模识别实验中的错误率的函数的函数的情况下得分。这表明由第一和第二最佳续集得分提供的信息可以在实践中可以足以建立接近最佳置信度值,并且不会从随机匹配产生的大量分数的分析中获得实际改进。与其他公开方法相比,概率比例的比较性能与概念方法的简单性和鲁棒性以及概率比的非参数性质使得这种方法对大规模的自动化,无人值守的误差率特别有吸引力肽鉴定实验。

      补充材料

      参考

        • ENG J.K.
        • mccormack a.l.
        • YALES III,J.R.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • YALES III,J.R.
        • ENG J.K.
        • mccormack a.l.
        • Schieltz D.
        将改性肽的串联质谱与蛋白质数据库中氨基酸序列相关联的方法。
        肛门。化学。 1995; 67: 1426-1436
        • YALES III,J.R.
        • ENG J.K.
        • mccormack a.l.
        采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
        肛门。化学。 1995; 67: 3202-3210
        • 链接A.J.
        • ENG J.
        • Schieltz D.M.
        • 卡马克E.
        • mize g.j.
        • 莫里斯D.R.
        • Garvik下午
        • YALES III,J.R.
        用质谱法直接分析蛋白质复合物。
        NAT。 Biotechnol。 1999; 17: 676-682
        • Washburn M.P.
        • 擦拭。
        • YALES III,J.R.
        多维蛋白质识别技术大规模分析酵母蛋白质组。
        NAT。 Biotechnol。 2001; 19: 242-247
        • 彭J.
        • eliasj.e.
        • Thororen C.C.
        • Licklider L.J.
        • Gygi S.P.
        多维色谱评价与串联质谱(LC / LC-MS / MS)进行大规模蛋白质分析:酵母蛋白质组。
        J.蛋白质组。 2003; 2: 43-50
        • Florens L.
        • Washburn M.P.
        • Raine J.D.
        • 安东尼下午
        • 格劳宾M.
        • Haynes J.D.
        • Moch J.K.
        • 鼓起的n ..
        • Sacci J.B.
        • Tabb D.L.
        • Witney A.A.
        • 擦拭。
        • 吴y.
        • 加德纳M.J.
        • 持有人A.A.
        • 辛保人R.E.
        • yates j.r.
        • carucci d.j.
        疟原虫生疟原虫生命周期的蛋白质组学视图。
        自然。 2002; 419: 520-526
        • 钱W.J.
        • 刘涛。
        • Monroe M.E.
        • strittmatter e.f.
        • Jacobs J.M.
        • Kangas L.J.
        • 肉炎K.
        • 营地II,D.G.
        • 史密斯r.d.
        肽和蛋白质鉴定的基于概率的评价与串联质谱和续集分析:人蛋白质组。
        J.蛋白质组。 2005; 4: 53-62
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • Tabb D.L.
        • maccoss m.j.
        • 吴C.C.
        • 安德森S.D.
        • YALES III,J.R.
        来自蛋白质组学实验的串联质谱之间的相似性:检测,意义和效用。
        肛门。化学。 2003; 75: 2470-2477
        • Sadygov R.G.
        • YALES III,J.R.
        使用串联质谱数据和蛋白质序列数据库的蛋白质鉴定和验证的超高度概率模型。
        肛门。化学。 2003; 75: 3792-3798
        • 摩尔里。
        • 年轻的M.K.
        • lee t.d.
        QScore:一种评估续集数据库搜索结果的算法。
        J.IM。 SOC。质谱。 2002; 13: 378-386
        • maccoss m.j.
        • 吴C.C.
        • YALES III,J.R.
        基于概率的蛋白质鉴定使用修改的续集算法验证。
        肛门。化学。 2002; 74: 5593-5599
        • 安德森D.C.
        • 李W.
        • Payan D.G.
        • 贵族W.S.
        一种新的蛋白质组学评估的新算法:肽MS / MS光谱和续集序列的支持向量机分类。
        J.蛋白质组。 2003; 2: 137-146
        • Razumovskaya J.
        • Olman V.
        • 徐D.
        • uberbacher e.c.
        • verberkmoes n.c.
        • Hettich R.L.
        • 徐Y.
        一种评估串联质谱分析中肽鉴定可靠性的计算方法。
        蛋白质组学。 2004; 4: 961-969
        • kislinger t.
        • 拉赫曼K.
        • Radulovic D.
        • Cox B.
        • rossant J.
        • Emili A.
        棱镜,哺乳动物的通用大规模蛋白质组学调查策略。
        摩尔。细胞。蛋白质组学。 2003; 2: 96-106
        • Lopez-Ferrer D.
        • 马丁内斯 - Bartolome S.
        • Villar M.
        • Campillos M.
        • Martin-Maroto F.
        • Vazquez J.
        使用续集使用串联质谱中数据库中大规模肽鉴定的统计模型。
        肛门。化学。 2004; 76: 6853-6860
        • Benjamini Y.
        • DRAI D.
        • Elmer G.
        • kafkafi n。
        • Golani I.
        控制行为遗传研究中的假发现率。
        表现。脑res。 2001; 125: 279-284
        • Storey J.D.
        • Tibshirani R.
        基因组研究的统计学意义。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 9440-9445
        • eliasj.e.
        • Gygi S.P.
        目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
        NAT。方法。 2007; 4: 207-214
        • 领域H.I.
        • Fenyo D.
        • Beavis R.C.
        雷达是一种自动化蛋白质组质谱分析,优化蛋白质识别和归档数据在关系数据库中的生物信息溶液。
        蛋白质组学。 2002; 2: 36-47
        • eliasj.e.
        • 吉布斯F.D.
        • 国王O.。
        • 罗斯f.p.
        • Gygi S.P.
        基于强度的蛋白质识别通过串联质谱库的机器学习。
        NAT。 Biotechnol。 2004; 22: 214-219
        • BAFNA V.
        • 爱德华兹N.
        范围:对肽数据库进行串联质谱的概率模型。
        生物信息学。 2001; 17: S13-S21
        • 大歌j.
        • Masselot A.
        • 吉龙M.
        • Dessingy T.
        • Magnin J.
        OLAV:迈向高通量串联质谱数据识别。
        蛋白质组学。 2003; 3: 1454-1463
        • geer l.y.
        • 马克S.P.
        • Kowalak J.A.
        • 瓦格纳L.
        • 徐M.
        • Maynard D.M.
        • 杨X.
        • 施W.
        • 布莱恩特S.H.
        开放质谱搜索算法。
        J.蛋白质组。 2004; 3: 958-964
        • 大歌j.
        • Masselot A.
        • Cusin I.
        • Mahe E.
        • Niknejad A.
        • argoud-puy g.
        • 雷布斯S.
        • 床边
        • 凝思A.
        • rey p.a.
        • Bougueleret L.
        通过串联质谱法的高性能肽鉴定允许蛋白质组学中可靠的自动数据处理。
        蛋白质组学。 2004; 4: 1977-1984
        • Fenyo D.
        • Beavis R.C.
        一种使用普通评分方案评估质谱基蛋白质鉴定统计学意义的方法。
        肛门。化学。 2003; 75: 768-774
        • altschul s.f.
        • GISH W.
        • 米勒W.
        • 迈尔斯。
        • Lipman D.J.
        基本的局部比对搜索工具。
        J.Mol。 BIOL。 1990; 215: 403-410
        • 卡车。
        • Aeberberold R.
        • Baldwin M.
        • 伯灵名A.
        • 克劳瑟K.
        • Nesvizhskii A.
        肽和蛋白质鉴定数据的出版指南的需要。肽和蛋白质识别数据的出版指南工作组。
        摩尔。细胞。蛋白质组学。 2004; 3: 531-533
        • Baldwin M.A.
        质谱法鉴定蛋白质。要考虑的问题。
        摩尔。细胞。蛋白质组学。 2004; 3: 1-9
        • Ogueta S.
        • 慕尼宫
        • Obregon E.
        • 德尔戈多·巴埃萨E.
        • Garcia-Ruiz J.P.
        催乳素是人类滑膜液的组分,并调节骨髓衍生的间充质干细胞的生长和软骨形成分化。
        摩尔。细胞。内分泌。 2002; 190: 51-63
        • nesvizhskii a.i.
        • Roos f.f.
        • 格罗斯曼J.
        • Vogelzang M.
        • eddes J.s.
        • Gruissem W.
        • Baginsky S.
        • Aeberberold R.
        霰弹枪蛋白质组学数据的动态谱质量评估和迭代计算分析。为了更有效地识别翻译后修饰,序列多态性和新型肽。
        摩尔。细胞。蛋白质组学。 2006; 5: 652-670
        • 伯尔尼姆。
        • 戈德伯格D.
        • 麦当劳W.H.
        • YALES III,J.R.
        肽串联质谱的自动质量评估。
        生物信息学。 2004; 20: I49-I54
        • strittmatter e.f.
        • Kangas L.J.
        • 肉炎K.
        • 莫斯塔赫苗
        • 安德森G.A.
        • 沉Y.
        • Jacobs J.M.
        • 营地II,D.G.
        • 史密斯r.d.
        肽LC保留时间信息在串联质谱中肽鉴定的判别函数中的应用。
        J.蛋白质组。 2004; 3: 760-769
        • Sadygov R.G.
        • 刘H.
        • yates j.r.
        使用串联质谱数据和蛋白质氨基酸序列数据库的蛋白质验证的统计模型。
        肛门。化学。 2004; 76: 1664-1671