跳到主要内容

峰dB: 德诺维 测序辅助数据库搜索敏感和准确的肽识别*

  • 景张
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • 雷鑫
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • 宝镇山
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • 威武陈
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • 明杰谢
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • 丹尼斯元
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大

    加拿大安大略省滑铁卢大学计算机科学学院,加拿大N2L 3G1
    搜索本作者的文章
  • 张张
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • Zefeng Zhang.
    隶属关系
    Bioinformatics Solutions Inc.,Waterloo,安大略省N2L 6J2,加拿大
    搜索本作者的文章
  • Gilles A. lajoie.
    隶属关系
    加拿大安大略省西部的安大略大学生物化学系,安大略省N6A 5B8,加拿大
    搜索本作者的文章
  • 箱马
    一致
    应解决谁的通讯:200型大学Ave.W.,Waterloo,安大略省N2L 3G1,加拿大。电话:519-8884567,ext。 32747;传真:519-8881208.
    隶属关系
    加拿大安大略省滑铁卢大学计算机科学学院,加拿大N2L 3G1
    搜索本作者的文章
  • 作者脚注
    *这项工作是由加拿大发现计划(BM和GL)的自然科学和工程研究委员会的资金和Bioinformatics Solutions Inc.(对JZ,LX,BS,WC,MX,Dy,WZ和Z Z)。本文的出版费用部分按付款方式部分支付。因此,本文必须明白“广告“按照18 U.S.C.第1734节仅表明这一事实。
    本文含有补充材料。
      已经开发了许多软件工具,用于自动鉴定来自串联质谱的肽的自动鉴定。通过数据库搜索的识别软件的准确性和灵敏度对于成功的蛋白质组学实验至关重要。通过合并了新的数据库搜索工具峰值DB,已经通过结合了德诺维测序结果进入数据库搜索。峰值DB达到两种其他常用软件包的准确性和敏感性显着提高。另外,已经引入了一种新的结果验证方法,诱饵融合,以解决某些类型的肽识别软件中传统的目标诱饵方法中存在的过度限制问题。
      从串联质谱(MS / MS)中肽鉴定
      使用的缩写是:
      女士/女士
      串联质谱
      PTM.
      翻译后修改
      ETD.
      电子转移解离
      FDR.
      假发现率
      PSM
      肽谱匹配
      IPRG.
      蛋白质组信息研究组。
      1使用的缩写是:女士/女士
      串联质谱
      PTM.
      翻译后修改
      ETD.
      电子转移解离
      FDR.
      假发现率
      PSM
      肽谱匹配
      IPRG.
      蛋白质组信息研究组。
      数据是蛋白质组学中的一个核心任务。该任务的准确性和敏感性直接影响蛋白质鉴定对肽命中的性能,以及其他下游分析。许多软件工具已经开发用于肽鉴定;这些工具可以广泛分为两类: 德诺维 排序和数据库搜索。
      德诺维 测序直接从MS / MS频谱衍生肽序列,而数据库搜索查询序列数据库以用于解释MS / MS光谱中的峰值。代表 德诺维 测序软件包包括峰值(
      • 张克。
      • Hendrie C.
      • 梁C.
      • 李米
      • Doherty-kiby A.
      • Lajoie G.
      峰值:肽的强大软件 德诺维 通过串联质谱测序。
      ),Pepnovo(
      • 弗兰克A.
      • Pevzner P.
      Pepnovo: 德诺维 通过概率网络建模肽测序。
      ),Novohmm(
      • Fischer B.
      • 罗斯V.
      • Roos F.
      • 格罗斯曼J.
      • Baginsky S.
      • Widmayer P.
      • Gruissem W.
      • Buhmann J.m.
      Novohmm:一个隐藏的马尔可夫模型 德诺维 peptide sequencing.
      )和Lutefisk(
      • 泰勒J.A.
      • 约翰逊R.S.
      序列数据库通过 德诺维 通过串联质谱测序肽测序。
      ),代表数据库搜索软件包包括吉祥物(
      • Perkins D.N.
      • Pappin D.J.
      • 皱褶D.M.
      • Cottrell J.s.
      使用质谱数据搜索序列数据库来搜索基于概率的蛋白质识别。
      ),续集(
      • ENG J.
      • mccormack a.l.
      • yates 3rd,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ),x!串联(
      • 克雷格r.
      • Beavis R.C.
      串联:匹配具有串联质谱的蛋白质。
      ),omssa(
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ),蛋白质新推架(
      • Chalkley R.J.
      • 贝克P.R.
      • 黄兰
      • 汉森K.C.
      • Allen N.P.
      • Rexach M.
      • 伯灵名A.L.
      综合分析在四极孔中获得的多维液相色谱质谱数据集,选择四极碰撞细胞,飞行时间质谱仪:II。蛋白质探测器的新开发允许对大型数据集进行可靠和全面的自动分析。
      ),maxquant(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
      )(
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      andromeda:肽搜索引擎集成到最大环境中。
      )和MS-GFDB(
      • 金斯。
      • Mischerikow N.
      • Bandeira N.
      • Navarro J.D.
      • WICH L.
      • 穆罕默德S.
      • Heck A.J.
      • PEVZNER P.A.
      CID,ETD和CID / ETD对串联质谱的生成功能:数据库搜索的应用。
      )。
      通常认为数据库搜索是一种更简单的方法,因为蛋白质序列数据库为软件提供有限的空间来搜索。因此,当蛋白质序列数据库可用时,数据库搜索是肽识别最常见的方法。但是,现有数据库搜索工具仍然经历了低识别率(低灵敏度)的问题(
      • 贝尔A.W.
      • 德意曲e.w.
      • au c.e.
      • kearney r.e.
      • Beavis R.
      • SECHI S.
      • Nilsson T.
      • Bergeron J.J.
      HUPO测试样品工作组:HUPO测试样本研究揭示了大众光谱谱的蛋白质组学中的常见问题。
      )(
      • kapp e.a.
      • SchützF.
      • 康诺利l.m.
      • Chakel J.A.
      • Meza J.E.
      • 米勒C.A.
      • Fenyo D.
      • ENG J.K.
      • Adkins J.N.
      • OPENN G.S.
      • SIMPSON R.J.
      几种公开可用的MS / MS搜索算法的评估,比较和准确基准:灵敏度和特异性分析。
      )和高假发现速率(低精度)(
      • Askenazi M.
      • Bandeira N.
      • Chalkley R.J.
      • 克劳瑟K.R.
      • 德意志E.
      • 林H.H.N.
      • 麦当劳W.H.
      • 新伯特T.
      • Rudnick p.a.
      • 玛特L.
      IPRG 2​​011:电子转移解离(ETD)质谱的鉴定研究。
      )。数据库搜索性能的提高始终是该字段中的活动研究区域。
      在数据库搜索方法中寻求两个竞争目标:准确性和灵敏度。准确性通常通过假发现速率(FDR)来测量,该速率被定义为在得分阈值上方的所有标识中的错误标识的百分比。可以通过增加得分阈值来实现精度。但是,这将同时降低灵敏度。为了提高精度和灵敏度,需要开发一个新的评分功能,更准确地分离真实和错误的标识(
      • 麸皮
      • yu l.
      • 哈贝德T.
      • Choudhary J.
      用吉祥物过滤器准确敏感的肽鉴定。
      ,
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )。同时,为了维持可接受的搜索速度,数据库搜索软件通常介绍过滤方法,以快速选择蛋白质或肽候选者的候选名单,并且只会评估那些具有更先进(通常较慢)评分功能的候选者(参见例如参考文献。
      • 克雷格r.
      • Beavis R.C.
      串联:匹配具有串联质谱的蛋白质。
      )。然而,这种简单的过滤通常不包括真正的肽并导致降低的灵敏度。需要良好的过滤技术来平衡灵敏度,准确性和速度。
      在本文中,描述了使用数据库搜索方法的肽识别的峰值DB软件。但是,与传统的数据库搜索方法相反,峰值DB软件严重依赖 德诺维 测序结果改善过滤和得分功能。与现有数据库搜索软件相比,这种组合导致显着提高的灵敏度和准确性。
      除了上述两个目标(精度和灵敏度)之外,蛋白质组学质谱数据的高吞吐量还需要数据库搜索结果的自动验证。目前,该验证通常通过目标诱饵方法实现(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      ,
      • KällL.
      • Storey J.D.
      • maccoss m.j.
      • 贵族W.S.
      使用诱饵数据库对由串联质谱法鉴定的肽的意义。
      )。该方法引入了同一搜索引擎搜索的诱饵蛋白,并在诱饵蛋白上使用发动机的结果来估计误报的数量。但是,该方法必须谨慎使用,因为多级搜索过程可以使其偏向低估FDR(
      • 伯尔尼姆。
      • Phinney B.S.
      • 戈德伯格D.
      重新分析 Tyrannosaurus雷克斯 mass spectra.
      ,
      • 埃弗雷特L.J.
      • Bierl C.
      • S.R.
      多级蛋白质组学搜索策略的无偏见统计分析。
      ,
      • 伯尔尼姆。
      • kil y.j.
      评论“多级蛋白质组学搜索策略的无偏见统计分析”。
      )。最初在参考文献中提出了一个修复程序。
      • 埃弗雷特L.J.
      • Bierl C.
      • S.R.
      多级蛋白质组学搜索策略的无偏见统计分析。
      ,但伯尔尼和尔(
      • 伯尔尼姆。
      • kil y.j.
      评论“多级蛋白质组学搜索策略的无偏见统计分析”。
      )指出了修复仍然偏见。它们通过在最初引入的诱饵蛋白的顶部在搜索的第二阶段添加更多诱饵蛋白来提出替代溶液。这需要在源代码级别的搜索引擎的更改,并且可能导致FDR高估(这是一个较小的问题而不是FDR低估)。标准目标诱饵方法的另一个缺点是,如果在肽评分功能中使用蛋白质信息,则无法验证搜索引擎的结果(

      矩阵科技有限公司(2010)介意您的P和Q:最大限度地利用渗滤器。矩阵科学Asms研讨会和用户会议盐湖城,2010年5月23日

      )。在本文中,我们表明对目标诱饵方法的轻微变化将解决这两个问题。而不是将诱饵蛋白添加为数据库的单独条目,而是将相同蛋白质的目标和诱饵序列连接在一起作为数据库的单个条目。本文研究了这种新策略,提出了一种改进的目标诱饵方法,诱饵融合。

      实验步骤

      峰值DB的目的是识别具有MS / MS数据的序列数据库的肽。因此,Peaks DB属于肽识别软件的数据库搜索范畴。但是,峰值DB采用 德诺维 作为子程序测序并利用 德诺维 测序结果以提高数据库搜索的速度和准确性。峰值DB软件的主要算法步骤如下所示:
      • 德诺维 测序:峰值算法(
        • 张克。
        • Hendrie C.
        • 梁C.
        • 李米
        • Doherty-kiby A.
        • Lajoie G.
        峰值:肽的强大软件 德诺维 通过串联质谱测序。
        )用于执行 德诺维 每个输入频谱测序。
      • 蛋白质缺失: 德诺维 序列标记用于在蛋白质序列数据库中找到近似匹配。根据序列标签匹配评估数据库中的所有蛋白质。 7,000个顶部排名蛋白质形成蛋白质缺口,并用于将来的分析。
      • 肽缺失:蛋白质短信的所有肽用于匹配MS / MS光谱,并具有快速评分功能。仅对每个MS / MS光谱保持512个最高评分肽候选者(包括PTMS)。
      • 肽评分:从在肽短信步骤中计算的512名候选物中,使用精确评分功能来找到每个光谱的最佳肽。的相似之处 德诺维 序列和数据库肽是评分功能中的重要组成部分。此外,分数被标准化以确保可以在不同的光谱上比较。
      • 结果验证:修改的目标诱饵方法用于确定最小肽谱匹配得分阈值以满足用户的FDR要求。
      • 蛋白质推理和分组:通过上述步骤鉴定的高置信肽用于推断蛋白质。这些共享相同组肽命中的蛋白质被分组为一个更方便的报告。
      以下部分讨论了这些步骤的细节。

       德诺维测序

      峰值算法用于执行 德诺维 每个输入频谱测序。还使用由用户指定的相同参数(质量错误容忍和PTMS),用于数据库搜索 德诺维 测序。对于每个频谱,只有第一个 德诺维 利用峰报告的测序肽。峰值算法也为每个氨基酸计算了对氨基酸的置信度 德诺维 顺序;这种信心是一个百分比价值。通过使低置位氨基酸通过它们的质量值取代低置信氨基酸来将峰的输出转化为序列标签。更具体地,每次拉伸相邻的氨基酸残基<30%的置信度被“质量段”取代,等于残留物的总质量。看 Fig. 1 as an example.
      图缩略图GR1.
      Fig. 1A 德诺维 用峰值计算的序列在每种氨基酸上具有局部置信度分数,如被高度所示 垂直条. 通过使用30%的阈值,低于置信阈值的连续氨基酸被它们的总残留物质量取代。

       蛋白质入侵

      在此步骤中,算法使用该算法 德诺维 序列标签以从蛋白质数据库中选择短暂的蛋白质清单。该过程中的未来步骤只会在此简短列表上工作,以减少总计算时间。
      a之间的匹配质量 德诺维 通过普通氨基酸的数量(CAA评分)测量序列标记和数据库肽。在 Fig. 2,图示了CAA分数的计算。注意,在该蛋白质的缺陷步骤中,因为序列数据库中没有修改信息,所以在序列数据库中, 德诺维 序列可以匹配序列数据库中的未修改的残留物。然而,在后期的肽评分步骤中,改性残余物可以仅将相同的残留物与CAA评分计算的相同修改匹配。
      图缩略图GR2.
      Fig. 2A 德诺维 将序列标签与数据库肽进行比较。 对齐确保每个对齐块的质量(包围 方括号)对于两个序列相等。 CAA评分是该对准中的常见氨基酸的数量,在该实施例中是4。
      蛋白质被通过每种蛋白质的肽所取得的最高CAA分数。如果两种蛋白质具有相同的CAA评分,则由第二个和第三高的CAA分数断裂。在该等级中,7,000个顶部数据库蛋白被选为蛋白质缺口,这应该是大多数蛋白质组学实验中可识别蛋白质的超集。在数据库中处理同源蛋白没有特殊处理。因此,如果研究的生物系统具有较大数量的蛋白质,并且搜索在大型数据库(如NCBINR)上,则可能需要增加缺口蛋白的数量,而不指定分类信息。这可以在峰值DB的配置文件中调整。

       肽缺失

      消化的所有肽序列 在Silico. 从蛋白质缺点与输入光谱比较以找到肽谱匹配(PSM)。每种肽序列可以通过枚举用户指定的可变PTM的所有可能组合来产生多种修饰的肽。对于每种肽序列(修饰或不),计算肽质量,与匹配前体质量的MS / MS光谱与序列进行比较。 “快速分光器”用于计算PSM的分数。优先级队列数据结构用于保留每个频谱的前512个序列候选。
      快速评分器源自相同的速度 德诺维 峰值使用的测序函数 德诺维 sequencing (
      • 张克。
      • Hendrie C.
      • 梁C.
      • 李米
      • Doherty-kiby A.
      • Lajoie G.
      峰值:肽的强大软件 德诺维 通过串联质谱测序。
      )。简而言之,频谱被转换为两个功能 fN(m) 和 fC(m), 在哪里 fN(m)表明正确肽具有总残留物质的前缀(含N末端的子序列)的几率 m, 和 fC(m)表明正确肽具有后缀(随后含有C末端的后序列)的几率,总残留物质量 m。使用相应的碎片离子估计赔率。对于碰撞诱导的解离(CID)光谱,A,B,C,Y,Z,B-H.2o,Y-H.2o,和y-nh3 使用(参见参考文献。
      • 张克。
      • Hendrie C.
      • 梁C.
      • 李米
      • Doherty-kiby A.
      • Lajoie G.
      峰值:肽的强大软件 德诺维 通过串联质谱测序。
      有关详细信息)。对于ETD光谱,使用A,B,C,C-H,Y,Z和Z + H离子(参见参考。
      • 刘X.
      • 山B.
      • Xin L.
      具有ETD MS / MS光谱的肽鉴定的更好得分功能。
      有关计算的详细信息)。后 fN(m) 和 fC(m计算,肽的离子匹配得分被确定为肽的总和 fN(m) 和 fC(M')对于所有的前缀群众 m 和后缀群众 M'。该分数可以通过索引有效地计算 fN(m) 和 fC(m) 在记忆中。通过这种简单的快速评分器,给定MS / MS频谱的正确肽可能不是顶部评分序列,但最有可能在该频谱的优先级队列中保存的512个顶部评分序列候选中。

       肽得分

      更复杂的评分功能用于重新划分每个频谱的序列候选。首先,离子匹配得分 sIon_match. 由公式标准化 S'Ion_match. = (sIon_match. - μ)/σ,其中μ表示前10名候选物的平均得分,并且σ表示前150个候选的分数的标准偏差。对不正确肽的这种归一化是必要的,以比较不同光谱的分数。除了规范化的离子匹配分数之外,还使用许多其他功能。已经评估了几个特征。然而,发现肽候选的九个特征是最有效的,现在包含在峰dB:1)中匹配的氨基酸的数量 德诺维 序列标签(CAA得分); 2)蛋白质特征:每种蛋白质通过添加其三个最高肽CAA分数来获得得分,并且肽的蛋白质特征是含有该肽的蛋白质的最大得分; 3)肽长度; 4)肽中未存在的裂解的平均序列长度; 5)肽中每PTM的平均序列长度; 6)前体质量误差; 7)充电状态; 8)连续匹配的片段离子系列的最大长度; 9)Termini的数量侵犯酶的消化规则。
      其中一些特征或类似的特征也以前用于渗滤器(
      • 麸皮
      • yu l.
      • 哈贝德T.
      • Choudhary J.
      用吉祥物过滤器准确敏感的肽鉴定。
      )和peptipeprophet(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ) 程式。特别是6),7)和8)用于渗滤器; 6)和9)用于Peptipeprophet;特征类似于4)和5)在渗滤器中使用;并且在肽前使用类似于4的功能。渗滤器和肽前进的既比此处列出的更多特征。
      这些九个特征与标准化离子匹配分数一起与加权和相结合。在大型LC-MS / MS训练数据集上训练权重,以最大化1%FDR曲线左侧的区域,如图所示 Fig. 3。一旦通过训练针对特定仪器类型确定,它们不会从实验改变到实验。
      图缩略图GR3.
      Fig. 3FDR.曲线显示FDR(y轴)关于报告的肽光谱匹配的数量(X轴)。 肽评分函数中加权和系数的训练最大化了该区域 剩下 曲线和 以下 1%fdr阈值。
      加权分数转换为a p 更容易人力解释的价值。对于给定的分数,相应的分数 p 值被定义为当前搜索中的错误识别的概率实现了相同或更好的匹配分数。这 p 价值试图预测假阳性率, IE。 给定分数上方的错误识别数之间的比率 T 以及错误识别的总数。请注意,假阳性率是FDR的不同概念。如果是 p 价值是 P,最终的肽评分(称为 意义得分)峰值输出DB为-10LGP。这里LG(•)是具有基座10的常见对数。

       结果验证

      修改的目标诱饵方法称为诱饵融合,用于在任何给定的分数阈值下估计FDR。更传统的目标诱饵方法需要在数据库中产生诱饵蛋白序列(
      • 麸皮
      • yu l.
      • 哈贝德T.
      • Choudhary J.
      用吉祥物过滤器准确敏感的肽鉴定。
      )。然后,通过软件单独或一起搜索目标和诱饵数据库,并且通过诱饵和目标匹配的数量之间的比率计算FDR。然而,在峰值DB中,目标和诱饵序列未被视为数据库中的单独条目。相反,它们一起连接在一起 对于每种蛋白质。因此,新生成的数据库包含相同数量的蛋白质条目,但每种蛋白质的长度都是加倍的。该软件搜索此新生成的数据库。在搜索之后,通过检查它们是否来自每个连接序列的第一或第二半部分来分离目标和诱饵标识。对于每个用户指定的分数阈值,FDR计算为诱饵命中数与高于分数阈值的目标的数量之间的比率。
      如果靶蛋白的C-末端氨基酸不是酶切割位点,则将诱饵序列施加到其端部可以防止搜索引擎考虑靶蛋白的C末端肽。为了解决这个问题,在目标和诱饵序列之间添加特殊字母j作为分离器。吉祥物和峰值DB算法都可以在字母J的两侧切割 在Silico. 消化,确保考虑来自靶蛋白的C末端肽。

       蛋白质推理和分组

      虽然蛋白质推断不是本文的重点,但以下是峰dB中蛋白推断程序的简要概要。蛋白质根据其共用肽进行分组。得分阈值 T,蛋白质(X)被召唤到 支配 another protein (Y)如果所有的肽 Y 分数≥T 也被发现 X。在当前版本的峰dB, T 等于15,对应于a p value of ∼0.03.
      如果 X 占领 Y, 然后 Y 不是自信的识别,因此增加了 X 团体。检查每对蛋白质进行统治关系后,将蛋白质聚集成几组。请注意,可能有一些蛋白质在一个组中彼此占主导地位。对于每组,用户可以选择仅显示或仅从用户界面中显示一个占主导地位蛋白质,所有主导蛋白质或所有蛋白质。
      每种蛋白质的显着性得分从其鉴定的肽计算如下。首先,除去冗余肽;如果从不同光谱多次鉴定相同的肽,则仅保留最高评分肽。如果氨基酸序列或PTMS不同,则两种肽被认为是相同的或仅在PTM位置而不同的。其次,肽的所有非冗余意义分数都被分类为 s1s1 ≥...≥ SK. 。最后,蛋白质的得分等于 s1 + (1/2)s2 + (1/3)s3 + … + (1/k)SK. 。蛋白质组的得分等于主导蛋白的得分。

      结果

      使用两个公共数据集,一个与CID和其他ETD分段,用于评估峰值DB的性能。使用LTQ-orbitrap仪器生成两个数据集。
      CID数据集来自胰蛋白酶摘要 假单胞菌铜绿假单胞菌 以前用于研究蛋白质和mRNA丰度之间的关系(
      • Laurent J.M.
      • Vogel C.
      • kwon t.
      • 克雷格S.A.
      • boutz d.r.
      • Huse H.K.
      • nozue K.
      • Walia H.
      • 惠特莉米
      • 罗纳德P.C.
      • Marcotte e.m.
      蛋白质丰度比不同的分类群体的mRNA丰富更加保守。
      )。数据文件已下载 http://www.marcottelab.org/MSdata/Data_12/DATA/20090115_SMPA14_2.RAW.gz。对于CID数据集, P.铜绿假单胞菌 pao1蛋白质数据库,从伪蜂图下载(http://www.pseudomonas.com)2011年4月用于数据库搜索。数据库包含5566个蛋白质条目。
      在LC-MS之前,从强阳离子交换肽分馏后的酵母裂解物的Lys-C消化中获得ETD数据集。分数10的原始数据在2011年的2011年通过生物分子资源设施协会的蛋白质组信息研究组(IPRG)的研究中使用(
      • Askenazi M.
      • Bandeira N.
      • Chalkley R.J.
      • 克劳瑟K.R.
      • 德意志E.
      • 林H.H.N.
      • 麦当劳W.H.
      • 新伯特T.
      • Rudnick p.a.
      • 玛特L.
      IPRG 2​​011:电子转移解离(ETD)质谱的鉴定研究。
      )。这里使用相同的数据。对于ETD数据集,通过生物分子资源设施协会提供的相同的蛋白质序列数据库IPRG 2​​011研究用于数据库搜索。这是完整的蛋白质组 酿酒酵母酿酒酵母 附有典型的实验室污染蛋白。数据库包含6666个蛋白质条目。
      在涉及诱饵序列的所有实验中,通过在每种蛋白质中随机洗脱氨基酸来制备诱饵序列。在FDR计算之前除去诱饵肽。也就是说,FDR =诱饵命中的数量/目标命中数。当使用目标诱饵方法估计FDR时,将目标和诱饵数据库一起搜索。

       德诺维测序在数据库搜索中的有效性

      本节展示了相对性能 德诺维 分析相同数据集时测序和数据库搜索方法。他们的补充能力将证明利用的合理性 德诺维 峰值DB的测序结果使用CID数据集,峰值5.3和吉祥物2.3被雇用 德诺维 分别测序和数据库搜索分析。对于每个频谱,只有第一个 德诺维 选择峰报告的测序肽。对于吉祥物2.3报道的每种肽,匹配氨基酸的数量 德诺维 计算序列(CAA得分)。 Fig. 4 显示分数的分布 P.铜绿假单胞菌 使用数据库。可以看出,目标和诱饵比赛的最佳分离是通过数据库搜索得分和CAA分数的组合来实现的,清楚地表明使用的有效性 德诺维 肽评分的测序结果。
      图缩略图GR4.
      Fig. 4比较 德诺维 使用数据库搜索结果(Mascot 2.3)测序结果(峰值5.3)。 每个数据点代表由吉祥物数据库搜索找到的肽。这 X轴 是吉祥物得分,而且是 y轴 是匹配氨基酸的数量 德诺维 测序结果(CAA得分)。为了更好地看待数据密度,将0到0.8之间的小随机数添加到每个CAA分数之间。通过组合CAA和吉祥物分数来实现目标和诱饵比赛的最佳分离(虚线)。
      对于吉祥物自信地鉴定肽,当使用不同尺寸的数据库时,所需的频谱质量不同。例如,在CID数据集上,1%FDR对应于23.6和55.1的吉祥物评分 P.铜绿假单胞菌 并分别使用Swissprot数据库。结果,相对表现 德诺维 排序和数据库搜索各不相同。当。。。的时候 P.铜绿假单胞菌 和Swissprot数据库分别用于吉祥物数据库搜索 德诺维 测序能够在70%和88%的吉祥物中正确计算五个或更多个氨基酸(CAA得分≥5),吉祥物含有1%FDR。

       比较目标诱饵和诱饵融合方法

      目标诱饵和诱饵融合方法的基本假设是假目标击中和诱饵命中的得分分布是相似的。因此,诱饵命中的数量可用于估计假目标命中的数量。遗憾的是,没有有效的方法来验证这种假设,因为很难评估目标命中是否是真或假的。因此,进行了以下模拟实验以验证假设。
      搜索CID数据集 P.铜绿假单胞菌 数据库由吉祥物,续集和峰值DB。所有三种发动机鉴定的肽被认为是正确的。通过将这些肽保持不变来创建模拟数据库 P.铜绿假单胞菌 数据库,同时随机洗脱每种蛋白质中的所有其他氨基酸。当搜索引擎用于搜索在该模拟的数据库中时,可以安全地将没有显着(五个或更多个氨基酸)重叠的肽与未改变的肽重叠。因此,通过使用模拟数据库作为目标,可以比较假目标命中和诱饵命中的分数分布。检查诱饵融合和目标诱饵方法,结果显示在 Fig. 5.
      图缩略图GR5.
      Fig. 5使用模拟蛋白质数据库时,假目标击中和诱饵命中的得分分布。 每个的高度 酒吧 表示相应分数周围的PSM数量。目标诱饵方法产生的诱饵命中率较少,而不是峰值DB结果的假目标命中,这可能导致FDR低估。诱饵融合方法没有这样的问题。
      Fig. 5 说明对于峰值DB结果,只有诱饵融合方法可以产生类似的分量分布。目标诱饵方法产生的诱饵命中率较少,而不是假目标命中,这可能导致FDR低估。这表明诱饵融合更适合验证峰值DB结果。然而,这两种诱饵方法对于吉祥物,续集和吉祥物+渗滤器结果没有明显的差异。的结果 Fig. 5 与另一个旨在比较由两种诱饵方法估计的FDR曲线的另一个实验一致(补充图S1)。这两种方法为吉祥物,续集和吉祥物+过滤器产生的相同或非常相似的FDR曲线,而峰dB的诱饵融合曲线明显比目标诱饵曲线明显更保守。因此,在所有以下实验中,使用诱饵融合方法来估计峰DB的FDR,并且使用目标诱饵方法来估计所有其他搜索方法的FDR。

       峰值DB与其他数据库搜索工具的性能比较

      在一般的做法之后,通过FDR曲线比较了峰值DB的肽鉴定性能,具有两个常用的软件包:吉祥物2.3和序列(在蛋白质组发现者1.2中)。与三个引擎中的每一个的搜索使用相同的参数集:母离子质量误差容差为15ppm,片段离子质量误差容差为0.8 da。在一个肽中允许最多三种错过的切割,并且在每种肽的大多数一端可能侵犯酶切割规则。一种固定的PTM:Cys的羧酰胺甲基化,三种可变性PTMS:GLN和来自GLN的GLN和ASN的氧化,氧化氧化和来自GLN的氧化。胰蛋白酶和Lys-C分别用作CID和ETD数据集的酶。对于每个肽谱匹配(PSM),续集输出两个分数,XCORR和DELCN。在该实验中,Xcorr + 5 delcn被用作续集得分,因为这种组合产生了最佳的FDR曲线进行续集。
      最近,已经开发了一种渗滤器计划来通过用严格的机器学习方法进行重新来改善吉祥物数据库搜索结果(
      • 麸皮
      • yu l.
      • 哈贝德T.
      • Choudhary J.
      用吉祥物过滤器准确敏感的肽鉴定。
      )。它不是一个独立的数据库搜索引擎。然而,还进行了与吉祥物和渗滤器组合的比较。
      Fig. 6, Fig. 7 显示CID和ETD数据集的FDR。在1%FDR,所识别的目标PSM的数量是峰值DB(10668)>吉祥物+渗滤器(9969)> SEQUEST (8236) >吉祥物(7515)来自CID数据集;和峰值DB(3652)>吉祥物+渗滤器(2702)> Mascot (2398) >续集(2233)从ETD数据集。
      图缩略图GR6.
      Fig. 6CID数据集上的比较软件工具的FDR曲线。X轴 表示从目标序列保持的肽光谱匹配的数量,以及 y轴 代表相应的FDR。
      图缩略图GR7.
      Fig. 7ETD.数据集上的比较软件工具的FDR曲线。X轴 表示从目标序列保持的肽光谱匹配的数量,以及 y轴 代表相应的FDR。
      另一个数据库搜索程序,MS-GFDB(
      • 金斯。
      • Mischerikow N.
      • Bandeira N.
      • Navarro J.D.
      • WICH L.
      • 穆罕默德S.
      • Heck A.J.
      • PEVZNER P.A.
      CID,ETD和CID / ETD对串联质谱的生成功能:数据库搜索的应用。
      ),还报告了吉祥物的重大改善。由于已发布的MS-GFDB在本研究时不处理可变PTM,因此我们还通过未在峰值DB中指定任何可变PTM进行特殊比较(这导致降低峰DB的整体性能)。在CID和ETD的这种特殊比较中,峰值DB在CID和ETD的特殊比较中,DB的MS-GFDB也优于〜58和8%。该比较的细节包括在内 补充材料.

      讨论

       准确性和灵敏度

      第一个结论来自 Fig. 6, Fig. 7 是,峰值DB可以自信地识别比吉祥物和续集更高的PSM。特别地,与吉祥物相比,在1%FDR处,峰值DB可以识别CID数据集的42%PSM,并为ETD数据集提供52%的PSM。实际上,峰值DB在0.1%FDR(11515对于ETD的CID和2398的ETD为2398的ETD的CID和3299的CID和3299的CID和3299的9494)更高的PSM(9494)。虽然过滤器显着提高了吉祥物的性能,但Peaks DB仍然表现出吉祥物+渗滤器的CID数据的7%,对于这些数据集的1%FDR,ETD数据达到35%。
      就所识别的肽总数而言,许多搜索引擎在上面提到的IPRG研究中的ETD数据上表现出吉祥物(
      • Askenazi M.
      • Bandeira N.
      • Chalkley R.J.
      • 克劳瑟K.R.
      • 德意志E.
      • 林H.H.N.
      • 麦当劳W.H.
      • 新伯特T.
      • Rudnick p.a.
      • 玛特L.
      IPRG 2​​011:电子转移解离(ETD)质谱的鉴定研究。
      )。在IPRG研究中的单一引擎中,以下几次发动机(秩序下降):蛋白质新闻部(
      • Chalkley R.J.
      • 贝克P.R.
      • 黄兰
      • 汉森K.C.
      • Allen N.P.
      • Rexach M.
      • 伯灵名A.L.
      综合分析在四极孔中获得的多维液相色谱质谱数据集,选择四极碰撞细胞,飞行时间质谱仪:II。蛋白质探测器的新开发允许对大型数据集进行可靠和全面的自动分析。
      ),未命名的内部软件,Peaks DB,另一个未命名的内部软件,PFIND(
      • 太阳r.x.
      • 董M.Q.
      • 歌曲C.Q.
      • Chi H.
      • 杨B.
      • XIU L.Y.
      • 陶l.
      • 静Z.Y.
      • 刘C.
      • 王L.H.
      • 傅y.
      • 他是的
      基于电子转移解离谱的综合表征,改善了蛋白质组学分析的肽鉴定。
      )和光谱磨机。然而,在这些结果中,只有峰值DB和PFIND结果具有IPRG研究所需的准确性(1%FDR)。然而,IPRG研究中使用的FDR估计方法可能会影响不同软件工具中用户的相对体验可能影响了上述排名。 IPRG研究的完整报告中提供了更多详细信息(
      • Askenazi M.
      • Bandeira N.
      • Chalkley R.J.
      • 克劳瑟K.R.
      • 德意志E.
      • 林H.H.N.
      • 麦当劳W.H.
      • 新伯特T.
      • Rudnick p.a.
      • 玛特L.
      IPRG 2​​011:电子转移解离(ETD)质谱的鉴定研究。
      )。

       可靠的结果验证

      诱饵融合方法的使用是验证峰值DB结果的必要条件。如“结果”所示,标准目标诱饵方法可能低估了峰值DB结果的FDR,并应避免。这种不准确来自两个来源,这是由于诱饵序列被引入为数据库的单独条目。首先,蛋白质缺失步骤可以选择比诱饵蛋白更多的靶蛋白。这使得在以后的步骤中导致虚假鉴定以较高的概率落入目标蛋白质。诱饵融合方法通过将目标和诱饵序列组合在相同的蛋白质进入中组合来避免该问题。其次,“蛋白质特征”用于肽评分。这增加了高度自信的靶蛋白中随机肽匹配的分数。因此,将从靶蛋白报告比诱饵蛋白更多的假命中。通过将靶和诱饵序列融合在一起,将分数增量同样地应用于目标和诱饵肽命中。因此,假目标命中和诱饵命中的分数分布保持不变。
      关于在肽评分功能中使用蛋白质信息的文献中存在不同的意见。一方面,蛋白质信息可能会损害目标诱饵验证方法的可靠性,因此不用于肽前提下(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )并不再用于吉祥物过滤器(

      矩阵科技有限公司(2010)介意您的P和Q:最大限度地利用渗滤器。矩阵科学Asms研讨会和用户会议盐湖城,2010年5月23日

      )。另一方面,伯尔尼 等等。 (
      • 伯尔尼姆。
      • Phinney B.S.
      • 戈德伯格D.
      重新分析 Tyrannosaurus雷克斯 mass spectra.
      )报告的敏感性显着提高了灵敏度鉴定的蛋白质的敏感性,用于寻找更多肽,其可以被认为是在肽评分功能中使用蛋白质信息的极端情况。我们认为使用蛋白质信息是合适的。通过限制蛋白质数据库的搜索,数据库搜索引擎使得隐式假设在搜索之前,每个肽序列在样本中出现在样本中。当具有高置信度的另一个蛋白质的另一个肽时,应更新这种现有概率。这肯定会促进肽鉴定敏感性,但蛋白质信息的使用确实需要比标准目标诱饵方法更稳健的结果验证方法。本文提出的诱饵融合方法提供了一个非常简单的替代方案来解决这个问题。
      在峰dB中,仅针对每种仪器类型的肽评分的加权分数的系数仅培训一次。这与渗滤器中使用的方法不同,其中在搜索完成后对每个实验进行再培训进行评分功能,并且搜索发现的目标和诱饵肽已知。虽然再培训可以进一步提高灵敏度,但是它将诱饵信息暴露于评分功能。这造成了损害FDR估计方法的风险。为了使FDR估计无懈可击,在当前版本的峰dB中不使用刷新方法。

       德诺维测序和数据库搜索

      德诺维 历史上,测序被认为是缓慢的,并且需要具有更高质量准确性的光谱。因此,当蛋白质数据库不可用时,它主要使用。由于电脑算法最近的发展和持续改进计算机,速度不再是一个问题 德诺维 测序。例如,在我们的实验中,峰值算法能够 德诺维 序列15在适度桌面PC上的光谱/秒(英特尔核心I7处理器,四核,2.8 GHz)。由于开发新的质谱仪,例如壁球,高度精度也可用。这使得 德诺维 测序蛋白质组学中的每一个质谱分析的可行选择。 德诺维 序列和数据库搜索不应被视为在不同情况下使用的两个单独的方法。相反,它们应该共同努力,在蛋白质组学分析中提供更好的敏感性和准确性,如本文所示。此外,产生高度自信的光谱 德诺维 测序标签但没有数据库命中可能来自新型或修饰的肽。这些 ”德诺维 只有“肽可以比数据库中的那些可以说是更有趣的,但目前在纯粹基于数据库搜索的分析中被拒绝。

       结论

      总之,我们描述了快速的优势的峰值DB软件 德诺维 测序结果和几个新功能。净结果是对其他常用搜索引擎的敏感性和准确性以及整体卓越性能的增加。对于通过ETD碎片获得的质谱数据尤其如此,这使得峰DB是用PTM鉴定肽的特别有用的工具。我们还提出了一种更强大的结果验证方法,诱饵融合,用于控制峰值DB结果的FDR。

      致谢

      我们感谢Christine Vogel博士和Taejoon Kwon博士提供CID数据集。

      补充材料

      参考

        • 张克。
        • Hendrie C.
        • 梁C.
        • 李米
        • Doherty-kiby A.
        • Lajoie G.
        峰值:肽的强大软件 德诺维 通过串联质谱测序。
        迅速交流。质谱。 2003; 17: 2337-2342
        • 弗兰克A.
        • Pevzner P.
        Pepnovo: 德诺维 通过概率网络建模肽测序。
        肛门。化学。 2005; 77: 964-973
        • Fischer B.
        • 罗斯V.
        • Roos F.
        • 格罗斯曼J.
        • Baginsky S.
        • Widmayer P.
        • Gruissem W.
        • Buhmann J.m.
        Novohmm:一个隐藏的马尔可夫模型 德诺维 peptide sequencing.
        肛门。化学。 2005; 77: 7265-7273
        • 泰勒J.A.
        • 约翰逊R.S.
        序列数据库通过 德诺维 通过串联质谱测序肽测序。
        迅速交流。质谱。 1997; 11: 1067-1075
        • Perkins D.N.
        • Pappin D.J.
        • 皱褶D.M.
        • Cottrell J.s.
        使用质谱数据搜索序列数据库来搜索基于概率的蛋白质识别。
        电泳。 1999; 20: 3551-3567
        • ENG J.
        • mccormack a.l.
        • yates 3rd,J.R.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • 克雷格r.
        • Beavis R.C.
        串联:匹配具有串联质谱的蛋白质。
        生物信息学。 2004; 20: 1466-1467
        • geer l.y.
        • 马克S.P.
        • Kowalak J.A.
        • 瓦格纳L.
        • 徐M.
        • Maynard D.M.
        • 杨X.
        • 施W.
        • 布莱恩特S.H.
        开放质谱搜索算法。
        J.蛋白质组。 2004; 3: 958-964
        • Chalkley R.J.
        • 贝克P.R.
        • 黄兰
        • 汉森K.C.
        • Allen N.P.
        • Rexach M.
        • 伯灵名A.L.
        综合分析在四极孔中获得的多维液相色谱质谱数据集,选择四极碰撞细胞,飞行时间质谱仪:II。蛋白质探测器的新开发允许对大型数据集进行可靠和全面的自动分析。
        摩尔。细胞。蛋白质组学。 2005; 4: 1194-1204
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • Cox J.
        • Neuhauser N.
        • Michalski A.
        • 施泰米r.a.
        • 奥尔森J.V.
        andromeda:肽搜索引擎集成到最大环境中。
        J.蛋白质组。 2011; 10: 1794-1805
        • 金斯。
        • Mischerikow N.
        • Bandeira N.
        • Navarro J.D.
        • WICH L.
        • 穆罕默德S.
        • Heck A.J.
        • PEVZNER P.A.
        CID,ETD和CID / ETD对串联质谱的生成功能:数据库搜索的应用。
        摩尔。细胞。蛋白质组学。 2010; 9: 2840-2852
        • 贝尔A.W.
        • 德意曲e.w.
        • au c.e.
        • kearney r.e.
        • Beavis R.
        • SECHI S.
        • Nilsson T.
        • Bergeron J.J.
        HUPO测试样品工作组:HUPO测试样本研究揭示了大众光谱谱的蛋白质组学中的常见问题。
        NAT。方法。 2009; 6: 423-430
        • kapp e.a.
        • SchützF.
        • 康诺利l.m.
        • Chakel J.A.
        • Meza J.E.
        • 米勒C.A.
        • Fenyo D.
        • ENG J.K.
        • Adkins J.N.
        • OPENN G.S.
        • SIMPSON R.J.
        几种公开可用的MS / MS搜索算法的评估,比较和准确基准:灵敏度和特异性分析。
        蛋白质组学。 2005; 5: 3475-3490
        • Askenazi M.
        • Bandeira N.
        • Chalkley R.J.
        • 克劳瑟K.R.
        • 德意志E.
        • 林H.H.N.
        • 麦当劳W.H.
        • 新伯特T.
        • Rudnick p.a.
        • 玛特L.
        IPRG 2​​011:电子转移解离(ETD)质谱的鉴定研究。
        J Biomol Tech。 2011; 22: S20
        • 麸皮
        • yu l.
        • 哈贝德T.
        • Choudhary J.
        用吉祥物过滤器准确敏感的肽鉴定。
        J.蛋白质组。 2009; 8: 3176-3181
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • eliasj.e.
        • Gygi S.P.
        目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
        NAT。方法。 2007; 4: 207-214
        • KällL.
        • Storey J.D.
        • maccoss m.j.
        • 贵族W.S.
        使用诱饵数据库对由串联质谱法鉴定的肽的意义。
        J.蛋白质组。 2008; 7: 29-34
        • 伯尔尼姆。
        • Phinney B.S.
        • 戈德伯格D.
        重新分析 Tyrannosaurus雷克斯 mass spectra.
        J.蛋白质组。 2009; 8: 4328-4332
        • 埃弗雷特L.J.
        • Bierl C.
        • S.R.
        多级蛋白质组学搜索策略的无偏见统计分析。
        J.蛋白质组。 2010; 9: 700-707
        • 伯尔尼姆。
        • kil y.j.
        评论“多级蛋白质组学搜索策略的无偏见统计分析”。
        J.蛋白质组。 2011; 10: 2123-2127
      1. 矩阵科技有限公司(2010)介意您的P和Q:最大限度地利用渗滤器。矩阵科学Asms研讨会和用户会议盐湖城,2010年5月23日

        • 刘X.
        • 山B.
        • Xin L.
        具有ETD MS / MS光谱的肽鉴定的更好得分功能。
        BMC生物信息学。 2011; 11: 4
        • Laurent J.M.
        • Vogel C.
        • kwon t.
        • 克雷格S.A.
        • boutz d.r.
        • Huse H.K.
        • nozue K.
        • Walia H.
        • 惠特莉米
        • 罗纳德P.C.
        • Marcotte e.m.
        蛋白质丰度比不同的分类群体的mRNA丰富更加保守。
        蛋白质组学。 2010; 10: 4209-4212
        • 太阳r.x.
        • 董M.Q.
        • 歌曲C.Q.
        • Chi H.
        • 杨B.
        • XIU L.Y.
        • 陶l.
        • 静Z.Y.
        • 刘C.
        • 王L.H.
        • 傅y.
        • 他是的
        基于电子转移解离谱的综合表征,改善了蛋白质组学分析的肽鉴定。
        J.蛋白质组。 2010; 9: 6354-6367