蛋白质识别的推论和验证

  • 曼弗雷德·克莱森
    一致
    应该解决对应的通信。 Manfred Claassen,116室,大厦1A,计算机科学系,斯坦福大学,斯坦福大学,CA 94305-9010。电话:650-735-3805;传真:650-725-1449;
    隶属关系
    计算机科学系,斯坦福大学,斯坦福,加利福尼亚州
    搜索本作者的文章
      发现或霰弹枪蛋白质组学出现是全面地映射蛋白质组的最强大的技术。从原始质谱数据重建蛋白质标识构成任何霰弹枪蛋白质组学工作流程的基石。质谱数据的固有不确定度及蛋白质组的复杂性呈现蛋白质推理和蛋白质识别的统计验证是一种非琐碎的任务,仍然是正在进行的研究的主题。本综述旨在调查不同概念方法,以对推断和统计验证蛋白质标识的不同任务,并讨论其对蛋白质组勘探范围的影响。

      语境

       霰弹枪蛋白质组学中的蛋白质推断

      霰弹枪蛋白质组学方法使生物学家能够在单个样品的质谱测量中识别成千上万的蛋白质。这种方法从其名称中借用,该捕获量测序方法从序列随机DNA片段重建全基因组(
      • Fleischmann R.D.
      • 亚当斯M.D.
      • 白o.
      • 克莱顿r.a.
      • kirkness e.f.
      • Kerlavage A.r.
      • Bult C.J.
      • 墓J.F.
      • dougherty b.a.
      • Merrick J.m.
      • McKenney K.
      • 萨顿G.
      • Fitzhugh W.
      • 领域C.
      • Gocayne J.D.
      • 斯科特J.
      • 雪莉R.
      • Liu L.-l.
      • PLODEK A.
      • Kelley J.m.
      • Weidman J.f.
      • 菲利普斯C.A.
      • Spriggs T.
      • Hedblom E.
      • 棉花M.D.
      • 彻底侵回。
      • 汉娜米尔。
      • nguyen d.t.
      • saudek d.m.
      • 布兰登R.C.
      • 罚款L.D.
      • 弗提曼J.L.
      • Fuhrmann J.L.
      • Geoghagen N.S.M.
      • gnehm c.l.
      • 麦当劳L.A.
      • 小K.v.
      • 弗雷泽下午
      • 史密斯H.O.
      • venter J.C.
      全基因组随机测序和血均流感RD的组装。
      )。霰弹枪蛋白质组学方法在蛋白质片段的水平下运行, IE。 重建生物样品中存在的蛋白质的集合(
      • 狩猎d.f.
      • yates 3rd,J.R.
      • Shabanowitz J.
      • 温斯顿S.
      • Hauer C.R.
      通过串联质谱法测序蛋白质测序。
      )两种方法都实施了一个普遍存在的计算机科学的分歧和征服战略, IE。 通过将其突破到许多相关的简单任务来解决一项艰巨的任务(
      • Cormen T.H.
      )。从简单的任务的重建困难的任务的解决方案通常是不变的。肽的方便物理化学特性使得获取关于短蛋白质片段的信息数据“简易”任务。霰弹枪蛋白质组学方法的破坏性质虽然将挑战转移到该数据的蛋白质标识的计算重建。
      霰弹枪蛋白质组学工作流程包括三个主要步骤。首先,从生物样品中萃取蛋白质,然后酶促消化它们以产生肽的复合系数。根据物理/化学性质任选地进一步分级蛋白质和/或肽系列。其次,串联质谱用于样品并鉴定所得合并中存在的单个肽物种,并且最终回收最初存在于生物样品中的蛋白质组。复杂蛋白质或肽混合物的质谱分析包括第一步寄存的两步扫描程序 m/z 混合物的所有肽种类的比例,然后选择,分离和碎片这些物种之一,并记录所得的片段离子谱(
      • MLEFFERTY F.W.
      串联质谱。
      ,
      • Zubarev R.A.
      • 喇叭d.m.
      • Fridriksson E.K.
      • Kelleher N.L.
      • 克鲁格N.A.
      • Lewis M.A.
      • 木匠B.K.
      • MLEFFERTY F.W.
      电子捕获解离用于繁殖蛋白质阳离子的结构表征。
      ,
      • Syka J.E.
      • Coon J.J.
      • Schroeder M.J.
      • Shabanowitz J.
      • 狩猎d.f.
      通过电子转移解离质谱法分析肽和蛋白质序列分析。
      )。第三,肽片段离子光谱定义数据以执行推论, IE。 推断最初存在于生物样品中的蛋白质。推断传统上涉及两个步骤,肽谱匹配和蛋白质推理(
      • nesvizhskii a.i.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
      )。肽光谱匹配是指将每个片段离子光谱分配,该肽序列最能解释其信号。蛋白质推断从第一步中获得的肽光谱匹配重建蛋白质组合物。近较少广泛使用的方法模糊了两步设置,通过重建蛋白质直接来自质谱法,而不产生肽光谱匹配或同时将肽与光谱和推断蛋白质相匹配(
      • 沉C.
      • 王Z.
      • Shankar G.
      • 张X.
      • Li L.
      评估肽和蛋白质推断的分层统计模型,从串联质谱中推断出肽和蛋白质的置信度。
      )。
      肽光谱匹配是一种任务,该任务承认作为输入的片段离子谱,并且由根据合适的物理函数(得分)来找到与输入的肽序列最佳匹配(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      )。目标函数对我们对肽及其片段离子光谱之间的关系进行了解,并且应该区分从所有其他肽的输入光谱产生的肽。找到一个良好的目标函数是不动的,因为肽的碎片仅被部分地理解(
      • Wysocki V.H.
      • TSAPRAILIS G.
      • 史密斯L.L.
      • 布雷西L.A.
      移动和局部质子:理解肽解离的框架。
      此外,从复合肽混合物产生的片段离子光谱是嘈杂的, IE。 片段信号受统计波动(
      • Tabb D.L.
      • 史密斯L.L.
      • 布雷西L.A.
      • Wysocki V.H.
      • 林D.
      • yates 3rd,J.R.
      双电荷胰蛋白肽离子捕集串联质谱的统计表征。
      )并与来自富集的靶肽以外的部分的信号卷曲(
      • Michalski A.
      • Cox J.
      在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
      )。一些作品最近采用了目的函数,即另外考虑肽可检测性。这些延伸基于期望在考虑到关于蛋白质丰度分布和肽电离特性的先验知识的生物样本中观察生物样本中的特定肽(
      • Mallick P.
      • Schirle M.
      • 陈氏
      • 浮动M.R.
      • 李H.
      • 马丁D.
      • ranish J.
      • 骑B.
      • 施密特R.
      • Werner T.
      • Kuster B.
      • Aeberberold R.
      蛋白质蛋白肽对定量蛋白质组学的计算预测。
      ,
      • 李玉..
      • 阿诺德r.j.
      • 唐H.
      • Radivojac P.
      MS / MS蛋白质组学中蛋白质鉴定,定量和实验设计的肽可检测性的重要性。
      )。大多数肽光谱匹配方法独立地处理每个片段离子光谱。在第一步中,产生一组合适的候选肽 德诺维 (
      • 泰勒J.A.
      • 约翰逊R.S.
      通过串联质谱法自动化DE Novo肽测序的实施和用途。
      ,
      • 张克。
      • Hendrie C.
      • 梁C.
      • 李米
      • Doherty-kiby A.
      • Lajoie G.
      峰值:通过串联质谱法进行肽De Novo测序的强大软件。
      ,
      • 弗兰克A.
      • Pevzner P.
      Pepnovo:通过概率网络造型进行Novo肽测序。
      ,
      • Fischer B.
      • 罗斯V.
      • Roos F.
      • 格罗斯曼J.
      • Baginsky S.
      • Widmayer P.
      • Gruissem W.
      • Buhmann J.m.
      Novohmm:一种隐马尔可夫模型,用于脱酚肽测序。
      )或从序列数据库(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ,
      • 威尔m。
      肽序列标签序列数据库中肽鉴定耐腐蚀鉴定。
      )。每个候选者对片段离子光谱进行评分。据报道,顶部评分候选肽与片段离子谱一起报告为肽光谱匹配。肽谱匹配过去已经过度研究和审查。有关更全面的概述,请参阅 例如 (
      • nesvizhskii a.i.
      霰弹枪蛋白质组学中肽和蛋白质鉴定的计算方法和误差率估算程序调查。
      )。

      解决方案

       蛋白推断方法

      蛋白质推断构成肽光谱匹配后的第二步,并且简单地,通常将肽光谱与输入匹配,并且编译一组最佳代表鉴定的肽的蛋白质鉴定。蛋白推断任务特定于霰弹枪蛋白质组学设置(
      • nesvizhskii a.i.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
      )。酶促消化蛋白质进入肽的促进样品处理并显着提高产量。这些益处以减少蛋白质产生鉴定肽中的哪种信息的成本。对于源自各种生物的复杂蛋白质或蛋白质蛋白组的混合物( IE。 传染病,微生物社区)肽谱匹配可以模糊地映射到几种蛋白质条目, 例如 蛋白质剪接变体或高度保守的序列在正交蛋白中延伸。蛋白质推理方法旨在消除这些比赛,并以各种方式实施。
      已经提出了不同的数据输入类型和分析程序进行蛋白质推理。许多方法从从数据库搜索所获得的肽谱匹配的静态列表开始(
      • 玛特L.
      • Hermjakob H.
      • 琼斯P.
      • Adamski M.
      • 泰勒C.
      • D.
      • Gevaert K.
      • vandekerckhove J.
      • APWEILER R.
      骄傲:蛋白质组学识别数据库。
      ,
      • 布伦纳E.
      • Ahrens C.H.
      • Mohanty S.
      • Baetschmann H.
      • Loevenich S.
      • Potthast F.
      • 德意曲e.w.
      • 泛C.
      • de lichtenberg U.
      • rinner o.
      • 李H.
      • Pedrioli P.G.
      • Malmstrom J.
      • koehler K.
      • Schripmf S.
      • Krijgsveld J.
      • Kregenow F.
      • Heck A.J.
      • Hafen E.
      • Schlapbach R.
      • Aeberberold R.
      果蝇蛋黄油蛋白酶蛋白质组的高质量目录。
      ,
      • Baerenfaller K.
      • 格罗斯曼J.
      • 格罗贝米。
      • 赫尔R.
      • Hirsch-Hoffmann M.
      • Yalovsky S.
      • Zimmermann P.
      • Grossniklaus U.
      • Gruissem W.
      • Baginsky S.
      基因组型蛋白质组学揭示了拟南芥基因模型和蛋白质组动力学。
      ,
      • Schripmf S.P.
      • Weiss M.
      • 重新勒
      • Ahrens C.H.
      • Jovanovic M.
      • MalmströmJ.
      • 布伦纳E.
      • Mohanty S.
      • Lercher M.J.
      • hunziker p.e.
      • Aeberberold R.
      • von mering c.
      • Hengartner M.O.
      Caenorhabdisegis和果蝇蛋黄油蛋白酶蛋白质的比较功能分析。
      ,
      • 国家D.J.
      • OPENN G.S.
      • Blackwell T.W.
      • 费尔明D.
      • ENG J.
      • Speicher D.W.
      • 汉尚三
      从Hupo血浆蛋白质组织协作研究中收集的数据衍生高信心蛋白质标识的挑战。
      ,
      • 张B.
      • Chambers M.C.
      • Tabb D.L.
      蛋白质组学分析通过双链图分析提高了准确性和透明度。
      )。概率方法重新筛选肽谱匹配并基于指向同一蛋白质的兄弟姐妹的存在或不存在来重新扫描这些(
      • nesvizhskii a.i.
      • 凯勒阿。
      • Kolker E.
      • Aeberberold R.
      用串联质谱法鉴定蛋白质的统计模型。
      ,
      • Eriksson J.
      • Fenyöd。
      概率:蛋白质识别算法,准确分配结果的统计学意义。
      ,
      • Senang O.
      • maccoss m.j.
      • 贵族W.S.
      高效边缘化以从霰弹枪质谱数据计算蛋白质后验概率。
      ,
      • Sadygov R.G.
      • 刘H.
      • yates j.r.
      使用串联质谱数据和蛋白质氨基酸序列数据库的蛋白质验证的统计模型。
      )。其他方法通过联合拟合概率模型来在单个步骤中进行推断,以同时建立肽谱匹配和蛋白质识别(
      • 沉C.
      • 王Z.
      • Shankar G.
      • 张X.
      • Li L.
      评估肽和蛋白质推断的分层统计模型,从串联质谱中推断出肽和蛋白质的置信度。
      )。为了从多个数据库搜索引擎中受益,最近提出的方法从非冗余肽列表中执行蛋白质推断(
      • Shteynberg D.
      • 德意曲e.w.
      • 林H.
      • ENG J.K.
      • 太阳Z.
      • 塔斯曼N.
      • 门多萨L.
      • 莫里茨R.L.
      • Aeberberold R.
      • nesvizhskii a.i.
      iProShet:霰弹枪蛋白质组学数据的多层次一体化分析改善了肽和蛋白质识别率和误差估计。
      )。光谱对齐方法采用特殊位置并从原始质谱数据中开始关闭 德诺维 通过对准重叠肽的片段离子光谱来组装(部分)蛋白序列,而不诉诸序列数据库(
      • Bandeira N.
      • 克劳瑟K.R.
      • PEVZNER P.A.
      霰弹枪蛋白测序:从改性蛋白质的混合物中组装肽串联质谱。
      )。
      蛋白质推理的主要挑战包括处理肽光谱与蛋白质数据库中的几种蛋白质条目差异映射。每种方法通过定义蛋白质识别的不同概念来解决这个问题。第一类蛋白推断方法将肽光谱匹配回到一组模糊的蛋白质条目,其由先验分组蛋白质同种型定义或报告每组同种型的一个代表性变体(
      • 玛特L.
      • Hermjakob H.
      • 琼斯P.
      • Adamski M.
      • 泰勒C.
      • D.
      • Gevaert K.
      • vandekerckhove J.
      • APWEILER R.
      骄傲:蛋白质组学识别数据库。
      ,
      • 布伦纳E.
      • Ahrens C.H.
      • Mohanty S.
      • Baetschmann H.
      • Loevenich S.
      • Potthast F.
      • 德意曲e.w.
      • 泛C.
      • de lichtenberg U.
      • rinner o.
      • 李H.
      • Pedrioli P.G.
      • Malmstrom J.
      • koehler K.
      • Schripmf S.
      • Krijgsveld J.
      • Kregenow F.
      • Heck A.J.
      • Hafen E.
      • Schlapbach R.
      • Aeberberold R.
      果蝇蛋黄油蛋白酶蛋白质组的高质量目录。
      ,
      • Baerenfaller K.
      • 格罗斯曼J.
      • 格罗贝米。
      • 赫尔R.
      • Hirsch-Hoffmann M.
      • Yalovsky S.
      • Zimmermann P.
      • Grossniklaus U.
      • Gruissem W.
      • Baginsky S.
      基因组型蛋白质组学揭示了拟南芥基因模型和蛋白质组动力学。
      ,
      • Schripmf S.P.
      • Weiss M.
      • 重新勒
      • Ahrens C.H.
      • Jovanovic M.
      • MalmströmJ.
      • 布伦纳E.
      • Mohanty S.
      • Lercher M.J.
      • hunziker p.e.
      • Aeberberold R.
      • von mering c.
      • Hengartner M.O.
      Caenorhabdisegis和果蝇蛋黄油蛋白酶蛋白质的比较功能分析。
      ,
      • 国家D.J.
      • OPENN G.S.
      • Blackwell T.W.
      • 费尔明D.
      • ENG J.
      • Speicher D.W.
      • 汉尚三
      从Hupo血浆蛋白质组织协作研究中收集的数据衍生高信心蛋白质标识的挑战。
      )。该优先考虑有效消除蛋白质数据库,因此允许明确地将肽光谱与各组匹配匹配。这种方法甚至在没有解决这些歧义的成本中,这种方法仍然可能与同种型歧视相关的歧视,即使在足够的信息数据的情况下也是如此。第二类蛋白推断方法定义了蛋白质组的后验序, IE。 考虑到获得的频谱数据的组。具体地,每个肽鉴定与其支持的蛋白质条目相关联。这些方法的目标是将此列表总结到一个案例中, IE。 解释所有肽鉴定的最小蛋白质组列表(
      • nesvizhskii a.i.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
      )。概率方法将每种肽鉴定分配给具有最高后概率的蛋白质进入(或一组嵌入蛋白质)(
      • nesvizhskii a.i.
      • 凯勒阿。
      • Kolker E.
      • Aeberberold R.
      用串联质谱法鉴定蛋白质的统计模型。
      ,
      • 格尔特S.
      • QELI E.
      • Ahrens C.H.
      • Buhlmann P.
      基于K-PartiTe图中统计建模的蛋白质和基因模型推断。
      ,
      • 李玉..
      • 阿诺德r.j.
      • 李Y.
      • Radivojac P.
      • 盛Q.
      • 唐H.
      霰弹枪蛋白质组学蛋白推断问题的贝叶斯探讨。
      )。在预测的肽毒理的基础上(
      • 唐H.
      • 阿诺德r.j.
      • alves p.
      • Xun Z.
      • CLEMMER D.E.
      • Novotny M.v.
      • 莱利J.P.
      • Radivojac P.
      使用预测肽可检测性的无标记蛋白质定量的计算方法。
      ),阿尔维斯 等等。 通过相对于预期的诸如未观察的肽的蛋白质标识来增强这种方法(
      • 李玉..
      • 阿诺德r.j.
      • 李Y.
      • Radivojac P.
      • 盛Q.
      • 唐H.
      霰弹枪蛋白质组学蛋白推断问题的贝叶斯探讨。
      ,
      • alves p.
      • 阿诺德r.j.
      • Novotny M.v.
      • Radivojac P.
      • 莱利J.P.
      • 唐H.
      使用肽可检测性来自霰弹枪蛋白质组学的蛋白质推进。
      )。其他方法将分析约束制定为集合涵盖问题(
      • Koskinen V.R.
      • emery p.a.
      • 皱褶D.M.
      • Cottrell J.s.
      霰弹枪蛋白质组学数据的分层聚类。
      ,
      • 杨X.
      • Dondeti V.
      • Dezube R.
      • Maynard D.M.
      • geer l.y.
      • 爱普斯坦J.
      • 陈X.
      • 马克S.P.
      • Kowalak J.A.
      DBParser:用于霰弹枪蛋白质组学数据分析的基于Web的软件。
      )或作为二分的图分析(
      • 马Z.Q.
      • Dasari S.
      • Chambers M.C.
      • Litton M.D.
      • sobecki s.m.
      • Zimmerman L.J.
      • alvey p.j.
      • 席克宁B.
      • 德雷克下午
      • 吉布森B.W.
      • Tabb D.L.
      Idpicker 2.0:改进了具有高辨别肽识别过滤的蛋白质组件。
      )。这些方法代表了每个蛋白质,作为一组肽,它们可以在霰弹枪蛋白质组学实验中产生,然后寻求找到肽组包含(覆盖)由光谱数据支持的所有肽的最小蛋白质清单。最近的方法进一步定义了具有更丰富的分层结构的蛋白质组,以更好地引导用户消除歧义的退化蛋白质识别(
      • Koskinen V.R.
      • emery p.a.
      • 皱褶D.M.
      • Cottrell J.s.
      霰弹枪蛋白质组学数据的分层聚类。
      )。鉴于足够辨别的数据,这类方法能够解决与具有共同肽鉴定的蛋白质有关的明显歧义。除了应用上述蛋白质推理方法之一外,常见的做法是排除可能不可靠的蛋白质标识,例如 例如 单次达到蛋白质标识。关于这种后处理是否增强了蛋白质推理,有相当大的辩论(
      • Gupta n。
      • PEVZNER P.A.
      蛋白质识别的假发现率:对双肽规则的罢工。
      ,
      • 格罗贝米。
      • QELI E.
      • 布伦纳E.
      • rehrauer h.
      • 张R.
      • Roschitzki B.
      • 巴斯勒K.
      • Ahrens C.H.
      • Grossniklaus U.
      霰弹枪蛋白质组学数据的确定性蛋白质推断为拟南芥花粉发育和功能提供了新的见解。
      )。后一种方法可能会错过蛋白质标识,其被先验分组方案或分析约束被错误地丢弃。 Farrah而不是消除暧昧的肽鉴定而不是消歧 等等。 报告与光谱数据一致的所有蛋白质(
      • Farrah T.
      • 德意曲e.w.
      • OPENN G.S.
      • 坎贝尔D.S.
      • 太阳Z.
      • Bletz J.A.
      • Mallick P.
      • 凯茨J.E.
      • MalmströmJ.
      • Ossola R.
      • 瓦特J.D.
      • 林B.
      • 张H.
      • 莫里茨R.L.
      • Aeberberold R.
      具有估计含量浓度的高信心人血浆蛋白质组参考。
      )。为了能够对生物样本中的蛋白质发生的发生陈述,本研究的作者介绍了蛋白质鉴定的雪松方案。该方案定义了五种蛋白质识别类型的层次,其特征在于它们支持肽鉴定的模糊性。这种方法允许用户利用霰弹枪蛋白质组学数据集,同时明确地核对所有蛋白质鉴定歧义。
      对于实验主义者,鉴于许多可用的蛋白质推理变体,难以为他/她的应用选择合适的蛋白质推理方法。虽然该决定的标准通常取决于具体的应用方案,但典型的目标是最大化真正蛋白质标识的数量,同时保持伪蛋白质识别的数量低。上面讨论的许多发展旨在为改善这一目标提供实证支持。然而,由于缺乏申请情景,一般性结论难以困难。理想情况下,蛋白质推理方法的选择是由一系列竞争方法的特定基准引导,相对于他们实现指定目标的能力(
      • Claassen M.
      • 重新勒
      • Hengartner M.O.
      • Buhmann J.m.
      • Aeberberold R.
      蛋白质推理发动机的通用比较。
      )。以下部分将通过审查尺寸杂散蛋白质标识的方法来解决此问题,影响本计数的因素,以及关于如何根据这些调查结果报告蛋白质标识的结论备注。

      验证

       蛋白质标识的假发现率

      蛋白质标识并不完美。这种观察结果主要与寄生肽光谱的发生有关。当顶级候选候选者不是相应的片段离子光谱的来源时出现伪正肽光谱匹配。这些事件主要归因于与肽碎片过程的近似编码相关的分数中的缺陷以及片段离子光谱中缺乏信息, 例如 就缺乏片段离子而言。
      重要的是控制鉴定的肽的汇编及其推断的蛋白质的肽谱匹配的质量。已经设计了各种统计方法来控制不同的肽谱匹配不确定性的措施,因此错误的发现率是最有用的,因为它占多次​​测试(
      • Benjamini Y.
      • Hochberg Y.
      控制虚假发现率:多次测试的实用和强大的方法。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )。在肽光谱匹配的背景下,假发现率对应于假阳性匹配的预期分数。可以追求三条路线来估计一组肽谱匹配的假发现率。错误的发现率可以衍生自 p 与每种肽谱匹配相关的值被认为是重要的(
      • Benjamini Y.
      • Hochberg Y.
      控制虚假发现率:多次测试的实用和强大的方法。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )。分数标准化的电子值校准方法允许我们将这种方法应用于已用多个搜索引擎进行分析的数据集(
      • alves g。
      • Ogurtsov A.Y.
      • wu w.w.
      • 王G.
      • 沉R.F.
      • yu y.k.
      校准MS2数据库搜索方法的电子值。
      )。这种对错误发现速率估计的方法很有效 p 可以准确计算值(
      • Gupta n。
      • Bandeira N.
      • 克里奇u.
      • PEVZNER P.A.
      目标 - 诱饵方法和假发现率:当事情可能出错时。
      )。虽然很少见到这个要求(
      • 金斯。
      • Gupta n。
      • PEVZNER P.A.
      串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
      )。可以从真假阳性肽谱匹配的得分分布估算错误发现率(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )。这种混合分布必须在无监督的情况下学习,因为任何匹配都不知道是否匹配是真或假阳性的信息。此任务已成功实施 例如 PeptideProphet (
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )通过诉诸预期最大化(
      • Dempster A.P.
      • 莱尔德N.M.
      • 鲁宾D.B.
      通过EM算法不完全数据的最大可能性。
      )。最近,目标 - 诱饵策略变得非常受欢迎,以估计肽谱匹配错误发现率(
      • 摩尔里。
      • 年轻的M.K.
      • lee t.d.
      QScore:一种评估续集数据库搜索结果的算法。
      )。除了所研究的生物体的(靶标)蛋白质数据库之外,还搜索具有非义蛋白序列的诱饵数据库。映射到诱饵数据库的肽谱的数量是估计的误差匹配的数量。如果诱饵数据库与目标数据库类似,那么我们期望误匹配统一分发目标和诱饵数据库。伊莱亚斯 等等。 已经表明,颠倒的伪颠倒以及加扰数据库同样适用于诱饵数据库,特别是确保假阳性匹配的均匀分布(
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
      )。其简约和通用适用性使目标诱饵策略成为一种吸引人的替代方法来估算肽谱匹配的假发现率。
      通常,蛋白质鉴定代替肽谱比赛是霰弹枪蛋白质组学研究的生物相关结果。因此,非常希望控制蛋白质鉴定水平的霰弹枪蛋白质组学研究的质量。蛋白质鉴定的统计验证长期以来等同于肽谱匹配的统计验证(Fig. 1)。然而,事实证明,肽光谱匹配水平的误差以非活动方式传播到蛋白质识别的水平(
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )。因此,蛋白质识别率的假发现率的估计需要与肽谱验证的验证不同的方法,并且仍然是正在进行的研究的主题。
      图缩略图GR1.
      Fig. 1霰弹枪蛋白质组学中数据分析任务概述。 推理任务包括将肽序列分配给片段离子谱(肽光谱匹配)和组装肽光谱与蛋白质相同(蛋白质推理)组装。验证任务包括估算诸如伪发现率(FDR)的置信度测量,肽谱匹配和分别对该组蛋白质标识。这些任务的解决方案需要不同的任务特定方法。特别地,蛋白质鉴定的FDR估计程序与肽光谱匹配的FDR估计程序不同。
      已经进行了几次尝试来控制蛋白质识别误差率。许多方法估计蛋白质识别的概率是错误的肽谱匹配的各自概率(
      • nesvizhskii a.i.
      • 凯勒阿。
      • Kolker E.
      • Aeberberold R.
      用串联质谱法鉴定蛋白质的统计模型。
      ,
      • Eriksson J.
      • Fenyöd。
      概率:蛋白质识别算法,准确分配结果的统计学意义。
      ,
      • Sadygov R.G.
      • 刘H.
      • yates j.r.
      使用串联质谱数据和蛋白质氨基酸序列数据库的蛋白质验证的统计模型。
      ,
      • 价格T.S.
      • 露丝特M.B.
      • 吴W.
      • 奥斯汀D.J.
      • Pizarro A.
      • yocum a.k.
      • 布莱尔I.A.
      • Fitzgerald G.A.
      • 格雷特T.
      EBP,使用多个串联质谱数据集进行蛋白质识别程序。
      )。然而,事实证明,这种估计对单个肽光谱匹配的概率估计的准确性敏感。由于这些估计对于肽谱匹配特别困难,因此在大型数据集中引起单击奇迹的匹配,因此这些方法不会与数据集大小进行很好展示(
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )另一种方法估计假设假肽谱匹配根据蛋白质数据库的泊松分布分布的错误蛋白质标识的数量(
      • 国家D.J.
      • OPENN G.S.
      • Blackwell T.W.
      • 费尔明D.
      • ENG J.
      • Speicher D.W.
      • 汉尚三
      从Hupo血浆蛋白质组织协作研究中收集的数据衍生高信心蛋白质标识的挑战。
      ,
      • Senang O.
      • maccoss m.j.
      • 贵族W.S.
      高效边缘化以从霰弹枪质谱数据计算蛋白质后验概率。
      )。根据针对单次蛋白质标识的不同假设的选择,该策略为蛋白质误差率提供了或多或少的乐观估计。如肽谱比赛所述,天真的目标 - 诱饵方法估算蛋白质鉴定假发现速率, IE。 通过估计具有诱饵识别数量的假阳性蛋白质标识的数量(
      • 张B.
      • Chambers M.C.
      • Tabb D.L.
      蛋白质组学分析通过双链图分析提高了准确性和透明度。
      ,
      • Gupta n。
      • PEVZNER P.A.
      蛋白质识别的假发现率:对双肽规则的罢工。
      ,
      • 价格T.S.
      • 露丝特M.B.
      • 吴W.
      • 奥斯汀D.J.
      • Pizarro A.
      • yocum a.k.
      • 布莱尔I.A.
      • Fitzgerald G.A.
      • 格雷特T.
      EBP,使用多个串联质谱数据集进行蛋白质识别程序。
      ,
      • nesvizhskii a.i.
      • Vitek O.
      • Aeberberold R.
      串联质谱法产生的分析与验证蛋白质组学数据。
      )事实证明,诱饵蛋白质鉴定的数量是“混合”蛋白质鉴定的估计, IE。 两者都支持正确的识别和不正确的肽谱匹配。因为单个正确的支持肽光谱匹配使蛋白质鉴定为真,所以“混合”蛋白质鉴定的数量通常不能等同于误蛋白质鉴定的数量。实际上,假蛋白质鉴定的数量可能小于“混合”蛋白质鉴定的数量。因此,天真的目标 - 诱饵方法结果是实现过于悲观的错误率(
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )。梅苏方法通过超越模型将目标诱发策略适应蛋白质推理任务,该模型也占“混合”蛋白质鉴定的发生。超越模型正式化并利用观察结果,即“混合”蛋白质标识的数量的统计数据类似于来自有两种球的URN的抽出( 例如 黑和白)。在该类比中,第一类型的球代表存在正确支持的蛋白质条目,而其他类型表示底层蛋白质数据库的所有其他条目。 Mayu已经显示出准确,独立验证的蛋白质识别假发现率,用于一系列不同的数据集,其尺寸不同,底部蛋白质组和实验设置(
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )并作为额外的特征添加到peptidarlas(
      • Farrah T.
      • 德意曲e.w.
      • OPENN G.S.
      • 坎贝尔D.S.
      • 太阳Z.
      • Bletz J.A.
      • Mallick P.
      • 凯茨J.E.
      • MalmströmJ.
      • Ossola R.
      • 瓦特J.D.
      • 林B.
      • 张H.
      • 莫里茨R.L.
      • Aeberberold R.
      具有估计含量浓度的高信心人血浆蛋白质组参考。
      )。
      目前蛋白质鉴定的统计验证方法假定错误的肽光谱与错误蛋白质鉴定的单一来源。在具有重叠序列的复杂蛋白质部分的上下文中,这种假设在具有重叠序列的蛋白质条目中的情况下,不能保持真实,例如蛋白质同种型或剪接变体。将模糊肽光谱与单个蛋白质分配的蛋白质推理方法可能患有正确的肽光谱匹配与不正确的蛋白质标识相关的事件。这些事件在蛋白质推理过程中构成了额外的误差来源。据我们所知,仍然没有公布的方法来估计这些微妙误差的频率,从而构成了未来研究的相关和有趣的目标。根据所选的靶向蛋白质组学方法,如选定的反应监测(
      • Picotti P.
      • Bodenmiller B.
      • 穆勒L.N.
      • Domon B.
      • Aeberberold R.
      靶影科酿酒酵母的全动态范围蛋白质组分析。
      [还可以想到,通过特异性提供额外的信息实验数据,将可靠地解决蛋白质身份的可靠歧义。

      蛋白质推论在实践中

       数据集和数据库大小物质

      用于肽谱匹配和蛋白推断的数据库的大小影响蛋白质识别错误的发现率。在肽光谱匹配和不变滤波器标准的水平上,较大的蛋白质数据库有助于更加混乱的肽序列,导致较大量的伪肽光谱比赛。需要更严格的过滤条件,抵消这种趋势并实现可接受的置信水平。更严格的过滤条件虽然以增加假负率的成本, IE。 增加了达到阈值分数以下的正确肽光谱的数量。除此之外,蛋白质数据库的大小还通过另一种机制影响蛋白质推理性能。通过考虑不正确的肽光谱匹配的行为,可以看出这种现象,随机地绘制到蛋白质数据库的某些条目。数据库的条目越多,不正确的肽谱匹配将映射到新的,到目前为止的无支持蛋白质进入,从而产生假阳性蛋白质鉴定(Fig. 2)。这些趋势在一起强烈倡导更喜欢小蛋白质数据库,特别是排除罕见的蛋白质条目。
      图缩略图GR2.
      Fig. 2肽谱匹配与蛋白质鉴定之间的误差关系。 数据集和数据库规模对肽谱匹配和蛋白质鉴定的假发现率差异的影响。蛋白质数据库条目用作彩色圆圈。真/假肽谱匹配(PSM)被描绘为 绿色/红盘。真正的蛋白质标识(PID)由至少一个正确的肽谱匹配并用复选标记标记。数据集或数据库大小越大,肽谱匹配水平(PSM)和蛋白质识别(PID)越明显差异越明显。对于大型数据集,表观蛋白质组覆盖率可以显着偏离真正阳性(TP)蛋白质标识的覆盖范围。
      各种模型生物的成功深度测序项目通过诉诸冗余良好的蛋白质数据库来实现了大量的蛋白质组覆盖率(
      • 布伦纳E.
      • Ahrens C.H.
      • Mohanty S.
      • Baetschmann H.
      • Loevenich S.
      • Potthast F.
      • 德意曲e.w.
      • 泛C.
      • de lichtenberg U.
      • rinner o.
      • 李H.
      • Pedrioli P.G.
      • Malmstrom J.
      • koehler K.
      • Schripmf S.
      • Krijgsveld J.
      • Kregenow F.
      • Heck A.J.
      • Hafen E.
      • Schlapbach R.
      • Aeberberold R.
      果蝇蛋黄油蛋白酶蛋白质组的高质量目录。
      ,
      • Baerenfaller K.
      • 格罗斯曼J.
      • 格罗贝米。
      • 赫尔R.
      • Hirsch-Hoffmann M.
      • Yalovsky S.
      • Zimmermann P.
      • Grossniklaus U.
      • Gruissem W.
      • Baginsky S.
      基因组型蛋白质组学揭示了拟南芥基因模型和蛋白质组动力学。
      ,
      • Schripmf S.P.
      • Weiss M.
      • 重新勒
      • Ahrens C.H.
      • Jovanovic M.
      • MalmströmJ.
      • 布伦纳E.
      • Mohanty S.
      • Lercher M.J.
      • hunziker p.e.
      • Aeberberold R.
      • von mering c.
      • Hengartner M.O.
      Caenorhabdisegis和果蝇蛋黄油蛋白酶蛋白质的比较功能分析。
      ,
      • De Godoy L.M.
      • 奥尔森J.V.
      • Cox J.
      • Nielsen M.L.
      • 哈伯纳N.C.
      • Fröhlichf.
      • Walther T.C.
      综合质谱型蛋白质组定量单倍体与二倍体酵母。
      )。这些研究涵盖了相应序列数据库的50%,表示限制蛋白质数据库大小之间的合理权衡,同时保留足够的多样性以进行全面发现。这些考虑因素在突出组项目中更复杂,其目的是来自霰弹枪蛋白质组学数据的新型基因模型的基因组注释和发现(
      • Castellana N.
      • BAFNA V.
      蛋白质素学学,以发现基因组的完整编码含量:计算视角。
      ,
      • Ansong C.
      • Purvine S.O.
      • Adkins J.N.
      • Lipton M.S.
      • 史密斯r.d.
      蛋白质组织:在基因组注释中由蛋白质组学填充的需求和角色。
      )。这些项目的性质需要使用大序列数据库,该数据库考虑到基因组的所有可能的蛋白质编码区域。各种模型生物的蛋白质研究采用六帧翻译的基因组数据库和表达序列标签(EST)
      使用的缩写是:
      美东时间
      表达序列标签。
      实现这一目标的数据库(
      • Bitton D.A.
      • 史密斯D.L.
      • Connolly Y.
      • Scutt p.j.
      • 米勒C.J.
      集成的质谱管线识别人类基因组中的新型蛋白质编码区。
      ,
      • Desiere F.
      • 德意曲e.w.
      • nesvizhskii a.i.
      • Mallick P.
      • 国王N.L.
      • ENG J.K.
      • Aderem A.
      • 博伊尔R.
      • 布伦纳E.
      • Donohoe S.
      • Fausto N.
      • Hafen E.
      • 引擎盖L.
      • Katze M.G.
      • 肯尼迪K.A.
      • Kregenow F.
      • 李H.
      • 林B.
      • 马丁D.
      • ranish j.a.
      • 罗林斯D.J.
      • Samelson L.E.
      • Shiio Y.
      • 瓦特J.D.
      • Wollscheid B.
      • 赖特M.E.
      • 燕W.
      • 杨L.
      • yi e.c.
      • 张H.
      • Aeberberold R.
      与高通量质谱法获得的肽序列的人类基因组集成。
      ,
      • 费尔明D.
      • 艾伦B.B.
      • Blackwell T.W.
      • Menon R.
      • Adamski M.
      • 徐Y.
      • ulintz p.
      • OPENN G.S.
      • 国家D.J.
      新型基因和基因模型检测蛋白质组学中全基因组开放阅读框分析。
      ,
      • Loevenich S.N.
      • 布伦纳E.
      • 国王N.L.
      • 德意曲e.w.
      • Stein S.E.
      • Consortium Flybase.
      • Aeberberold R.
      • Hafen E.
      果蝇黑素转基司蛋白酶粉刺苜蓿促进使用肽数据来改善粉刺蛋白质组学和基因组注释。
      ,
      • Merrihew G.E.
      • 戴维斯C.
      • ewing b.
      • 威廉姆斯G.
      • KällL.
      • Frewen B.E.
      • 贵族W.S.
      • 绿色P.
      • 托马斯J.H.
      • maccoss m.j.
      使用霰弹枪蛋白质组学的鉴定,确认和校正C. Elegans基因注释。
      )。这种数据库中的肽数量为数十亿的顺序,如果考虑单个氨基酸突变,则在两个数量级进一步增长(
      • Castellana N.
      • BAFNA V.
      蛋白质素学学,以发现基因组的完整编码含量:计算视角。
      )。已经忠实地压缩了这些数据库的几种策略。简单的启发式仅考虑至少平均外显子长度的开放阅读框架。更复杂的无损压缩方法涉及使用外显子数据库图(
      • 坦纳S.
      • NG J.
      • Florea L.
      • 圭龙R.
      • Briggs S.P.
      • BAFNA V.
      使用肽质谱改善基因注释。
      )EST数据库的Bruijn图表表示(
      • 爱德华兹N.J.
      使用ESTS和序列数据库压缩的串联质谱的新肽鉴定。
      )。两个通过数据库搜索方法将实现低误差率(和计算效率)和通过首先自信地识别数据支持的基因组区域的综合发现,并将片段离子光谱映射到子谱酶的综合发现,该子数据库包括用于AB Initio预测基因模型的枚举这个地区的子集(
      • Roos f.f.
      • 雅各布r.
      • 格罗斯曼J.
      • Fischer B.
      • Buhmann J.m.
      • Gruissem W.
      • Baginsky S.
      • Widmayer P.
      PEPSPLICE:缓存有效的搜索算法,用于综合识别串联质谱。
      ,
      • Kuster B.
      • Mortensen P.
      • 安德森J.S.
      质谱允许在大型基因组中直接鉴定蛋白质。
      )。 EST数据库对蛋白质推理的适用性进一步复杂,因为单个基因产物可以映射到几个序列标签,并且通常是非序列(
      • Kuster B.
      • Mortensen P.
      • 安德森J.S.
      质谱允许在大型基因组中直接鉴定蛋白质。
      ,
      • Shafer P.
      • 林D.M.
      • YONA G.
      美东时间 2PROT:将EST序列映射到蛋白质。
      )。数据库和压缩策略的选择可以由相对于有用的最优性标准的基准指导, 例如 用用户定义的蛋白质假发现率的蛋白质鉴定或基因模型发现的数量(
      • Claassen M.
      • 重新勒
      • Hengartner M.O.
      • Buhmann J.m.
      • Aeberberold R.
      蛋白质推理发动机的通用比较。
      )。
      数据集大小对蛋白质识别错误发现率具有重要影响。这种影响与真实阳性肽光谱匹配的不同行为有关。通常,实际存在于蛋白质数据库中表示的一小部分蛋白质,或者至少存在于所研究的生物样品中的质谱仪的动态范围内的水平。因此,真正的肽谱匹配开始冗余地映射到具有生长数据集大小的相同蛋白条目。真正的新蛋白质发现率随数据集大小而减慢。假肽谱匹配不具有这种冗余行为(或至少到显着较低的幅度),从而有助于在各种数据集大小范围内产生的错误新蛋白发现的恒定速率。这些观察结果导致蛋白质假发现率的趋势,数据集大小生长,同时保持肽光谱匹配的假发现速率(Fig. 2)。对于收购以映射到映射完整蛋白质的大数据集,已经观察到这两种类型的错误发现之间的20倍差异(
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )。由于这种显着影响,建议控制蛋白质鉴定水平的较大霰弹枪蛋白质组学实验的质量。
      在旨在广泛的蛋白质组学项目的大型霰弹枪蛋白质组学项目的背景下,期望最小化不仅可以节省资源的实验数量,而且为了保持数据集尺寸小,从而提高蛋白质推断。实验设计旨在通过识别预期产生最佳数据的实验来最小化数据集大小, IE。 最有效地探索蛋白质组。已经追求了四条路线来提出信息实验:(1)已经进行了霰弹枪蛋白质组学实验的先验模拟,以基准进行各种分馏方案。霰弹枪蛋白质组学实验已经被建模为蛋白质和肽水平的连续分馏步骤,以均匀地将物种分成随机疏散的分数,以考虑沿着实验过程中的样品损失。这些模拟表明,蛋白质水平的分离导致蛋白质组覆盖率的比较大于肽水平的分级(
      • Eriksson J.
      • Fenyo D.
      通过蛋白质 - 丰度分布和实验设计提高蛋白质组分析的成功率。
      )。 (2)定向质谱方法采用少量初始霰弹枪蛋白质组学实验,首先识别信息性的MS1前体信号,而第二,以执行特异性地产生所选前体的片段离子光谱的靶向实验(
      • 施密特A.
      • Claassen M.
      • Aeberberold R.
      定向质谱:朝向假设驱动的蛋白质组学。
      ,
      • 施密特A.
      • Gehlenborg N.
      • Bodenmiller B.
      • 穆勒L.N.
      • 坎贝尔D.
      • 穆勒M.
      • Aeberberold R.
      • Domon B.
      复杂肽混合物深度表征的集成,有向质谱方法。
      ,
      • Zerck A.
      • Nordhoff E.
      • Revemann A.
      • Mirgorodskaya E.
      • Suckau D.
      • Reinert K.
      • Lehrach H.
      • Gobom J.
      基于LC-MS / MS的霰弹枪蛋白质组学的前体离子选择迭代策略。
      )。 (3)蛋白质鉴定统计的后验分析已被利用到设计实验,该实验是专门针对不足的鉴定类型,例如在果蝇测序项目的背景下的短和碱性蛋白质(
      • 布伦纳E.
      • Ahrens C.H.
      • Mohanty S.
      • Baetschmann H.
      • Loevenich S.
      • Potthast F.
      • 德意曲e.w.
      • 泛C.
      • de lichtenberg U.
      • rinner o.
      • 李H.
      • Pedrioli P.G.
      • Malmstrom J.
      • koehler K.
      • Schripmf S.
      • Krijgsveld J.
      • Kregenow F.
      • Heck A.J.
      • Hafen E.
      • Schlapbach R.
      • Aeberberold R.
      果蝇蛋黄油蛋白酶蛋白质组的高质量目录。
      )。 (4)最后,蛋白质组覆盖预测方法为自己提供了哪些实验,以便在多维霰弹枪蛋白质组学情景中进行多少次,以最佳地改善蛋白质组覆盖率(
      • Claassen M.
      • Aeberberold R.
      • Buhmann J.m.
      蛋白质组覆盖预测无限马尔可夫模型。
      ,
      • Claassen M.
      • Aeberberold R.
      • Buhmann J.m.
      综合蛋白质组学数据集的蛋白质组覆盖预测。
      )。这些方法在设计霰弹枪蛋白质组学研究中的应用使其更有效,并且如上所述,也更具信息丰富和可靠。

      指导方针

       报告蛋白质标识

      霰弹枪蛋白质组学项目通常旨在全面,精确地重建所研究的生物样品的蛋白质组成。理想情况下,报告的蛋白质鉴定列表应免征杂散鉴定并恰好反映样品蛋白质。这个目标可能无法实现。将蛋白质假发现率固定在合理的低水平( 例如 1%)并询问最大数量的蛋白质识别构成合理的替代目标。
      关于报告蛋白质标识的准则有很大的辩论。刚性指南,如一般排除单击奇迹,在这种情况下是重复的建议。这些刚性指南主要旨在确保报告的鉴定和避免使用错误条目的识别列表的通货膨胀。然而,这些建议忽视了划定目标的第二部分, IE。 以期望的质量最大化识别数量的目的。事实上,最近的研究表明证据表明,保留单击奇迹的证据是有利的,因为这些仍包含许多正确的识别(
      • Gupta n。
      • PEVZNER P.A.
      蛋白质识别的假发现率:对双肽规则的罢工。
      ,
      • Claassen M.
      • 重新勒
      • Hengartner M.O.
      • Buhmann J.m.
      • Aeberberold R.
      蛋白质推理发动机的通用比较。
      ,
      • 重新勒
      • Claassen M.
      • Schripmf S.P.
      • Jovanovic M.
      • 施密特A.
      • Buhmann J.m.
      • Hengartner M.O.
      • Aeberberold R.
      蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
      )。除了这些结果对单击奇迹排除的具体规则外,通过刚性指南缩小避免的重点是易于在内部处理内部处理的复杂蛋白推断方法上遗失 例如 不可靠的单击次命中,但以相同的质量恢复更多的蛋白质标识, IE。 蛋白质假发现率。这些概念考虑激发了简单要求报告蛋白质识别列表的蛋白质假发现率的指导方针,从而留下蛋白质推理方法对实验主义者的选择。

      结论

      蛋白质推理是霰弹枪蛋白质组学中出现的任务,其旨在将后肽光谱与底层蛋白质数据库中的参赛作出映射。由于其概念性的简单性,广度和深度,霰弹枪蛋白质组学可能会继续在蛋白质组学项目的探索性阶段发挥关键作用。因此,蛋白质推理将使蛋白质组学研究人员忙碌一段时间,即消费者或开发人员,以解决一些仍然开放和错综复杂的验证问题。还有很有趣的是,了解在新兴肽中心的质谱基础的蛋白质组学技术以及我们将能够在多大程度上转移霰弹枪蛋白质组学情景中学到的经验教训。

      致谢

      我们感谢Ruedi Aeberberold和Moritze Treeck有用的评论和讨论了本次审查中讨论的主题。

      参考

        • Fleischmann R.D.
        • 亚当斯M.D.
        • 白o.
        • 克莱顿r.a.
        • kirkness e.f.
        • Kerlavage A.r.
        • Bult C.J.
        • 墓J.F.
        • dougherty b.a.
        • Merrick J.m.
        • McKenney K.
        • 萨顿G.
        • Fitzhugh W.
        • 领域C.
        • Gocayne J.D.
        • 斯科特J.
        • 雪莉R.
        • Liu L.-l.
        • PLODEK A.
        • Kelley J.m.
        • Weidman J.f.
        • 菲利普斯C.A.
        • Spriggs T.
        • Hedblom E.
        • 棉花M.D.
        • 彻底侵回。
        • 汉娜米尔。
        • nguyen d.t.
        • saudek d.m.
        • 布兰登R.C.
        • 罚款L.D.
        • 弗提曼J.L.
        • Fuhrmann J.L.
        • Geoghagen N.S.M.
        • gnehm c.l.
        • 麦当劳L.A.
        • 小K.v.
        • 弗雷泽下午
        • 史密斯H.O.
        • venter J.C.
        全基因组随机测序和血均流感RD的组装。
        科学。 1995; 269: 496-512
        • 狩猎d.f.
        • yates 3rd,J.R.
        • Shabanowitz J.
        • 温斯顿S.
        • Hauer C.R.
        通过串联质谱法测序蛋白质测序。
        Proc。 Natl。阿卡。 SCI。美国。 1986; 83: 6233-6237
        • Cormen T.H.
        算法简介。 麻雀, 2009
        • MLEFFERTY F.W.
        串联质谱。
        科学。 1981; 214: 280-287
        • Zubarev R.A.
        • 喇叭d.m.
        • Fridriksson E.K.
        • Kelleher N.L.
        • 克鲁格N.A.
        • Lewis M.A.
        • 木匠B.K.
        • MLEFFERTY F.W.
        电子捕获解离用于繁殖蛋白质阳离子的结构表征。
        肛门。化学。 2000; 72: 563-573
        • Syka J.E.
        • Coon J.J.
        • Schroeder M.J.
        • Shabanowitz J.
        • 狩猎d.f.
        通过电子转移解离质谱法分析肽和蛋白质序列分析。
        Proc。 Natl。阿卡。 SCI。美国。 2004; 101: 9528-9533
        • nesvizhskii a.i.
        • Aeberberold R.
        霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
        摩尔。细胞。蛋白质组学。 2008; 4: 1419-1440
        • 沉C.
        • 王Z.
        • Shankar G.
        • 张X.
        • Li L.
        评估肽和蛋白质推断的分层统计模型,从串联质谱中推断出肽和蛋白质的置信度。
        生物信息学。 2008; 24: 202-208
        • ENG J.K.
        • mccormack a.l.
        • YALES III,J.R.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 2008; 5: 976-989
        • Wysocki V.H.
        • TSAPRAILIS G.
        • 史密斯L.L.
        • 布雷西L.A.
        移动和局部质子:理解肽解离的框架。
        J.质谱。 2000; 35: 1399-1406
        • Tabb D.L.
        • 史密斯L.L.
        • 布雷西L.A.
        • Wysocki V.H.
        • 林D.
        • yates 3rd,J.R.
        双电荷胰蛋白肽离子捕集串联质谱的统计表征。
        肛门。化学。 2003; 75: 1155-1163
        • Michalski A.
        • Cox J.
        在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
        J.蛋白质组。 2011; 10: 1785-1793
        • Mallick P.
        • Schirle M.
        • 陈氏
        • 浮动M.R.
        • 李H.
        • 马丁D.
        • ranish J.
        • 骑B.
        • 施密特R.
        • Werner T.
        • Kuster B.
        • Aeberberold R.
        蛋白质蛋白肽对定量蛋白质组学的计算预测。
        NAT。 Biotechnol。 2007; 25: 125-131
        • 李玉..
        • 阿诺德r.j.
        • 唐H.
        • Radivojac P.
        MS / MS蛋白质组学中蛋白质鉴定,定量和实验设计的肽可检测性的重要性。
        J.蛋白质组。 2010; 9: 6288-6297
        • 泰勒J.A.
        • 约翰逊R.S.
        通过串联质谱法自动化DE Novo肽测序的实施和用途。
        肛门。化学。 2001; 73: 2594-2604
        • 张克。
        • Hendrie C.
        • 梁C.
        • 李米
        • Doherty-kiby A.
        • Lajoie G.
        峰值:通过串联质谱法进行肽De Novo测序的强大软件。
        迅速交流。质谱。 2003; 17: 2337-2342
        • 弗兰克A.
        • Pevzner P.
        Pepnovo:通过概率网络造型进行Novo肽测序。
        肛门。化学。 2005; 77: 964-973
        • Fischer B.
        • 罗斯V.
        • Roos F.
        • 格罗斯曼J.
        • Baginsky S.
        • Widmayer P.
        • Gruissem W.
        • Buhmann J.m.
        Novohmm:一种隐马尔可夫模型,用于脱酚肽测序。
        肛门。化学。 2005; 77: 7265-7273
        • 威尔m。
        肽序列标签序列数据库中肽鉴定耐腐蚀鉴定。
        肛门。化学。 1994; 66: 4390-4399
        • nesvizhskii a.i.
        霰弹枪蛋白质组学中肽和蛋白质鉴定的计算方法和误差率估算程序调查。
        J.蛋白质组学。 2010; 73: 2092-2123
        • 玛特L.
        • Hermjakob H.
        • 琼斯P.
        • Adamski M.
        • 泰勒C.
        • D.
        • Gevaert K.
        • vandekerckhove J.
        • APWEILER R.
        骄傲:蛋白质组学识别数据库。
        蛋白质组学。 2005; 5: 3537-3545
        • 布伦纳E.
        • Ahrens C.H.
        • Mohanty S.
        • Baetschmann H.
        • Loevenich S.
        • Potthast F.
        • 德意曲e.w.
        • 泛C.
        • de lichtenberg U.
        • rinner o.
        • 李H.
        • Pedrioli P.G.
        • Malmstrom J.
        • koehler K.
        • Schripmf S.
        • Krijgsveld J.
        • Kregenow F.
        • Heck A.J.
        • Hafen E.
        • Schlapbach R.
        • Aeberberold R.
        果蝇蛋黄油蛋白酶蛋白质组的高质量目录。
        NAT。 Biotechnol。 2007; 25: 576-583
        • Baerenfaller K.
        • 格罗斯曼J.
        • 格罗贝米。
        • 赫尔R.
        • Hirsch-Hoffmann M.
        • Yalovsky S.
        • Zimmermann P.
        • Grossniklaus U.
        • Gruissem W.
        • Baginsky S.
        基因组型蛋白质组学揭示了拟南芥基因模型和蛋白质组动力学。
        科学。 2008; 320: 938-941
        • Schripmf S.P.
        • Weiss M.
        • 重新勒
        • Ahrens C.H.
        • Jovanovic M.
        • MalmströmJ.
        • 布伦纳E.
        • Mohanty S.
        • Lercher M.J.
        • hunziker p.e.
        • Aeberberold R.
        • von mering c.
        • Hengartner M.O.
        Caenorhabdisegis和果蝇蛋黄油蛋白酶蛋白质的比较功能分析。
        Plos Biol。 2009; 7: e48
        • 国家D.J.
        • OPENN G.S.
        • Blackwell T.W.
        • 费尔明D.
        • ENG J.
        • Speicher D.W.
        • 汉尚三
        从Hupo血浆蛋白质组织协作研究中收集的数据衍生高信心蛋白质标识的挑战。
        NAT。 Biotechnol。 2006; 24: 333-338
        • 张B.
        • Chambers M.C.
        • Tabb D.L.
        蛋白质组学分析通过双链图分析提高了准确性和透明度。
        J.蛋白质组。 2007; 6: 3549-3557
        • nesvizhskii a.i.
        • 凯勒阿。
        • Kolker E.
        • Aeberberold R.
        用串联质谱法鉴定蛋白质的统计模型。
        肛门。化学。 2003; 75: 4646-4658
        • Eriksson J.
        • Fenyöd。
        概率:蛋白质识别算法,准确分配结果的统计学意义。
        J.蛋白质组。 2003; 3: 32-36
        • Senang O.
        • maccoss m.j.
        • 贵族W.S.
        高效边缘化以从霰弹枪质谱数据计算蛋白质后验概率。
        J.蛋白质组。 2010; 9: 5346-5357
        • Sadygov R.G.
        • 刘H.
        • yates j.r.
        使用串联质谱数据和蛋白质氨基酸序列数据库的蛋白质验证的统计模型。
        肛门。化学。 2004; 76: 1664-1671
        • Shteynberg D.
        • 德意曲e.w.
        • 林H.
        • ENG J.K.
        • 太阳Z.
        • 塔斯曼N.
        • 门多萨L.
        • 莫里茨R.L.
        • Aeberberold R.
        • nesvizhskii a.i.
        iProShet:霰弹枪蛋白质组学数据的多层次一体化分析改善了肽和蛋白质识别率和误差估计。
        摩尔。细胞。蛋白质组学。 2011; 10 (//doi.org/10.1074/mcp.M111.007690)
        • Bandeira N.
        • 克劳瑟K.R.
        • PEVZNER P.A.
        霰弹枪蛋白测序:从改性蛋白质的混合物中组装肽串联质谱。
        摩尔。细胞。蛋白质组学。 2007; 6: 1123-1134
        • 格尔特S.
        • QELI E.
        • Ahrens C.H.
        • Buhlmann P.
        基于K-PartiTe图中统计建模的蛋白质和基因模型推断。
        Proc。 Natl。阿卡。 SCI。美国。 2010; 107: 12101-12106
        • 李玉..
        • 阿诺德r.j.
        • 李Y.
        • Radivojac P.
        • 盛Q.
        • 唐H.
        霰弹枪蛋白质组学蛋白推断问题的贝叶斯探讨。
        J.计算Biol。 2009; 16: 1183-1193
        • 唐H.
        • 阿诺德r.j.
        • alves p.
        • Xun Z.
        • CLEMMER D.E.
        • Novotny M.v.
        • 莱利J.P.
        • Radivojac P.
        使用预测肽可检测性的无标记蛋白质定量的计算方法。
        生物信息学。 2006; 22: E481-488
        • alves p.
        • 阿诺德r.j.
        • Novotny M.v.
        • Radivojac P.
        • 莱利J.P.
        • 唐H.
        使用肽可检测性来自霰弹枪蛋白质组学的蛋白质推进。
        太平洋生物划症研讨会。 2007; 12: 409-470
        • Koskinen V.R.
        • emery p.a.
        • 皱褶D.M.
        • Cottrell J.s.
        霰弹枪蛋白质组学数据的分层聚类。
        摩尔。细胞。蛋白质组学。 2011; 10 (M110 003822)
        • 杨X.
        • Dondeti V.
        • Dezube R.
        • Maynard D.M.
        • geer l.y.
        • 爱普斯坦J.
        • 陈X.
        • 马克S.P.
        • Kowalak J.A.
        DBParser:用于霰弹枪蛋白质组学数据分析的基于Web的软件。
        J.蛋白质组。 2004; 3: 1002-1008
        • 马Z.Q.
        • Dasari S.
        • Chambers M.C.
        • Litton M.D.
        • sobecki s.m.
        • Zimmerman L.J.
        • alvey p.j.
        • 席克宁B.
        • 德雷克下午
        • 吉布森B.W.
        • Tabb D.L.
        Idpicker 2.0:改进了具有高辨别肽识别过滤的蛋白质组件。
        J.蛋白质组。 2009; 8: 3872-3881
        • Gupta n。
        • PEVZNER P.A.
        蛋白质识别的假发现率:对双肽规则的罢工。
        J.蛋白质组。 2009; 8: 4173-4181
        • 格罗贝米。
        • QELI E.
        • 布伦纳E.
        • rehrauer h.
        • 张R.
        • Roschitzki B.
        • 巴斯勒K.
        • Ahrens C.H.
        • Grossniklaus U.
        霰弹枪蛋白质组学数据的确定性蛋白质推断为拟南芥花粉发育和功能提供了新的见解。
        Genome Res。 2009; 19: 1786-1800
        • Farrah T.
        • 德意曲e.w.
        • OPENN G.S.
        • 坎贝尔D.S.
        • 太阳Z.
        • Bletz J.A.
        • Mallick P.
        • 凯茨J.E.
        • MalmströmJ.
        • Ossola R.
        • 瓦特J.D.
        • 林B.
        • 张H.
        • 莫里茨R.L.
        • Aeberberold R.
        具有估计含量浓度的高信心人血浆蛋白质组参考。
        摩尔。细胞。蛋白质组学。 2011; 10 (//doi.org/10.1074/mcp.M110.006353)
        • Claassen M.
        • 重新勒
        • Hengartner M.O.
        • Buhmann J.m.
        • Aeberberold R.
        蛋白质推理发动机的通用比较。
        摩尔。细胞。蛋白质组学。 2012; 11 (//doi.org/10.1074/mcp.O110.007088)
        • Benjamini Y.
        • Hochberg Y.
        控制虚假发现率:多次测试的实用和强大的方法。
        J. Roy。统计SOC。 1995; 57: 289-300
        • Storey J.D.
        • Tibshirani R.
        基因组研究的统计学意义。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 9440-9445
        • alves g。
        • Ogurtsov A.Y.
        • wu w.w.
        • 王G.
        • 沉R.F.
        • yu y.k.
        校准MS2数据库搜索方法的电子值。
        BIOL。直接的。 2007; 2: 26
        • Gupta n。
        • Bandeira N.
        • 克里奇u.
        • PEVZNER P.A.
        目标 - 诱饵方法和假发现率:当事情可能出错时。
        J.IM。 SOC。质谱。 2011; 22: 1111-1120
        • 金斯。
        • Gupta n。
        • PEVZNER P.A.
        串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
        J.蛋白质组。 2008; 7: 3354-3363
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • Dempster A.P.
        • 莱尔德N.M.
        • 鲁宾D.B.
        通过EM算法不完全数据的最大可能性。
        J. Roy。统计SOC。 1977; 39: 1-38
        • 摩尔里。
        • 年轻的M.K.
        • lee t.d.
        QScore:一种评估续集数据库搜索结果的算法。
        J.IM。 SOC。质谱。 2002; 13: 378-386
        • eliasj.e.
        • Gygi S.P.
        目标 - 诱饵搜索策略通过质谱法对大规模蛋白质鉴定的置信度提高。
        NAT。方法。 2007; 4: 207-214
        • 重新勒
        • Claassen M.
        • Schripmf S.P.
        • Jovanovic M.
        • 施密特A.
        • Buhmann J.m.
        • Hengartner M.O.
        • Aeberberold R.
        蛋白质识别由串联质谱产生的非常大的蛋白质组学数据集的假发现速率。
        摩尔。细胞。蛋白质组学。 2009; 8: 2405-2417
        • 价格T.S.
        • 露丝特M.B.
        • 吴W.
        • 奥斯汀D.J.
        • Pizarro A.
        • yocum a.k.
        • 布莱尔I.A.
        • Fitzgerald G.A.
        • 格雷特T.
        EBP,使用多个串联质谱数据集进行蛋白质识别程序。
        摩尔。细胞。蛋白质组学。 2007; 6: 527-536
        • nesvizhskii a.i.
        • Vitek O.
        • Aeberberold R.
        串联质谱法产生的分析与验证蛋白质组学数据。
        NAT。方法。 2007; 4: 787-797
        • Picotti P.
        • Bodenmiller B.
        • 穆勒L.N.
        • Domon B.
        • Aeberberold R.
        靶影科酿酒酵母的全动态范围蛋白质组分析。
        细胞。 2009; 138: 795-806
        • De Godoy L.M.
        • 奥尔森J.V.
        • Cox J.
        • Nielsen M.L.
        • 哈伯纳N.C.
        • Fröhlichf.
        • Walther T.C.
        综合质谱型蛋白质组定量单倍体与二倍体酵母。
        自然。 2008; 455: 1251-1254
        • Castellana N.
        • BAFNA V.
        蛋白质素学学,以发现基因组的完整编码含量:计算视角。
        J.蛋白质组学。 2010; 73: 2124-2135
        • Ansong C.
        • Purvine S.O.
        • Adkins J.N.
        • Lipton M.S.
        • 史密斯r.d.
        蛋白质组织:在基因组注释中由蛋白质组学填充的需求和角色。
        简报功能基因组学蛋白质组学。 2008; 7: 50-62
        • Bitton D.A.
        • 史密斯D.L.
        • Connolly Y.
        • Scutt p.j.
        • 米勒C.J.
        集成的质谱管线识别人类基因组中的新型蛋白质编码区。
        Plos一个。 2010; 5: e8949
        • Desiere F.
        • 德意曲e.w.
        • nesvizhskii a.i.
        • Mallick P.
        • 国王N.L.
        • ENG J.K.
        • Aderem A.
        • 博伊尔R.
        • 布伦纳E.
        • Donohoe S.
        • Fausto N.
        • Hafen E.
        • 引擎盖L.
        • Katze M.G.
        • 肯尼迪K.A.
        • Kregenow F.
        • 李H.
        • 林B.
        • 马丁D.
        • ranish j.a.
        • 罗林斯D.J.
        • Samelson L.E.
        • Shiio Y.
        • 瓦特J.D.
        • Wollscheid B.
        • 赖特M.E.
        • 燕W.
        • 杨L.
        • yi e.c.
        • 张H.
        • Aeberberold R.
        与高通量质谱法获得的肽序列的人类基因组集成。
        基因组Biol。 2005; 6: R9
        • 费尔明D.
        • 艾伦B.B.
        • Blackwell T.W.
        • Menon R.
        • Adamski M.
        • 徐Y.
        • ulintz p.
        • OPENN G.S.
        • 国家D.J.
        新型基因和基因模型检测蛋白质组学中全基因组开放阅读框分析。
        基因组Biol。 2006; 7: R35
        • Loevenich S.N.
        • 布伦纳E.
        • 国王N.L.
        • 德意曲e.w.
        • Stein S.E.
        • Consortium Flybase.
        • Aeberberold R.
        • Hafen E.
        果蝇黑素转基司蛋白酶粉刺苜蓿促进使用肽数据来改善粉刺蛋白质组学和基因组注释。
        BMC生物信息学。 2009; 10: 59
        • Merrihew G.E.
        • 戴维斯C.
        • ewing b.
        • 威廉姆斯G.
        • KällL.
        • Frewen B.E.
        • 贵族W.S.
        • 绿色P.
        • 托马斯J.H.
        • maccoss m.j.
        使用霰弹枪蛋白质组学的鉴定,确认和校正C. Elegans基因注释。
        Genome Res。 2008; 18: 1660-1669
        • 坦纳S.
        • NG J.
        • Florea L.
        • 圭龙R.
        • Briggs S.P.
        • BAFNA V.
        使用肽质谱改善基因注释。
        Genome Res。 2007; 17: 231-239
        • 爱德华兹N.J.
        使用ESTS和序列数据库压缩的串联质谱的新肽鉴定。
        摩尔。系统。 BIOL。 2007; 3: 102
        • Roos f.f.
        • 雅各布r.
        • 格罗斯曼J.
        • Fischer B.
        • Buhmann J.m.
        • Gruissem W.
        • Baginsky S.
        • Widmayer P.
        PEPSPLICE:缓存有效的搜索算法,用于综合识别串联质谱。
        生物信息学。 2007; 23: 3016-3023
        • Kuster B.
        • Mortensen P.
        • 安德森J.S.
        质谱允许在大型基因组中直接鉴定蛋白质。
        蛋白质组学。 2001; 1: 641-650
        • Shafer P.
        • 林D.M.
        • YONA G.
        美东时间 2PROT:将EST序列映射到蛋白质。
        BMC基因组学。 2006; 7: 41
        • Eriksson J.
        • Fenyo D.
        通过蛋白质 - 丰度分布和实验设计提高蛋白质组分析的成功率。
        NAT。 Biotechnol。 2007; 25: 651-655
        • 施密特A.
        • Claassen M.
        • Aeberberold R.
        定向质谱:朝向假设驱动的蛋白质组学。
        Curr。意见化学。 BIOL。 2009; 13: 510-517
        • 施密特A.
        • Gehlenborg N.
        • Bodenmiller B.
        • 穆勒L.N.
        • 坎贝尔D.
        • 穆勒M.
        • Aeberberold R.
        • Domon B.
        复杂肽混合物深度表征的集成,有向质谱方法。
        摩尔。细胞。蛋白质组学。 2008; 7: 2138-2150
        • Zerck A.
        • Nordhoff E.
        • Revemann A.
        • Mirgorodskaya E.
        • Suckau D.
        • Reinert K.
        • Lehrach H.
        • Gobom J.
        基于LC-MS / MS的霰弹枪蛋白质组学的前体离子选择迭代策略。
        J.蛋白质组。 2009; 8: 3239-3251
        • Claassen M.
        • Aeberberold R.
        • Buhmann J.m.
        蛋白质组覆盖预测无限马尔可夫模型。
        生物信息学。 2009; 25: I154-160
        • Claassen M.
        • Aeberberold R.
        • Buhmann J.m.
        综合蛋白质组学数据集的蛋白质组覆盖预测。
        J.计算Biol。 2011; 18: 283-293