广告

用于计算机辅助注释的MS / MS光谱的专家系统*

  • Nadin Neuhauser.
    脚注
    隶属关系
    Max-Planck Biochemistry研究所蛋白质组学与信号转导,AM Klopferspitz 18,D-82152 Martinsrid,德国
    搜索本作者的文章
  • 安妮特米科尔斯基
    脚注
    隶属关系
    Max-Planck Biochemistry研究所蛋白质组学与信号转导,AM Klopferspitz 18,D-82152 Martinsrid,德国
    搜索本作者的文章
  • JürgenCox.
    隶属关系
    Max-Planck Biochemistry研究所蛋白质组学与信号转导,AM Klopferspitz 18,D-82152 Martinsrid,德国
    搜索本作者的文章
  • Matthias Mann.
    一致
    应该解决对应的通信:蛋白质组学和信号转导,Max-Planck生物化学​​研究所,AM Klopferspitz 18,D-82152 Martinsrid,德国
    隶属关系
    Max-Planck Biochemistry研究所蛋白质组学与信号转导,AM Klopferspitz 18,D-82152 Martinsrid,德国
    搜索本作者的文章
  • 作者脚注
    *这项工作得到了欧洲联盟7的资金支持 TH. 框架项目前景(时间表和空间中的蛋白质组学规范,Grant Health-F4-2008-201645)。
    本文包含补充表S1。
    ¶这些作者的贡献平等。
      基于质谱(MS)的蛋白质组学的重要步骤是其片段光谱鉴定肽。无论实现的识别分数如何,几乎所有串联MS(MS / MS)光谱都包含未被搜索引擎分配的剩余峰值。这些峰值可以通过人体专家来解释,但现代蛋白质组学实验的规模使得这种不切实际。在计算机科学中,专家系统是一项成熟的技术,以实施由从业者面试产生的规则清单。我们在这里开发了这样一个专家系统,利用文学知识以及大量高质量准确度和纯碎片光谱。有趣的是,我们发现即使具有高质量准确性数据,规则集也可以快速变得过于复杂,导致过度注释。因此,我们建立了一种严格的错误发现率,通过从大量的其他MS / MS光谱中随机插入峰来计算,并使用它来开发优化的知识库。该规则集正确注释了中等或高丰度的所有峰。对于高分辨率HCD数据,MS / MS光谱中的片段峰的中值强度覆盖率从单独的搜索引擎注释的58%增加到86%。由此产生的注释性能超过人类专家,特别是在诸如较大的磷酸化肽的复杂光谱上。我们的系统也适用于高分辨率碰撞诱导的解离数据。它可以作为MaxQuant的一部分,并且通过仅需要MS / MS谱和相应的肽序列的Web服务器,并且输出出版质量,注释MS / MS光谱( www.biochem.mpg.de/mann/tools/)。它为基于MS的哲学家领域的初学者提供专家知识,并帮助高级用户专注于不寻常的和可能的新型片段离子。
      在基于MS的蛋白质组学中,肽与使用搜索引擎的数据库中的肽序列相匹配(
      • 斯丁H.
      ABC的肽测序的(和XYZ)。
      ,
      • nesvizhskii a.i.
      • Vitek O.
      • Aeberberold R.
      串联质谱法产生的分析与验证蛋白质组学数据。
      ,
      • 格兰霍尔姆V.
      • KällL.
      霰弹枪蛋白质组学肽谱匹配质量评估。
      )。建立统计标准以接受 相对 基于搜索引擎评分拒绝肽光谱匹配,并且报告的肽需要99%确定性。搜索引擎通常仅将序列特定的骨干碎片碎片放入帐户( IE。 A,B和Y离子)和它们的一些中性损失。然而,串联质谱 - 尤其是较大的肽 - 可以是非常复杂的并且含有许多培养基或甚至高丰度肽片段,其未被搜索引擎结果注释。这可能导致用户的不确定性 - 特别是如果只有相对较少的峰值被注释 - 因为它可能反映不正确的识别。然而,未标记的峰的最常见原因是前体选择窗口中存在另一个肽并被瘢痕形成。这有各种称为“嵌合光谱”(
      • Houel S.
      • Abernathy R.
      • Renganathan K.
      • Meyer-Arendt K.
      • ahn n.g.
      • 老为
      量化嵌合体MS / MS光谱对大规模蛋白质组学研究中肽鉴定的影响。
      ,
      • 张恩。
      • 李X.J.
      • 潘S.
      • Schwikowski B.
      • Aeberberold R.
      Probidtree:一种自动软件程序,能够从由串联质谱仪收集的单个碰撞诱导的解离光谱识别多种肽。
      ,
      • 伯尔尼姆。
      • 芬尼G.
      • Hooopmann M.R.
      • Merrihew G.
      • Toth M.J.
      • maccoss m.j.
      离子阱数据无关采集串联质谱法与混合光谱的去卷积。
      )或低前体离子分数(PIF)的问题
      使用的缩写是:
      PIF.
      前体强度分数
      FDR.
      假发现率
      女士/女士
      串联质谱
      HCD.
      更高的能源碰撞解离
      PEP.
      后误差概率
      PDF.
      便携式文档格式
      我是
      Immanium Ion.
      SC.
      侧链片段离子
      TH.
      汤姆森。
      1使用的缩写是: PIF.
      前体强度分数
      FDR.
      假发现率
      女士/女士
      串联质谱
      HCD.
      更高的能源碰撞解离
      PEP.
      后误差概率
      PDF.
      便携式文档格式
      我是
      Immanium Ion.
      SC.
      侧链片段离子
      TH.
      汤姆森。
      (
      • Michalski A.
      • Cox J.
      在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
      )。这种光谱仍然可以高度置信度。例如,andromeda搜索引擎在Maxquant中试图在这种情况下识别第二个肽(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
      ,
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      andromeda:肽搜索引擎集成到最大环境中。
      )。然而,即使是“纯粹”光谱(具有高PIF的)甚至仍然包含许多未分配的峰值。这些可以由不同的片段类型引起,例如内离子,单个或组合的中性损失以及低质量区域中的Immanium和其他离子类型。质谱专家可以根据碎片质量的碎片和手动计算的专家知识来分配许多或全部这些峰,导致鉴定程度较高。然而,在没有深入训练或注释MS / MS光谱的情况下,在没有深入训练或经验的情况下,在任何情况下,这种注释对于数十万谱来说,这种注释具有越来越多的蛋白质组学。此外,甚至人类专家也可能错误地注释给定的峰 - 尤其具有低质量精度串联质谱 - 或者未能考虑可能导致该片段质量的各种可能性。
      鉴于将片段峰值注释为最高程度的峰值,我们转向“专家系统”,这是计算机科学的良好技术。专家系统在20世纪70年代和20世纪80年代取得了突出,并旨在通过推理知识来解决复杂的问题(
      • Giarratano J.C.
      • 莱利G.
      ,
      • Liao S.H.
      专家系统方法和应用 - 1995年至2004年的十年审查。
      )。有趣的是,第一个例子之一是由诺贝尔奖获奖者Josua Lederberg超过40多年前开发,并处理了对质谱数据的解释。该计划的名字是启发式的穹顶(
      • Schroll G.
      • Duffield上午
      • Djerassi C.
      • Buchanan B.G.
      • Sutherland G.L.
      • Feigenbaum E.A.
      • Lederberg J.
      人工智能化学推理的应用。 III。由其低分辨率质谱和核磁共振数据诊断出的脂族醚。
      ),它能够解释脂族醚的质谱及其片段。由程序产生的假设描述了具有可符号数据的分子结构。为了从数据中推断出这些解释,该计划包含了一种提供限制约束以及启发式规则的化学稳定性理论。
      一般而言,专家系统的目的是编码从问题的领域的专业人员中提取的知识。然后,这为基于规则的系统供电,可以广泛应用于自动应用。基于规则的专家系统代表了来自人类专家以IF-DEL规则的形式获得的信息。这些用于对输入数据执行操作以达到适当的结论。通用专家系统本质上是一种计算机程序,它提供了一种以可预测的方式执行大量推断的框架,使用前向或向后链,回溯和其他机制(
      • 罗素S.J.
      • Norvig P.
      • 戴维斯E.
      )。因此,与基于统计数据相比,“专家程序”不知道它通过计算机内存中的事实的原始体积所了解了什么。相反,与人类专家一样,它依赖于将经验派生规则集应用于数据的推理过程。
      在这里,我们实施了对肽的高质量准确性串联质谱数据的解释专家系统。它以迭代方式与人类专家开发的肽片段化,使用公开的碎片途径和大型数据集的高能量碰撞解离(HCD)(HCD)(
      • 奥尔森J.V.
      • MACEK B.
      • lange O.
      • Makarov A.
      • 角horn
      肽改性分析的较高能量C-Trap解离。
      )和碰撞诱导的解离(CID)的肽鉴定。我们的目标是达到相似或优于经验丰富的质谱仪(
      • 宾M.
      • 约翰逊R.
      de novo测序与同源性搜索。
      ),从而制造大规模蛋白质组学中可用的全面注释的肽光谱。

      实验步骤

      基准数据集是来自Michalski .
      Michalski,A.,Neuhauser,N.,Cox,J.和Mann,M.,未发表的数据。
      简要地, 大肠杆菌 ,在1D凝胶电泳和凝胶中分离酵母和Hela蛋白质蛋白质(
      • 舍甫琴科A.
      • Tomas H.
      • Havlis J.
      • 奥尔森J.V.
      蛋白质和蛋白质蛋白质谱位的质谱表征的凝胶分解。
      )。通过液相色谱(LC)MS / MS在线性离子阱 - 绕仪器(LTQ VELOS(LTQ VELOS)分析所得肽(
      • 奥尔森J.V.
      • 施瓦茨J.C.
      • Griep-raming J.
      • Nielsen M.L.
      • 达莫e.
      • Denisov E.
      • lange O.
      • 弥补P.
      • 泰勒D.
      • 灿烂的玉米
      • Wouters e.r.
      • Senko M.
      • Makarov A.
      • 角horn
      具有非常高的测序速度的双压力线性离子阱Orbitrap仪器。
      )或精英(
      • Michalski A.
      • 达莫e.
      • lange O.
      • Denisov E.
      • 挖掘D.
      • Muller M.
      • Viner R.
      • 施瓦茨J.
      • 弥补P.
      • 贝尔福德米
      • DUNYACH J.J.
      • Cox J.
      • 角horn
      • Makarov A.
      超高分辨率线性离子捕集器(orbitrap Elite)(orbitrap Elite)促进顶部下降LC MS / MS和通用肽碎片模式。
      ),Thermo Fisher Scientific)。用HCd碎裂肽(
      • 奥尔森J.V.
      • MACEK B.
      • lange O.
      • Makarov A.
      • 角horn
      肽改性分析的较高能量C-Trap解离。
      )或通过CID,但在任何一种情况下,片段转移到斜拉瓣分析仪中,以获得高分辨率串联质谱(7500 m/z 400)。我们已经扫描了串联质谱 m/z 80以尽可能完全捕获Immanium离子。使用Andromeda搜索引擎的MaxQuant进行数据分析(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
      ,
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      andromeda:肽搜索引擎集成到最大环境中。
      )。前体峰的最大初始质量偏差为6ppm,并且搜索引擎和专家系统的片段离子的最大偏差为20ppm。 MaxQuant预处理专家系统以与Andromeda搜索引擎的方式相同的方式将光谱带入相同的方式:峰值被过滤到10个最丰富的100个滑动100 m/z 窗口,去同位素并在可能的情况下向一个电荷。从该数据中,选择序列光谱对,其鉴定鉴定为99.99%pif值(
      • Michalski A.
      • Cox J.
      在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
      )大于95%,序列是独特的(超过16,000个肽)。
      专家系统使用Microsoft .NET Framework 3.5版和工作流程编写了编程语言C#。活动库,其中包含规则引擎,以实现专家系统(Microsoft Corporation,Redmond,WA)。
      MaxQuant包含Expert系统作为其查看器中的集成选项 - 允许可视化原始和注释的MS数据的组件。 MaxQuant可以自由下载 www.maxquant.org.。它需要Microsoft .NET 3.5,它已经安装了Microsoft Windows,或者可以作为免费的Windows Update安装。在我们的小组中,我们在Windows群集和桌面版本中实现了专家系统。此外,我们提供了一个专家系统Web服务器,可以访问 www.biochem.mpg.de/mann/tools/。尽管MaxQuant允许专家系统的任意数量的MS / MS光谱注释,但是该网络服务器目前一次仅限于提交一个MS / MS频谱。在上传峰列表之后 m/z 值及其强度与相应的肽序列 - 显示所有注释的频谱。然后可以以不同的图形格式导出。

      结果和讨论

       建设专家系统

      在解决MS / MS频谱的解释之类的问题时,人类专家在解决问题时执行一组一组任务。这些规则必须在专家系统中编写编码,主要是一系列IF-DEL规则的形式。 Fig. 1 显示建筑物和使用专家系统所涉及的主要步骤。获取所有相关规则,以尽可能全面地解释MS / MS光谱。但是,为了避免导致误报的过度注释(见下文),规则的数量及其交互不应变得太大。通过评估与人类专家的大型数据集上不同规则的表现来令人震惊的这种余额。
      图缩略图GR1.
      Fig. 1专家系统的基本概念。 A,专家系统是通过面试领域的专家(这里的肽碎片和累积的文献)构建,并设计了一系列具有相关优先级的规则和彼此的依赖。知识库包含规则,而规则引擎是通用的,并将规则应用于数据。 B,数据在所描绘的步骤后自动处理。
      规则在桌面结构中编码,可以激活,停用或修改它们。要创建知识库,还必须确定规则的交互程度 - 例如,其中的中性损失组合允许。在知识库的迭代构建之后,规则引擎然后将编码知识应用于MS / MS光谱并将结果显示给用户( Fig. 1A)。在原始MS和MS / MS光谱上执行的处理步骤如图所示 Fig. 1B (另见实验程序)。请注意,工作流完全自动化,用户交互是可能的,但不需要。利用感兴趣的肽的任意数量的注释光谱可以作为交互式屏幕图像或高分辨率,可打印的PDF文件制作。专家系统非常快,16,000个光谱可以在桌面系统上不到四小时注释。
      我们专家系统的IF-DEN约束可分为四个主要部分(Fig. 2)。首先,专家系统计算任何特定的骨架片段(A,B和Y离子系列),带电前体离子,浸泡离子,以及低质量区域中的侧链片段,并将它们放入队列中。在工作流的第二部分中,该队列中的每个元素都会相对于实际的MS / MS频谱滤波。即使存在与队列中计算的项目对应的峰值,它仍然可能会被过滤掉(过滤器后缺少注释符号 Fig. 2)。例如,一个b1 只有在非常狭窄的情况下允许离子。
      图缩略图GR2.
      Fig. 2专家系统的工作流程。 ➀从搜索引擎识别的肽的数据库序列中,创建可能的片段离子列表。 ➁从测量光谱的峰值与可能的碎片进行比较,并且如果通过专家系统的规则,则初步注释。 ➂中性损失和内部碎片是从候选人,注释的峰值生成并暴露于专家系统规则。 ➃通过注释的优先级解决潜在的冲突,标明峰值。请注意,可能的内部片段“CA”被划掉,因为B2 离子具有更高的优先级。
      在第三步中,计算滤波值的中性损失和内部片段并将其添加到队列中。然后,在步骤2中,它们被视为相同的过滤规则。步骤3是迭代的,因为可以允许若干后续的中性损耗。
      在第四步和最后一步中,每个潜在的注释都是优先级。如果有多个可能的注释,则选择具有最高优先级的( IE。 触发具有更高优先级的规则的那个)。但是,在这种情况下,专家系统提供包含在峰值上悬停鼠标时的其他可能性的弹出窗口(或“工具尖端”)。 (如果FDR被正确控制,那么通常会发生这种情况,然后通常由相同离子的两种不同的化学名称引起;或者通过不同的离子与相同的化学组成,例如具有不同序列的小内部片段但相同的氨基酸) 。

       确定峰值注释的虚假发现率

      使用非常高的肽鉴定阈值(99.99%)确保我们收集中的几乎没有肽应该被误诊。但是,在构建专家系统时,我们注意到仍然可以过度解释MS / MS谱。这对我们来说最初是令人惊讶的,因为我们的大规模数据集对噪声和峰值的信号良好,仅当它们计算的质量小于观察到的质量时的注释候选。通过相同峰的互相冲突的注释来说,过解释变得显而易见,通常是由规则的组合引起的,例如来自主要序列特异性骨架或内部离子的几个中性损失。由于冲突或错误的注释将破坏专家系统的整个理性,因此我们设计了一个计划,以严格控制峰值注释的错误发现率。
      假发现率(FDR)是指代表片段峰值通过机会注释的概率百分比,因为其质量适合肽序列的专家系统规则之一。为了计算适当的FDR,我们需要提供一组背景峰值,当它们被专家系统标记时,它会代表误报。产生现实背景峰值的峰值远离微不足道,因为它们需要具有原则上可以从肽序列产生的可能群众,并且它们需要与所讨论的肽的序列无关。我们解决这个问题的解决方案的原则 Fig. 3A。从本研究的底层数据集中,我们收集所有注释峰的M / Z值,除了来自Immanium或侧链离子的峰值。它们与各个肽序列和峰的相对强度一起储存在大峰值收集中。对于我们想要确定FDR的每个频谱,我们从集合中插入了一组随机的10峰,在我们检查后,选定的峰的序列与当前频谱的序列无关。如果其中一个插入的峰与现有峰重叠,则被丢弃。根据定义,这10个峰值代表可能的肽片段,并且由于它们被随机从数百万其他峰值中选择,它们集中地表示对真实背景集的良好近似。例如,这不是所讨论的前体序列的情况,因为置换序列中的许多片段峰是相同的。每当专家系统注释其中一个峰值时,它被计算为假阳性。要找到为此过程获得稳定FDR所需的重复数量,我们选择了一组光谱并在每个光谱上模拟了一千次。我们发现,在500次迭代后,FDR是恒定的。对于最终的FDR计算,对于每个频谱,我们从收集中添加了不同的10个随机峰,并重复了500次。然后将其应用于大规模数据集中的16,000多个纯(高PIF)光谱中的每一个。
      图缩略图GR3.
      Fig. 3计算峰值注释的虚假发现率。 A,上面板表示大量识别的MS / MS光谱,从中绘制注释峰以形成可能的片段质量的大峰值集合。从数据集中的每个识别的频谱,插入10个随机片段,计算专家系统的注释数。每种肽重复该过程500次。 B,中位数FDR确定 A 作为肽长度的函数,由片段离子和理论物质的质量差异分别。用于峰值注释的FDR含有肽长度并强烈依赖于质量差异。底部的箱图表明,50%的肽长在12至18个氨基酸之间。右侧的框绘图总结了FDR值的范围,无论肽长度如何。 C,中值FDR的曲线图作为肽长度的函数,但是通过伪注释片段峰的强度等级分离。大多数假阳性来自低丰富的峰值( 蓝色的 )而不是媒介( 绿色 )或高丰度片段峰( 黄色的 )。 D,与上面相同的曲线,但由误报的片段离子类型分化。从常规碎片注释中获取较少数量的误报( 蓝色的 ),与内部片段相比( 绿色 )和中立损失注释( 黄色的 )。
      除了为每个规则集提供实心FDR估计,此过程还允许我们识别负责错过批注的规则或规则组合, IE。 虚假注释插入峰的规则。这些主要是被拒之出在后续中性损失的链条。结合对离子类型频率的详细评估,我们迭代地设计了最佳规则集(补充表S1)。例如,如果它们以含有氨基酸的碎片序列中的5%以上发生,则允许来自特定氨基酸的中性损失。同样,一组约42个可能的中性侧链损失,只有六个足以在专家系统中保留它们。这 图。 3. B3D 基于该最终规则集显示中位FDR的结果。在红色的整体FDR-在所有图中表明是相同的,并且显示肽长度的误报的数量明显不断增长的趋势。对于12个氨基酸或更小的小肽,FDR小于2.1%,所研究的范围内的所有肽的峰值注释FDR小于5%。通过这些设置,在大多数MS / MS光谱中超过97%的情况下,注释是正确的。当然,专家系统可以通过缩小大众公差窗口来修剪较低的FDR;但是,这将以丢弃正确的注释为代价。为了探讨质量准确性对潜在假阳性注释的影响,我们重复了所需的质量偏差,不大于5ppm或不大于10ppm。可以看出 Fig. 3B,这进一步降低了可能的误差分别小于1%,或小于0.3%。这突出了明确识别片段质量标识的高质量准确度的值。
      此外,具有低信噪比的峰值比更强烈的峰值更容易被误诊。在 Fig. 3C 我们将假阳性的峰值强度分为三个强度等级(Fig. 3C)。高或中高度的峰的中值仅为0.1或0.5%。对于低丰度峰值,它更高,但仍然是中位数不超过2.1%。
      接下来,我们将FDR分别研究了不同片段离子类型的肽长度的函数。可以看出 Fig. 3C,常规离子和内部碎片对整体错误注释(0.4和0.5%)有贡献很少,而中性损失离子在1.8%的情况下被错误地注释或甚至更多。

       专家系统的表现

      Fig. 4 显示专家系统评估之前和之后的H​​CD碎裂肽的说明性实例。用1.1E-21的136和后误差概率(PEP)的Antromeda得分鉴定肽(相应的吉祥物评分为83)。光谱具有来自B的不间断的B离子系列2 to b9 和来自y的不间断的Y离子系列1 to y12,一起覆盖整个肽序列。尽管存在这种明确的识别,所以搜索引擎使用的峰值识别肽仅占碎片谱中峰值总和的35%。所解释的峰的覆盖率在24%下甚至更低(在测量的光谱中允许每100升最多10峰见实验程序)。有一系列高丰度,高 m/z 片段以及低和中等大量低丰度峰值 m/z 搜索引擎无法解释的范围。在专家系统注释后,这种情况完全变化。高级M / Z系列被揭示为CH的突出损失4所以从氧化甲硫氨酸中。低质量离子是中性损失,内部碎片和它们之间的组合,并且它们是明确的和正确分配的。完全,专家系统占几乎所有突出的离子,并解释了总共88%的离子电流。手动注释这一频谱将是可能的,但会非常耗时。
      图缩略图Gr4a.
      Fig. 4专家系统注释之前和之后的示例光谱。 A根据搜索引擎结果,解释了34%的峰值强度和24%的峰值,而专家系统几乎完全诠释了频谱(用于进一步的解释,参见主要文本)。后误差概率(PEP)Andromeda肽鉴定的统计预期值。除了A-,B-和Y-离子的大部分外(淡蓝色/深蓝色/红色)和中性损失的离子( 橙子 ),可以找到内部片段离子( 紫色的 )在低质量区域中,异琥珀酸氨酸的Immanium离子( 绿色 )来自精氨酸的侧链损失( 绿松石 )。 B,专家系统注释磷酸化肽。除了内部离子外,还发现了几种磷酸化相关的片段离子。星号(*)表示H3O4P的损失,具有来自磷酸化片段离子的Δ质量为97.9768。
      图缩略图GR4B.
      Fig. 4专家系统注释之前和之后的示例光谱。 A根据搜索引擎结果,解释了34%的峰值强度和24%的峰值,而专家系统几乎完全诠释了频谱(用于进一步的解释,参见主要文本)。后误差概率(PEP)Andromeda肽鉴定的统计预期值。除了A-,B-和Y-离子的大部分外(淡蓝色/深蓝色/红色)和中性损失的离子( 橙子 ),可以找到内部片段离子( 紫色的 )在低质量区域中,异琥珀酸氨酸的Immanium离子( 绿色 )来自精氨酸的侧链损失( 绿松石 )。 B,专家系统注释磷酸化肽。除了内部离子外,还发现了几种磷酸化相关的片段离子。星号(*)表示H3O4P的损失,具有来自磷酸化片段离子的Δ质量为97.9768。
      磷酸化肽,尤其是大的磷酸化肽的解释比未修饰的肽更困难。此外,精确放置磷酸化位点可能是挑战性的。我们使用了文学知识(
      • Boersema P.J.
      • 穆罕默德S.
      • Heck A.J.
      质谱分段和分析质谱法。
      ,
      • Kelstrup C.D.
      • Hekmat O.
      • 弗朗瓦维拉C.
      • 奥尔森J.V.
      精确定位磷酸化位点:定量过滤和新的特异性X离子片段。
      )和对磷酸化肽的碎片进行大规模调查的结果,以获得专家系统的合适的碎片规则。这导致了额外的六种规则,这很容易集成,说明专家系统的可扩展性。 Fig. 4B 描绘了典型的磷酸化肽的相对复杂的碎片光谱的示例注释。从低质量范围到约质量1000的大离子系列是由从肽序列的第二位置的脯氨酸开始的广泛且不间断的内部离子系引起的。由于这些内部片段含有几种谷氨酰胺,它们导致额外的水和氨损失。然而,除了磷酸化位点的丧失之外,中性损失也存在新的注释片段。此外,HPO的中性丧失 3 is annotated.

       大规模评估专家系统的表现

      我们使用了16,000个谱的群体,具有0.01%的假PIF鉴定的高PIF识别,并通过专家系统自动注释它们。对于每个光谱,我们计算了搜索引擎使用的片段获得的强度覆盖以及专家系统解释的片段。预期较高的刻度碎片光谱将具有比降低得分肽的离子电流更大的离子电流。 Fig. 5A 显示所有搜索引擎分数的这些值的中位数的图。这些Andromeda评分中的总共95%在96到138的范围内。这里,标准注释的中位强度覆盖率在138时从96%到64%的55%变化。相反,专家系统在86到89之间注释相同肽的片段光谱中的总离子电流的百分比。这表示平均增加28%。只有较少的少量少量较低的次数,比96更低,对于这些较大的专家系统的注释百分比甚至更大(34%)。有趣的是,即使在非常高的得分HCD片段光谱,也仍然有许多峰值由搜索引擎直接注释。为此,由于专家系统而平均增加的注释离子电流仍然是23%。
      图缩略图GR5.
      Fig. 5大数据集的专家系统性能。 通过总结片段离子强度的中值序列覆盖被绘制为识别分数的函数。统计数据基于超过16,000个光谱。对于每个识别分数,专家系统增加了大量可解释的峰值。图表下面的盒子图表明该组中的50%的肽在98和140之间的Andromeda得分。右侧的盒子图表示标准和专家系统注释的强度覆盖范围的值范围。
      专家系统的规则集源自HCD数据。然而,HCD和CID似乎产生类似的离子类型,尽管具有不同的丰富。因此,我们是测试派生规则集还适用于高分辨率CID数据。这确实如此,并且专家系统解释的高分辨率CID光谱中总共85%的离子电流,尽管在CID光谱中,峰值较高百分比(79%)被标准离子类型计算。因此,我们得出结论,专家系统可以同样适用于高分辨率HCD和CID数据,尽管CID的益处并不像HCD那样大。

       用于专家系统的Web服务器谱谱

      Expert系统现在是MaxQuant的观众组件的一部分,可自由使用 www.maxquant.org.。在这种环境中,专家系统可以通过识别的肽的任意大量数据集进行注释,并以不同的图形格式(如PDF)为可视化和导出它们。此外,我们建立了一个Web服务器,使专家系统提供给任何蛋白质组学科学家,无论他或她正在使用的计算工作流程如何。 WebServer位于 http://www.biochem.mpg.de/mann/tools/and 它的图形界面显示在 Fig. 6。用户需要以M / Z和峰值强度列表的形式提供质谱以及鉴定的肽的序列( 图。 6. A, 6B)。还可以指定序列中的常见修改及其位置。然后,WebServer提供所示质量公差内的光谱的注释,如图所示 Fig. 6C。该图形是可扩展的,以便能够进行复杂碎片谱的详细研究。也可以描绘PPM中的质量偏差(计算质量测量质量)。可以以许多图形格式下载此注释频谱以用于出版物。
      图缩略图GR6.
      Fig. 6专家系统的Web界面。 A,文本字段以文本格式粘贴频谱(m/z 价值;任意单位的强度)。 B,形式进入肽序列,修改及其位置。 C,检测到的骨干碎片及其中性损失在肽标识中显示。专家系统注释的可伸缩频谱。请注意,与主要骨干碎片相比,中性损耗峰非常小。可以使用所需的分辨率和以所需的图形格式下载频谱。

      结论与前景

      在这里,我们已经利用了专家系统 - 在计算机科学中的知名技术 - 自动但准确地解释鉴定的肽的碎片谱。我们已经表明,专家系统对高质量准确性数据进行了非常好,注释了大多数媒介到高丰度峰。对于HCD光谱,它平均解释了比单独搜索引擎的峰值强度更多的28%。我们派生了一种严谨的假阳性率,随之而来的是,不到5%的峰值可以错过 - 注释 - 对于至少具有至少高度的分数和片段离子强度,此速率甚至更低。通过对大型HCD数据集的迭代解释来源的规则集,但我们表明专家系统同样适用于高分辨率CID光谱。
      我们为专家系统设想不同的用途:对于基于MS的初学者的初学者,它可以在不需要从专家的许多输入的情况下进行高效培训。对于高级用户,它允许专注于不寻常和潜在的新型碎片类型。一个警告是,专家系统目前无法解释属于Cofragmented前体的片段峰;通过仅选择纯MS / MS光谱,我们故意避免的非常常见的发生。如果两个前体都被识别并传达给专家系统,则可以解决这种限制。这种特征可能对允许故意复用前体的仪器特别有用,这导致复杂的MS / MS谱(
      • Michalski A.
      • 达莫e.
      • Hauschild J.P.
      • lange O.
      • Wieghaus A.
      • Makarov A.
      • Nagaraj N.
      • Cox J.
      • 角horn
      基于质谱的蛋白质组学使用Q辐射,高性能台式四轴锻体质谱仪。
      )。
      专家系统一直在我们实验室中的常规用途。在此期间,我们发现它提供了有用的确认鉴定肽的鉴定和先前未标记的片段离子的同一性。这是特别欢迎在重要肽的复杂光谱的情况下,例如在有问题的生物学功能中受到监管的情况。与人类专家相比,专家系统的主要优势是其速度,其能够以一致的方式检查所有提供的规则以及其严格控制的假阳性率。显然,专家系统仅限于所提供的知识,而经验丰富的质谱仪可以超出这些规则,并发现新型碎片机制的起源。
      正如我们在此所示,专家系统可以容易地应用于计算蛋白质组学中的问题。鉴于他们的相对易于实施,它们也可能在基于MS的蛋白质组学中的其他地区有用。

      致谢

      我们感谢Forest White对此手稿的批判性评论。

      补充材料

      参考

        • 斯丁H.
        ABC的肽测序的(和XYZ)。
        NAT。 Rev. mol。细胞生物。 2004; 5: 699-711
        • nesvizhskii a.i.
        • Vitek O.
        • Aeberberold R.
        串联质谱法产生的分析与验证蛋白质组学数据。
        NAT。方法。 2007; 4: 787-797
        • 格兰霍尔姆V.
        • KällL.
        霰弹枪蛋白质组学肽谱匹配质量评估。
        蛋白质组学。 2011; 11: 1086-1093
        • Houel S.
        • Abernathy R.
        • Renganathan K.
        • Meyer-Arendt K.
        • ahn n.g.
        • 老为
        量化嵌合体MS / MS光谱对大规模蛋白质组学研究中肽鉴定的影响。
        J.蛋白质组。 2010; 9: 4152-4160
        • 张恩。
        • 李X.J.
        • 潘S.
        • Schwikowski B.
        • Aeberberold R.
        Probidtree:一种自动软件程序,能够从由串联质谱仪收集的单个碰撞诱导的解离光谱识别多种肽。
        蛋白质组学。 2005; 5: 4096-4106
        • 伯尔尼姆。
        • 芬尼G.
        • Hooopmann M.R.
        • Merrihew G.
        • Toth M.J.
        • maccoss m.j.
        离子阱数据无关采集串联质谱法与混合光谱的去卷积。
        肛门。化学。 2010; 82: 833-841
        • Michalski A.
        • Cox J.
        在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
        J.蛋白质组。 2011; 10: 1785-1793
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • Cox J.
        • Neuhauser N.
        • Michalski A.
        • 施泰米r.a.
        • 奥尔森J.V.
        andromeda:肽搜索引擎集成到最大环境中。
        J.蛋白质组。 2011; 10: 1794-1805
        • Giarratano J.C.
        • 莱利G.
        专家系统:原则和编程。 PWS酒吧。有限公司, 波士顿 2005
        • Liao S.H.
        专家系统方法和应用 - 1995年至2004年的十年审查。
        专家系统。苹果。 2005; 28: 93-103
        • Schroll G.
        • Duffield上午
        • Djerassi C.
        • Buchanan B.G.
        • Sutherland G.L.
        • Feigenbaum E.A.
        • Lederberg J.
        人工智能化学推理的应用。 III。由其低分辨率质谱和核磁共振数据诊断出的脂族醚。
        J.IM。化学。 SOC。 1969; 91: 7440-7445
        • 罗素S.J.
        • Norvig P.
        • 戴维斯E.
        人工智能:一种现代方法。 Prentice Hall., 上部马鞍河,NJ2010
        • 奥尔森J.V.
        • MACEK B.
        • lange O.
        • Makarov A.
        • 角horn
        肽改性分析的较高能量C-Trap解离。
        NAT。方法。 2007; 4: 709-712
        • 宾M.
        • 约翰逊R.
        de novo测序与同源性搜索。
        摩尔。细胞。蛋白质组学。 2012; 11 (O111.014902)
        • 舍甫琴科A.
        • Tomas H.
        • Havlis J.
        • 奥尔森J.V.
        蛋白质和蛋白质蛋白质谱位的质谱表征的凝胶分解。
        NAT。 protoc。 2006; 1: 2856-2860
        • 奥尔森J.V.
        • 施瓦茨J.C.
        • Griep-raming J.
        • Nielsen M.L.
        • 达莫e.
        • Denisov E.
        • lange O.
        • 弥补P.
        • 泰勒D.
        • 灿烂的玉米
        • Wouters e.r.
        • Senko M.
        • Makarov A.
        • 角horn
        具有非常高的测序速度的双压力线性离子阱Orbitrap仪器。
        摩尔。细胞。蛋白质组学。 2009; 8: 2759-2769
        • Michalski A.
        • 达莫e.
        • lange O.
        • Denisov E.
        • 挖掘D.
        • Muller M.
        • Viner R.
        • 施瓦茨J.
        • 弥补P.
        • 贝尔福德米
        • DUNYACH J.J.
        • Cox J.
        • 角horn
        • Makarov A.
        超高分辨率线性离子捕集器(orbitrap Elite)(orbitrap Elite)促进顶部下降LC MS / MS和通用肽碎片模式。
        摩尔。细胞。蛋白质组学。 2012; 11 (//doi.org/10.1074/mcp.O111.013698)
        • Boersema P.J.
        • 穆罕默德S.
        • Heck A.J.
        质谱分段和分析质谱法。
        J.质谱。 2009; 44: 861-878
        • Kelstrup C.D.
        • Hekmat O.
        • 弗朗瓦维拉C.
        • 奥尔森J.V.
        精确定位磷酸化位点:定量过滤和新的特异性X离子片段。
        J.蛋白质组。 2011; 10: 2937-2948
        • Michalski A.
        • 达莫e.
        • Hauschild J.P.
        • lange O.
        • Wieghaus A.
        • Makarov A.
        • Nagaraj N.
        • Cox J.
        • 角horn
        基于质谱的蛋白质组学使用Q辐射,高性能台式四轴锻体质谱仪。
        摩尔。细胞。蛋白质组学。 2011; 10 (//doi.org/10.1074/mcp.M111.011015)