广告

c ,ETD和CID / ETD对串联质谱的生成功能:数据库搜索的应用程序*

  • Sangtae Kim
    隶属关系
    - 加州大学计算机科学与工程系San Diego,La Jolla,CA 92093
    搜索本作者的文章
  • Nikolai Mischerikow.
    隶属关系
    §BioMo分子质谱和蛋白质组学组,Bijvoet生物分子研究中心和乌得勒支大学制药科学研究所,Padualaan 8,3584 Ch Utrecht,荷兰

    ¶netherlands蛋白质组学中心,Padualaan 8,3584 Ch Utrecht,荷兰
    搜索本作者的文章
  • Nuno Bandeira.
    隶属关系
    - 加州大学计算机科学与工程系San Diego,La Jolla,CA 92093

    ‖SKAGGSSSANDiego大学药房和制药学院,SAN Diego,La Jolla,CA 92093;
    搜索本作者的文章
  • J. Daniel Navarro.
    隶属关系
    §BioMo分子质谱和蛋白质组学组,Bijvoet生物分子研究中心和乌得勒支大学制药科学研究所,Padualaan 8,3584 Ch Utrecht,荷兰

    ¶netherlands蛋白质组学中心,Padualaan 8,3584 Ch Utrecht,荷兰
    搜索本作者的文章
  • 路易斯
    隶属关系
    **南丹麦大学生物化学与分子生物学系,DK-5230 Odense M,丹麦
    搜索本作者的文章
  • 沙巴兹穆罕默德
    隶属关系
    §BioMo分子质谱和蛋白质组学组,Bijvoet生物分子研究中心和乌得勒支大学制药科学研究所,Padualaan 8,3584 Ch Utrecht,荷兰

    ¶netherlands蛋白质组学中心,Padualaan 8,3584 Ch Utrecht,荷兰
    搜索本作者的文章
  • Albert J.r. Heck.
    隶属关系
    §BioMo分子质谱和蛋白质组学组,Bijvoet生物分子研究中心和乌得勒支大学制药科学研究所,Padualaan 8,3584 Ch Utrecht,荷兰

    ¶netherlands蛋白质组学中心,Padualaan 8,3584 Ch Utrecht,荷兰
    搜索本作者的文章
  • Pavel A.PEVZNER.
    一致
    应当解决谁的通信:加州大学计算机科学与工程系San Diego,La Jolla,CA 92093,电话:858.822.4365,传真:858.534.7029,
    隶属关系
    - 加州大学计算机科学与工程系San Diego,La Jolla,CA 92093
    搜索本作者的文章
  • 作者脚注
    *这项工作得到了国家卫生研究院的支持,来自国家研究资源中心的1-P41-RR024851。
    本文含有补充材料1-8。
    2 这里的术语“p值”以及Kim等人,2008(16)中使用的术语“光谱概率”是同义词。在整个纸张中,我们使用“p值”,因为它更普遍使用。
    3 一千PSM的独特肽通常是足够的。
    4 肽水平FDR定义为诱饵数据库中的独特肽的数量超过目标数据库中的独特肽在某个阈值下的独特肽数。在1%光谱水平FDR中,MS-GFDB鉴定了22,003个光谱,而吉祥物鉴定了9027个光谱,Lys-N肽的ETD光谱的鉴定光谱数量增加140%。
    5 组合频谱是从支撑相同骨干裂解的一组峰的一组峰产生的伪频谱。该对可能来自相同的光谱(例如 群众总和的两个峰等于父质量或不同的光谱(例如 来自CID光谱的峰值和来自ECD光谱的峰值,质量差为16.02Da,代表可能对Y和Z片段离子)。
    6 可以根据质谱的分辨率来定义质量的粒度。在本文中,粒度设定为1Da(相当于片段离子耐受0.5Da)。尽管本文侧重于MS / MS光谱具有不准确的片段质量,但是MS-GFDB可以通过改变粒度来调整MS-GFDB与精确的片段质量分析光谱。
    7 每个长度的肽 n 定义 n-1 字首 群众代表第一个群众 i amino acids (for 1<i<n )。
    8 MS-GFDB搜索仅针对含有3100万氨基酸的数据库仅为核心I7 2.7GHz CPU的计算机含有3100万氨基酸的数据库,具有12GB内存。我们最近发表了一项研究,用于使用斑点肽进一步加速MS-GFDB(MS-Gappedictyary,Jeong等,2010(33)),一种类似于在检查中使用肽序列标签(14)的方法。 MS-GappedDictionary使用MS-GF分数来产生用于快速数据库扫描的斑点肽,例如肽序列标签。组合MS-GappedDictionary和MS-GFDB使得大小速度的顺序能够加速。
    9 Shteynberg,D。等,串联质谱数据集的后处理和验证改善了IProShet。 (在准备。)
    10 峰值的等级被定义为具有高于或等于峰值强度的强度(17)的强度的峰值(在相同频谱中)的数量。
    11 对于Lys-N摘要,我们鉴定了使用交叉点的5788肽,相当于3.5·10−4 FDR;在相同的FDR中,MS-GFDB仅鉴定了仅使用CID光谱的类似数量的肽。
    12 CID和ETD识别不同意的光谱对(图7中的红色数字)被丢弃。
    1 使用的缩写是:Ecdelectron捕获离解etdelectron转移解离ms / mstandem mass光谱法诱导的解离vdrfalse发现率Partypsmpidide-spectrum匹配2MPEPTIDES谱谱匹配SCXSTRONG阳离子ExchangePRMPREFIX-残基MASSPTMPOST转化模拟HPLCHIGH压力液相色谱。
      最近产生新的质谱技术(例如电子转移解离,ETD)和提高额外蛋白酶的可用性(例如用于高通量实验的蛋白质消化的Lys-N提出了设计新算法的挑战,以解释所得到的新型串联质量(MS / MS)光谱。传统的MS / MS数据库搜索算法,如续集和吉祥物,最初设计用于胰蛋白肽的碰撞诱导的解离(CID),主要基于关于胰蛋白酶肽(而不是机器学习技术)的碎片化的专家知识来设计CID特异性评分职能。结果,这些算法的性能是新的质谱技术或非植物肽的次优。我们最近提出了对胰蛋白肽的CID光谱的产生功能方法(MS-GF)。在这项研究中,我们将MS-GF扩展到自动从任何类型的注释的MS / MS谱系中获得评分参数(例如 c ,ETD等),并呈现基于MS-GF的新数据库搜索工具MS-GFDB。我们表明MS-GFDB优于ETD光谱或用Lys-N消化的肽的吉祥物。例如,在ETD光谱的情况下,与Mascot相比,MS-GFDB鉴定的胰蛋白酶和液体肽的数量增加2.7和2.6。此外,即使在分析胰蛋白酶肽的CID光谱的吉祥物发育十年之后,MS-GFDB(没有特别定制的CID光谱或胰蛋白肽)导致肽鉴定的数量超过吉祥物增加了28%。最后,我们提出了一种统计框架,用于分析来自同一前体的多种光谱(例如 c / ETD谱对)和分配p肽光谱匹配的值。
      自电子捕获解离(ECD)以来
      使用的缩写是:
      ecd.
      电子捕获解离
      ETD.
      电子转移解离
      女士/女士
      串联质谱
      c
      碰撞诱导解离
      FDR.
      假发现率
      PSM
      肽谱匹配
      PS. 2M
      肽谱谱匹配
      SCX.
      强阳离子交换
      PRM.
      前纤维质量
      PTM.
      翻译后修改
      HPLC.
      高压液相色谱。
      in 1998 (
      • Zubarev R.
      • Kelleher N.
      • MLEFFERTY F.
      电子捕获乘法蛋白阳离子的捕获解离。一个非精通过程。
      ),电子基肽解离技术在分析完整蛋白质和翻译后修改方面发挥了重要作用(
      • Cooper H.J.
      • Håkanssonk.
      • Marshall A.G.
      电子捕获解离在生物分子分析中的作用。
      )。然而,直到最近,这项研究级技术仅适用于少数实验室,因为它是商业不可用,操作经验,并且只能使用昂贵的FT-ICR仪器实现。发现电子转移解离(ETD)(
      • Syka J.E.
      • Coon J.J.
      • Schroeder M.J.
      • Shabanowitz J.
      • 狩猎d.f.
      通过电子转移解离质谱法分析肽和蛋白质序列分析。
      )启用了一种类似的ECD技术,可以在(相对便宜)的离子陷阱仪器中实现。如今,许多研究人员正在采用ETD技术进行串联质谱(
      • Taverna S.D.
      • Ueberheide下班。
      • 刘Y.
      • Tackett A.J.
      • Diaz R.L.
      • Shabanowitz J.
      • Chait B.T.
      • 狩猎d.f.
      • Allis C.D.
      组蛋白H3 n末端甲基化与乙酰化与乙酰化之间的长距离组合联动。
      ,
      • Khidekel N.
      • Ficarro S.B.
      • 克拉克下午
      • Bryan M.C.
      • Swaney D.L.
      • Rexach J.E.
      • 太阳y.e.
      • Coon J.J.
      • 彼得斯e.c.
      • Hsieh-Wilson L.C.
      用定量蛋白质组学探测脑中O-Glcnac糖基化的动态。
      ,
      • Appella E.
      • 安德森C.W.
      蛋白质组学 - 电子捕获(ECD)和电子转移解离(ETD)碎片技术和组合分数对角线色谱(CoFradic)的新前景。
      ,
      • 莫里娜H.
      • 喇叭d.m.
      • 唐ñ。
      • Mathivanan S.
      • Pandey A.
      磷酸肽的全局蛋白质组学分析使用电子转移解离串联质谱法。
      ,
      • Altelaar a.f.
      • 穆罕默德S.
      • 麸皮
      • Adan R.A.
      • Heck A.J.
      通过多重肽提取方法改善鼠神经组织的内源肽的鉴定和多路复用质谱分析。
      ,
      • 穆罕默德S.
      • Lorenzen K.
      • Kerkhoven R.
      • van Breukelen B.
      • Vannini A.
      • 克莱默P.
      • Heck A.J.
      酵母RNA聚合酶II和III的多路复用蛋白质组学映射允许接近完全的序列覆盖并揭示几个新的磷酸化位点。
      )。
      尽管生成ETD光谱的硬件技术迅速成熟,但分析ETD光谱的软件技术仍在初期。分析串联质谱有两种主要方法: 德诺维 排序和数据库搜索。两种方法都在所有可能的肽中找到最佳评分肽( 德诺维 测序)或蛋白质数据库(数据库搜索)中的所有肽中。虽然 德诺维 排序是数据库搜索的替代品,数据库搜索仍然是一种更准确的(并且因此优选)的频谱解释方法,因此我们专注于数据库搜索方法。
      目前可用的许多数据库搜索引擎,包括续集(
      • ENG J.K.
      • mccormack a.l.
      • yates j.r.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ),吉祥物(
      • Perkins D.N.
      • Pappin D.J.
      • 皱褶D.M.
      • Cottrell J.s.
      使用质谱数据搜索序列数据库来搜索基于概率的蛋白质识别。
      ),omssa(
      • geer l.y.
      • 马克S.P.
      • Kowalak J.A.
      • 瓦格纳L.
      • 徐M.
      • Maynard D.M.
      • 杨X.
      • 施W.
      • 布莱恩特S.H.
      开放质谱搜索算法。
      ),x!串联(
      • 克雷格r.
      • Beavis R.C.
      串联:匹配具有串联质谱的蛋白质。
      ),并检查(
      • 坦纳S.
      • 舒H.
      • 弗兰克A.
      • 王L.C.
      • Zandi E.
      • Mumby M.
      • PEVZNER P.A.
      • BAFNA V.
      检查:从串联质谱中鉴定后期改性肽。
      )。然而,对于ETD光谱的分析,大多数是不充分的,因为它们针对碰撞诱导的解离(CID)光谱进行了优化,其显示出与ETD光谱的抗碎片施力不同。另外,现有的串联质谱(MS / MS)工具偏向于对胰蛋白酶肽的分析,因为胰蛋白酶通常用于CID,因此不适合于分析ETD常见的非植物肽。因此,即使某些数据库搜索引擎支持对ETD谱的分析( 例如 续集,吉祥物和omssa),在分析ETD光谱方面,它们的性能仍然是次优。最近,开发了一个特定于ETD的数据库搜索工具(Z-Core);但是,对OMSSA没有显着改善(
      • Sadygov R.G.
      • 好D.M.
      • Swaney D.L.
      • Coon J.J.
      ETD. 谱的新概率数据库搜索算法。
      )。
      我们提出了一个新的数据库搜索工具(MS-GFDB),在ETD光谱分析中显着优于现有的数据库搜索引擎,并且在非植物肽上同样良好地执行。 MS-GFDB采用生成功能方法(MS-GF),其非常严格计算 p 基于所有肽的谱特异性分数直方图的肽谱匹配(PSM)的值(
      • 金斯。
      • Gupta n。
      • PEVZNER P.A.
      串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
      )。
      这里使用的术语“p值”和Kim等人,2008年使用的“光谱概率”一词(
      • 金斯。
      • Gupta n。
      • PEVZNER P.A.
      串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
      )是代名词。在整个纸张中,我们使用“p值”,因为它更普遍使用。
      MS-GF. p 值仅取决于PSM(而不是数据库),因此可以用作数据库搜索的替代评分函数。
      计算 p 值需要评分模型评估PSM的质量。 MS-GF采用KIM中描述的概率评分模型(MS文学分解模型) 等等。 ,2009年(
      • 金斯。
      • Gupta n。
      • Bandeira N.
      • PEVZNER P.A.
      光谱词典:与数据库搜索串联质谱集成De Novo Peptide Sequencing。
      ),考虑多个特征,包括产品离子类型,峰值强度和质量误差。要定义此评分模型的参数,MS-GF仅需要一组 训练 PSMs.
      一千PSM的独特肽通常是足够的。
      可以以各种方式获得该组PSM:例如,可以产生CID / ETD对并使用CID鉴定的肽以形成ETD。或者,可以从纯化的蛋白质产生光谱(当PSM可以单独从精确的父质量推断时)或使用先前显影的(不是必需的最佳)工具来产生训练PSM。从这些训练PSM中,MS-GF自动导出得分参数而不假设关于特定肽碎片方法的细节(例如 ETD,CID等)和/或肽的蛋白水解起源。 MS-GF最初设计用于分析CID光谱,但现在它已经扩展到各种碎片技术和/或各种酶产生的其他类型的光谱。我们表明MS-GF可以成功应用于新颖的谱(例如 Lys-n肽的ETD(
      • taouatas n。
      • 博米姆。
      • Heck A.J.
      • 穆罕默德S.
      使用Lys-N金属膨胀酶肽酶的肽的直接梯形序列。
      ,
      • eppstein d。
      基于SCX基于SCX的肽分馏,用于通过碰撞诱导的最佳测序,电子转移解离。
      ))通过简单地重新培训得分参数而不进行任何修改。注意,尽管使用相同的评分模型用于不同类型的光谱,但是导出以得分不同类型的光谱的参数是不同的。
      我们将MS-GFDB与吉祥物对大型ETD数据集的性能进行了比较,发现它为相同的错误发现速率(FDR)产生了更多的肽标识。例如,在1%肽水平FDR中,MS-GFDB鉴定了来自Lys-N肽的81,864 ETD光谱的9450个独特的肽,而吉祥物仅鉴定了3672个独特的肽,肽鉴定的数量增加(观察到类似的改进)对于胰蛋白肽的ETD光谱)。
      肽水平FDR定义为诱饵数据库中的独特肽的数量超过目标数据库中的独特肽在某个阈值下的独特肽数。在1%光谱水平FDR中,MS-GFDB鉴定了22,003个光谱,而吉祥物鉴定了9027个光谱,Lys-N肽的ETD光谱的鉴定光谱数量增加140%。
      MS-GFDB还表现出胰蛋白酶肽的CID光谱的鉴定肽数的显着增加了28%(与吉祥物鉴定的12,658个肽相比,来自12,6,203肽)。
      ETD. 技术补充而不是取代CID,因为这两种技术都具有一些优点:CID用于小费的较小肽,ETD用于较大和繁多的带电肽(
      • Zubarev R.A.
      • Zubarev A.R.
      • Savitski m.m.
      电子捕获/转移与牢固激活/诱导的解离:独奏或二重奏?
      ,
      • Swaney D.L.
      • Mcalister G.C.
      • Coon J.J.
      霰弹枪蛋白质组学的决策树驱动串联质谱。
      )。利用ETD的另一种方法是与CID一起使用它,因为CID和ETD生成互补序列信息(
      • Zubarev R.A.
      • Zubarev A.R.
      • Savitski m.m.
      电子捕获/转移与牢固激活/诱导的解离:独奏或二重奏?
      ,
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      ,
      • Savitski m.m.
      • Nielsen M.L.
      • Kjeldsen F.
      • Zubarev R.A.
      蛋白质组学评级DE Novo测序方法。
      )。 ETD的仪器通常支持为同一肽产生CID和ETD谱(CID / ETD对)。虽然CID / ETD对承诺肽识别的巨大改善,但这些对的全部潜力尚未完全实现。如果是 德诺维 测序, 德诺维 使用CID / ETD对的测序工具确实导致更准确 德诺维 肽测序比传统的基于CID的算法(
      • Savitski m.m.
      • Nielsen M.L.
      • Kjeldsen F.
      • Zubarev R.A.
      蛋白质组学评级DE Novo测序方法。
      ,
      • Datta R.
      • 伯尔尼姆。
      光谱融合:使用多种质谱进行DE Novo肽测序。
      ,
      • 伯克沙A.
      • Leinenbach A.
      • Pervukhin A.
      • Lubeck M.
      • 哈特默·罗
      • Baessmann C.
      • Elnakady Y.A.
      • Müllerr.
      • BöckerS.
      • HUBER C.G.
      • Kohlbacher O.
      使用互补CID和电子转移解离串联MS的Novo肽测序。
      )。然而,在数据库搜索的情况下,使用CID / ETD对的论点改善了肽识别仍然很差。开发了一些工具来使用数据库搜索的CID / ETD(或CID / ECD)对,但它们仅限于运行传统数据库搜索工具之前或之后的频谱数据的预处理/后处理(
      • 莫里娜H.
      • Matthiesen R.
      • Kandasamy K.
      • Pandey A.
      碰撞诱导解离和电子转移解离的综合比较。
      ,
      • 好D.M.
      • 温格C.D.
      • Mcalister G.C.
      • 白D.L.
      • 狩猎d.f.
      • Coon J.J.
      采集后ETD光谱处理,用于增加肽鉴定。
      )。尼尔森 等等。 ,2005年(
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      )在数据库搜索中启动了CID和ECD的结合使用。给定CID / ECD对,它们产生的组合光谱仅包括互补的峰,并用吉祥物搜查。
      组合频谱是从支撑相同骨干裂解的一组峰的一组峰产生的伪频谱。该对可能来自相同的光谱(例如 群众总和的两个峰等于父质量或不同的光谱(例如 来自CID光谱的峰值和来自ECD光谱的峰值,质量差为16.02Da,代表可能对Y和Z片段离子)。
      然而,这种方法很难通过离子陷阱仪器产生的较少准确的CID / ETD对,因为所识别的互补成对峰值是虚假的更高的机会。更重要的是,使用传统的MS / MS工具(例如吉祥物)的组合频谱的数据库搜索是不合适的,因为它们未优化以分析这种组合的光谱;更好的方法是开发为组合频谱量身定制的新数据库搜索工具。最近,莫里娜 等等。 ,2008年(
      • 莫里娜H.
      • Matthiesen R.
      • Kandasamy K.
      • Pandey A.
      碰撞诱导解离和电子转移解离的综合比较。
      )使用Spectrum Mill(Agilent Technologies,Santa Clara,CA)研究了CID / ETD对的数据库搜索,并通过仅使用CID Spectra来识别比使用CID / ETD对更具独特的肽的违反直觉的结论。我们认为,它是对传统MS / MS数据库搜索工具的限制,用于分析从单个肽产生的多个光谱。
      在本文中,我们修改了用于解释CID / ETD对的生成功能方法,并进一步应用它以改善CID / ETD对的数据库搜索。与先前的方法相比,我们的评分专门设计用于解释CID / ETD对,并且可以广泛地分析从单个肽产生的任何类型的多谱。当使用从胰蛋白酶消化物中的CID / ETD对时,与仅使用CID光谱和仅使用ETD光谱的情况相比,MS-GFDB与仅使用CID光谱和ETD光谱的情况相比,MS-GFDB鉴定为13%和27%。当使用Lys-N摘要的CID / ETD对时,差异甚至更突出,仅在CID和ETD中分别改善41%和33%。
      分配A. p PSM的价值极大地帮助研究人员评估肽鉴定的质量。我们现在转向分配一个问题 p 肽频谱匹配的值(PS2m)当PS中的两个光谱2m由不同的碎片技术生成(例如 ETD和CID)。我们认为为PS分配统计学意义2m(甚至psnm)是严格的CID / ETD分析的先决条件。据我们所知,MS-GFDB是第一个在统计上严谨的工具 p values of PSn 小姐。
      MS-GF. DB可执行文件和源代码可在UCSD的计算质谱中心网站上获得(http://proteomics.ucsd.edu)。它需要一组光谱(CID,ETD或CID / ETD对)和蛋白质数据库,作为输入和输出肽匹配。如果输入是一组CID / ETD对,则输出最佳评分肽匹配及其 p 值(1)仅使用CID光谱,(2)仅使用ETD光谱,并使用CID / ETD对的组合光谱来使用(3)。

      实验步骤

       细胞裂解物的消化

      HEK293细胞生长至汇合,收获并重新悬浮在裂解缓冲液中(50铵碳酸氢铵,8 m 尿素,完全EDTA蛋白酶抑制剂混合物(罗氏应用科学),5米m 磷酸钾,1米m 氟化钾和1米m 钠钒酸钠)并在4℃下孵育20分钟。不溶性分数以1000×旋转下来 g 在4℃下10分钟,使用2dquant套件(GE Healthcare)测定上清液的蛋白质含量。每1mg裂解物45米m 二硫噻唑醇用于还原(在50℃下30分钟)和100米m 碘乙酰胺用于随后的烷基化(在室温下30分钟)。通过在室温下用1.25μgLys-C的1mg细胞裂解物消化1mg细胞裂解物产生胰蛋白酶消化物,然后稀释至2 m 尿素和在37℃下用15μg胰蛋白酶的消化16小时。通过在室温下用5μgLys-n消化1mg细胞裂解物来消化1mg细胞裂解物,稀释至2 m 尿素,另一种在37℃下具有5μgLys-n的两种消化。

       强阳离子交换(SCX)的肽预选

      如前所述进行肽的分馏(
      • taouatas n。
      • Altelaar a.f.
      • 博米姆。
      • Helbig A.O.
      • 穆罕默德S.
      • Heck A.J.
      基于强的阳离子换碳的百分比肽的分馏促进了翻译后修饰的靶向分析。
      ,
      • Gauci S.
      • Helbig A.O.
      • Slijper M.
      • Krijgsveld J.
      • Heck A.J.
      • 穆罕默德S.
      Lys-N和胰蛋白酶在基于SCX的方法中以精制的SCX方法覆盖磷脂蛋白酶的互补部分。
      )。详细地,使用甲酸酸化消化物,并使用在100μl/ min的Agilent 1100高压液相色谱(HPLC)系统中加载到两个C18盒上,在水中以100μl/ min操作。然后在水中使用80%乙腈和0.05%甲酸在水中从C18盒中洗脱肽,然后在多硫代乙基一柱(200mM×2.1mm柱,Polylc)上。使用非线性梯度在200μl/ min下进行不同肽种群的分离,如下:0至10min 100%溶剂A(5米m KH24,30%乙腈,0.05%的甲酸),10至15分钟,从0%〜26%溶剂B(350米m KCl, 5 mm KH24,30%乙腈,0.05%的甲酸),15至40分钟从26%至35%溶剂B和40-45分钟,从35%到60%溶剂B,45-49分钟,从60%到100%溶剂B.级分以1分钟的间隔收集40分钟,在真空离心机中干燥,并重新悬浮在10%的甲酸中。

       质谱

      在反相纳米-LC偶联的LTQ Orbitrap XL ETD(Thermo Fisher Scientific)上分析SCX级分。 Agilent 1200系列HPLC系统配备了20毫米Aqua C18(现象)捕获柱(内部填充,100μm内径,5μm粒径)和400 mm Reprosil-Pur C18-AQ(Maisch GmbH博士)分析柱(内部填充,内径50μm,3μm粒径)。在5μL/ min溶剂C中进行诱捕(0.1 m 水中的乙酸)10分钟,梯度从10%至30%(v / v)溶剂D(0.1 m 乙酸在1:4乙腈:水)在110分钟内在溶剂C中,在30分钟内在溶剂C中梯度为30%至50%(v / v)溶剂D,其次梯度为50%至100在5分钟内溶剂C中的%(v / v)溶剂D,最后100%溶剂d 2分钟。流速被动地从0.45ml / min分裂到100nl / min。使用远端涂覆的熔融二氧化硅发射器(360μm外径,20μm内径,10μm内径,新目的,新目的,实现纳米电喷雾。偏置至1.7 kV。该仪器以数据相关模式操作,以自动在MS和MS / MS之间切换。调查全扫描MS Spectra获取 m / z. 350 to m / z. 1500在壁图中,分辨率为60,000 m / z. 在线性离子阱中累积到目标值500,000之后的400。在AGC靶值为30,000和ETD的AGC靶值为50,000的AGC靶值的AGC靶值为30,000和ETD的AGC靶值下,在线性离子阱中均为阈值的最强烈离子。 ETD试剂AGC靶值设定为100,000,反应时间为50ms。

       数据处理

      从由质谱仪记录的每个原始数据文件,代表单个SCX分数,使用蛋白质组发现(1.0版,Thermo Fishific)产生包含CID或ETD碎片数据的两种不同的峰列表,具有信号 - 噪声阈值具有4Da的4Da,用8Da,用8Da的电荷减少的前体去除,并在120Da的窗口内除去从电荷降低的前体除去已知的中性损失的前体峰值去除。然后将胰蛋白酶衍生和Lys-n衍生肽的主要肽的SCX级分的单级分数峰列表合并为四个较大的峰列表,表示CID-Tryp,EtD-Tryp,CID-Lysn和EtD-Lysn 。整个数据集由168,960 CID / ETD对组成。其中,87,096对(51,233配料2+,24,854带有充电3+,11,009带电荷4+和更大)来自胰蛋白酶摘要和81,864(24,284,带有电荷2+,28,168带充电3+和29,412带电荷4+和更大)来自Lys-N摘要。在进一步的分析中考虑了具有2+至7+的前体电荷的光谱。可以从Tranche存储库下载与此稿件关联的所有光谱(原始文件和MZXML文件)和数据库搜索结果(http://proteomecommons.org/tranche/)使用以下哈希:
      mqtedmtwauupq41hjmpy / tnb3 + zxhc5gsmkurm + ljchfjtjrrrnj4wwnpkgwm0 / zge0zy / stg0nwjwtbbqmninxrki8aaaaaaaab5sa ==

       吉祥物分析

      吉祥物(版本2.3.0,矩阵科学)用于从IPI人体数据库组装的内部内置数据库(74,190条参赛作品)对内部内置的数据库(31,263,418氨基酸)来搜索峰值列表。 http://www.ebi.ac.uk/ipi)加上常见的污染物(目标数据库)。通过使用MaxQuant逆转所有序列和略微加扰条目来构建诱饵数据库(1.0.13.8; http://www.maxquant.org )(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
      )。单独搜索目标和诱饵数据库以估计FDR。下列参数用于数据库搜索:50ppm前体质量容差,0.5 da片段离子耐药性,最长次遗漏的切割,允许氨基甲酰半胱氨酸作为固定改性,无可变修饰。酶被指定为胰蛋白酶或Lys-n,仪器型ESI-trap或ETD-trap。

       培训MS-GF评分参数

      MS-GF. 将一组PSM作为输入训练集,并输出包含用于评分的参数的评分参数文件(有关培训评分参数的详细信息,请参阅补充1。我们首先使用PSM为四个数据集(CID-Tryp,ETD-Tryp,CID-Lysn和ETD-Lysn)生成初始评分参数文件,使用PSM与吉喇草分数相对应的含量分数小于1%作为训练集。使用这些初始参数文件,我们使用MS-GF运行MS-GFDB和选定PSM p 对应于肽水平FDR的值小于1%。这些PSM被用作新培训集,以构建最终评分参数文件。

        MS-GF. DB搜索(CID或ETD谱)

      因为MS-GFDB自动预处理光谱(参见 补充1 有关详细信息,我们使用READW 4.3.1将每个原始数据文件转换为MZXML文件(
      • 凯勒阿。
      • ENG J.
      • 张恩。
      • 李X.J.
      • Aeberberold R.
      使用Open XML文件格式的均匀蛋白质组学MS / MS分析平台。
      )并使用MS-GFDB搜索中的MZXML文件(而不是使用蛋蛋白质组发现,用于噪声和(充电减少)前体滤波)。 MS-GFDB搜索是针对与用于吉祥物搜索相同的参数的相同数据库进行。
      MS-GF. DB使用两个分数:MS-GF分数和 p 值(两者由MS-GF计算)。 MS-GF分数用于评估PSM的质量和 p 值用于评估PSM的统计学意义。为了计算MS-GF评分,MS-GF首先将每种光谱转换为前缀残留物质量(PRM)谱(
      • 坦纳S.
      • 舒H.
      • 弗兰克A.
      • 王L.C.
      • Zandi E.
      • Mumby M.
      • PEVZNER P.A.
      • BAFNA V.
      检查:从串联质谱中鉴定后期改性肽。
      ,
      • DančíkV.
      • addona t.a.
      • 克劳瑟K.R.
      • vath J.E.
      • PEVZNER P.A.
      通过串联质谱法测序De Novo肽测序。
      )使用特异于特定碎片技术和酶的评分参数。 PRM频谱是频谱的频谱,其每一个质量达到均质量的频谱的分数。
      可以根据质谱的分辨率来定义质量的粒度。在本文中,粒度设定为1Da(相当于片段离子耐受0.5Da)。尽管本文侧重于MS / MS光谱具有不准确的片段质量,但是MS-GFDB可以通过改变粒度来调整MS-GFDB与精确的片段质量分析光谱。
      如Dančík所述 等等。 ,1999年(
      • DančíkV.
      • addona t.a.
      • 克劳瑟K.R.
      • vath J.E.
      • PEVZNER P.A.
      通过串联质谱法测序De Novo肽测序。
      ),质量的PRM光谱的得分 m 表示衍生光谱的肽含有含有的肽含量的数量含量比例 m.
      每个长度的肽 n 定义 n-1 字首 群众代表第一个群众 i amino acids (for 1<i<n )。
      肽的肽的MS-GF评分与光谱相对于PRM光谱中的分数之和对应于肽的前缀块。计算 p 值,MS-GF生成分数直方图 所有肽 使用生成功能方法(参见(
      • 金斯。
      • Gupta n。
      • PEVZNER P.A.
      串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
      )有关生成功能方法的详细信息)。这 p 匹配得分的肽的价值 s 被定义为分数值(x 轴)等于或大于 s (看 补充2 有关MS-GF评分功能的详细信息)。 图1 说明了计算的过程 p values with MS-GF.
      图缩略图GR1.
      Fig. 1计算 p 用于单频谱的MS-GF的值。 鉴于串联质谱,MS-GF将光谱转换为PRM频谱(串联质谱的得分版本)。质量上的PRM光谱的得分 m 表示衍生光谱的肽含有含有的肽含量的数量含量比例 m。 PRM频谱中的负峰值表示群众更有可能代表不正确而不是正确的前缀群众。 PRM光谱中的这种负峰通常对应于实验频谱中的低强度或缺失的峰。 PRM光谱用于计算任何肽的MS-GF得分对光谱。然后,MS-GF使用产生功能方法计算所有肽的MS-GF分数的直方图。最后,MS-GF计算 p 肽的值作为直方图下的区域,其MS-GF得分等于或大于肽的MS-GF得分。
      给定频谱和蛋白质数据库,MS-GFDB为数据库中所有肽的MS-GF分数计算(类似于续集或吉祥物),发现肽具有最佳分数并报告其 p value.
      MS-GF. DB搜索仅针对含有3100万氨基酸的数据库仅为核心I7 2.7GHz CPU的计算机含有3100万氨基酸的数据库,具有12GB内存。我们最近发表了一项研究,用于使用斑点肽进一步加速MS-GFDB(MS-Gappeddictionary,Jeong等,2010(
      • 济孔克。
      • 金斯。
      • Bandeira N.
      • Pevzner P.
      旋转光谱词典及其对串联质谱数据库搜索的应用。
      )),一种类似于在检查中使用肽序列标签的方法(
      • 坦纳S.
      • 舒H.
      • 弗兰克A.
      • 王L.C.
      • Zandi E.
      • Mumby M.
      • PEVZNER P.A.
      • BAFNA V.
      检查:从串联质谱中鉴定后期改性肽。
      )。 MS-GappedDictionary使用MS-GF分数来产生用于快速数据库扫描的斑点肽,例如肽序列标签。组合MS-GappedDictionary和MS-GFDB使得大小速度的顺序能够加速。

        MS-GF. DB搜索(用于CID / ETD对)

      MS-GF. DB组合从单个前体离子(使用不同的碎片技术)生成的一对串联质谱并将组合频谱与数据库匹配。给定一对光谱,首先将每个光谱转换为PRM频谱(使用每种类型的频谱的碎片特定参数)并生成一个 总结PRM. 光谱。这 总结PRM谱 通过两个PRM光谱(具有相同的父质量)来计算 添加 对应于相同质量的两个PRM分数(日志似然比)。例如,如果在质量500处,两个PRM光谱相应地具有分数7和3,则总结PRM光谱在质量500处具有7 + 3 = 10。注意,在质量上求解PRM分数 m 相当于乘以质量的概率 m 是从中衍生的肽的前缀质量。该总和PRM模型假设离子类型在同一频谱内是独立的(
      • PEVZNER P.A.
      • DančíkV.
      • 唐c.l.
      通过质谱法识别突变蛋白质。
      )来自不同光谱(
      • Bandeira N.
      • 奥尔森J.V.
      • 曼J.v.
      • PEVZNER P.A.
      多光谱肽测序及其在多级质谱中的应用。
      ),证明在其他应用中有用的假设。 CID / ETD对的分数直方图使用SUMBID PRM频谱计算,并用于计算 p 价值观。 图2. 说明了流程 p c / ETD对的价值计算。该方法改进了Nielsen提出的先前方法 等等。 (
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      )因此,它利用了使用概率模型的某种骨干裂解(代表PRM得分)的证据,而(
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      )如果没有互补峰值或丢弃峰值,则只能保持峰值。因此,方法在(
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      )导致更严格的峰滤波,使得难以区分正确和不正确的肽鉴定。例如,给定与质量差的CID谱和高质量ETD频谱的CID / ETD对,该方法(
      • Nielsen M.L.
      • Savitski m.m.
      • Zubarev R.A.
      傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
      )不太可能解释该对,因为CID谱没有帮助识别“互补峰对”,并且所得频谱仅含有从ETD谱本身识别的几个峰。相反,总和PRM得分保留了有助于成功肽鉴定的ETD谱中的大部分序列信息。
      图缩略图GR2.
      Fig. 2计算 p 用于CID / ETD对MS-GF的值。 给定CID / ETD对,MS-GFDB将每个光谱转换为PRM频谱,并通过求解共享相同质量的峰值的分数来合并两个PRM光谱。这种“总结”PRM光谱用于产生所有肽的分数直方图 p 使用直方图计算值。
      注意,该方法可以推广到分析从单个前体离子产生的两个以上的串联质谱(例如 通过添加高能量碰撞解离光束型CID谱)。

      结果

       分析单个光谱

      对于每种CID-TRYP,ETD-TRYP,CID-LYSN和ETD-LYSN数据集,我们通过计算每种FDR(肽级FDR)的鉴定肽数量来比较MS-GFDB与吉祥物的性能单独的目标 - 诱饵搜索方法(
      • KällL.
      • Storey J.D.
      • maccoss m.j.
      • 贵族W.S.
      使用诱饵数据库对由串联质谱法鉴定的肽的意义。
      )。对于所有四个数据集,MS-GFDB优于吉祥物(Fig. 3)。例如,在1%FDR中,MS-GFDB在ETD-Tryp中鉴定了14,409个肽,而吉祥物鉴定了5310个肽。对于ETD光谱比CID光谱和Lys-N比胰蛋白酶消化物更高的差异,差异更高。这表明吉祥物对新数据类型的分析进行了优化,而MS-GFDB会自动适应新颖的数据类型。即使在CID-Tryp数据集的情况下,吉祥物在吉祥物经历了十年的发展,MS-GFDB也在整个FDR范围内鉴定含有更多肽的≈30%。使用频谱级FDR获得类似的结果(参见 补充3. )。
      图缩略图GR3.
      Fig. 3吉祥物和MS-GFDB的鉴定肽数来自(a)CID-TRYP和ETD-TRYP中的2个光谱(b)CID-LYSN和ETD-LYSN中的2个光谱(c)CID-TRYP和ETD-TRYP的3个光谱(d)CID-LYSN和ETD-LYSN中的3个光谱(e)CID-TRYP和ETD-TRYP的电荷4和更大的光谱,以及(f)CID-LYSN和ETD-LYSN的电荷4和更大的光谱。 针对相应的肽水平FDR绘制肽鉴定的数量。实体曲线代表MS-GFDB和虚线曲线代表吉祥物。绿色曲线代表CID和蓝色曲线代表ETD。吉祥物离子分数和MS-GFDB p 值用于计算FDR。单独计算FDRS的前体电荷2,前体电荷3和前体电荷4和更大的FDR。对于考虑的所有情况,MS-GFDB优于吉祥物。
      MS-GF. DB也表现出续集和omssa(见 补充4.)。为了提高现有MS / MS数据库搜索工具的性能,Peptipeprocet(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ),iprophet和渗滤器(
      • KällL.
      • 坎特伯雷J.D.
      • 韦斯顿J.
      • 贵族W.S.
      • maccoss m.j.
      霰弹枪蛋白质组学数据集的半监督学习肽鉴定。
      ,
      • 麸皮
      • yu l.
      • 哈贝德T.
      • Choudhary J.
      用吉祥物过滤器准确敏感的肽鉴定。
      )重振他们的PSM,导致肽鉴定的数量显着增加。
      Shteynberg,D。等,串联质谱数据集的后处理和验证改善了IProShet。 (在准备。)
      但是,MS-GFDB优于偶数肽前进,IProShet和渗滤器,这利用了MS-GF不可用的额外信息,例如所有PSM的得分分布和保留时间信息(补充剂4和5 )。
      在这个实验中,我们使用了对培训和测试的相同数据,从而提高了对过度拟合的有效担忧。这是因为我们观察到MS-GF参数表征特定协议(例如 对于特定酶的ETD),关于特定数据集是相当稳定的, IE。 具有相同协议的可变数据集导致类似的MS-GF参数。为了解决这个问题,我们证明了如果我们从训练数据集中得出MS-GF评分参数 A 并将其应用于测试数据集 B,结果与从数据集中导出MS-GF评分参数相比,结果几乎没有变化 B 并将其应用于相同的数据集 B (看 补充6. )。
      对于以下进一步分析,使用MS-GFDB的四个数据集选择具有低于1%以下的FDRS的PSM;如果与相同的肽相同的多个相同的电荷的光谱,则仅选择具有最佳分数的。来自CID-TRYP / ETD-TRYP / CID-LYSN / ETD-LYSN数据集,选择了16,203 / 14,409 / 8893/9450 PSMS并由CID-TROP - 自信/ ETD-TROP - 自信/ CID-Lysn-Cleas自信/表示ETD-Lysn-Cleast。

       不同光谱数据集离子碎片统计的比较

      取决于碎裂方法和前体离子电荷,相同肽的光谱是不同的。此外,由一种酶产生的肽的光谱(例如 以Lys或Arg)结尾的胰蛋白肽确实具有与其他酶产生的肽的光谱不同的碎片施力(例如 从Lys开始的Lys-N肽)(
      • taouatas n。
      • Altelaar a.f.
      • 博米姆。
      • Helbig A.O.
      • 穆罕默德S.
      • Heck A.J.
      基于强的阳离子换碳的百分比肽的分馏促进了翻译后修饰的靶向分析。
      ,
      • Boersema P.J.
      • taouatas n。
      • Atelaar a.f.
      • gouw J.W.
      • 罗斯P.L.
      • Pappin D.J.
      • Heck A.J.
      • 穆罕默德S.
      使用Lys-N金属膨胀酶的MALDI-MS / MS直截了当和脱肽测序。
      )。 ETD光谱主要由C和Z·离子(及其中性损失)组成的常见知识,而CID光谱是B和Y离子(并且它们的中性损耗)不足以设计良好的评分功能,因为一个人必须知道这些离子的促使(可能性)和许多其他中性损失(
      • Coon J.J.
      碰撞或电子? 21世纪蛋白质序列分析。
      )。为了分析不同类型的光谱的这些拟议,我们测量了观察到某种离子类型的概率(Fig. 4)并绘制给定等级的峰值的分布为一定的离子类型( 图。 5. 6)如上所示(
      • 金斯。
      • Gupta n。
      • Bandeira N.
      • PEVZNER P.A.
      光谱词典:与数据库搜索串联质谱集成De Novo Peptide Sequencing。
      ,
      • DančíkV.
      • addona t.a.
      • 克劳瑟K.R.
      • vath J.E.
      • PEVZNER P.A.
      通过串联质谱法测序De Novo肽测序。
      )。
      峰值的等级定义为具有高于或等于峰强度的强度的峰值(相同频谱)的数量(
      • 金斯。
      • Gupta n。
      • Bandeira N.
      • PEVZNER P.A.
      光谱词典:与数据库搜索串联质谱集成De Novo Peptide Sequencing。
      )。
      注意具有高强度的高丰度C离子 图5.d,确认先前发布的结果(
      • taouatas n。
      • 博米姆。
      • Heck A.J.
      • 穆罕默德S.
      使用Lys-N金属膨胀酶肽酶的肽的直接梯形序列。
      )。所示的功能 图4., 5 , 和 6 由MS-GF评分函数自动导出,并促进了MS-GFDB在其他工具上的改进性能。
      图缩略图GR4.
      Fig. 4四种类型的各种离子类型的概率(a)充电2个光谱和(b)充电3 Spectra(参见 (
      • DančíkV.
      • addona t.a.
      • 克劳瑟K.R.
      • vath J.E.
      • PEVZNER P.A.
      通过串联质谱法测序De Novo肽测序。
      ) 有关类似的分析)。 使用CID-tryp-cleant,ETD-TROP自信,CID-Lysn-Cleant和ETD-Lysn-Implication的Spectra。过滤所有光谱以除去嘈杂的峰,如下:给定质量峰值 M如果它在宽度100 da窗口内的前六个峰值中,我们保留了峰值 M。还滤出前体离子(或电荷降低的前体离子)及其衍生物。彩色栏代表概率(y 某种类型的离子(x 轴)存在于过滤的光谱中。每个数据集都是颜色编码。例如,预期从长度10肽产生的CID轨网的充电2谱预期具有10-1(潜在的裂解位点)×0.76(Y离子的概率)= 6.8y离子,而电荷2预计ETD-ktps自信中的光谱仅具有9×0.26 = 2.3y离子。在MS-GFDB中,所有具有超过0.15的离子类型用于评分(参见 for details).
      图缩略图GR5.
      Fig. 5不同数据集的不同离子类型的等级分布: a,CID-TROP自信; b,cid-lysn-cleann; c,etd-tryp-cleann;和 d,Etd-Lysn自信。 仅考虑两种光谱,过滤所有光谱以除去前体离子(或电荷还原的前体离子)及其衍生物。对于每个数据集,选择了具有最高概率的10种不同的离子类型,并且给定等级的峰值的概率( x 作为某个离子类型(颜色编码)的轴用于距离等级1至100的峰值。黑色曲线(标记为未解释)表示未被10种所选离子类型中的任何一个解释的峰。例如,对于CID-Trop自信的电荷2,最高排名峰值表示具有概率0.7的单电荷的Y离子,具有概率0.1的双电荷Y离子(Y2),具有概率0.04的单电荷的B离子。它概率仍然有0.1。
      图缩略图GR6.
      Fig. 6图中的类似物。 5为充电3光谱。

       “交叉路口”和“联盟”方法识别CID / ETD对的陷阱

      据信,利用CID / ETD对有助于改善肽标识的置信度,因为从一种方法的识别交叉验证另一个方法。但是,对于如何利用CID / ETD对进行数据库搜索,没有达成共识。常见做法是单独运行数据库搜索CID谱和ETD光谱,好像配对甚至不知道,使用预定义阈值识别自信的PSM( 例如 肽水平FDR 1%或预定义评分阈值)并参加CID PSM和ETD PSM(交叉点)。例如,在CID-TRYP和ETD-TROP中,存在50,765个光谱对,其中CID或ETD光谱(或两者)在肽水平FDR1%内用MS-GFDB被自信地鉴定。在32,431个谱对(表示12,093个不同的肽)中,CID鉴定和ETD识别是相同的,表明这些识别是可靠的(Fig. 7a)。为了测量这些“交叉点”光谱对的FDR,我们重复了对诱饵数据库的标识相同的程序,并获得了CID和ETD标识的八对(代表五个肽)(Fig. 7b);因此,肽水平FDR对应于5 / 12,093 = 4.1·10−4。虽然采用交叉点改善所得肽鉴定的置信度(在FDR接近0时的12,093个肽),但在相同的置信水平下,MS-GFDB仅使用CID光谱鉴定出7%的肽(未示出) Fig. 7 )!
      对于Lys-N摘要,我们鉴定了使用交叉点的5788肽,相当于3.5·10−4 FDR;在相同的FDR中,MS-GFDB仅鉴定了仅使用CID光谱的类似数量的肽。
      这表明这种方法效率低下,考虑到仪器时间的一半被浪费生成的ETD光谱,这并没有有助于改善肽鉴定的数量。
      图缩略图GR7.
      Fig. 7Venn图(a)针对肽水平FDR 1%的肽水平和(b)针对诱饵数据库识别的光谱对 p 对应于肽水平FDR的值1%或更低。 显示肽的数量(括号中的光谱对数)。灰色数字对应于CID和ETD识别不同意的光谱对的数量(括号中的百分比)。
      交叉路口方法的性能不佳可以通过来自同一对的CID和ETD光谱的分数中的依赖来解释。对诱饵数据库中的命中的检查显示,CID光谱的高分PSM通常对应于来自同一对的ETD光谱的高分PSM。结果,与普通信念相反,交叉方法具有有限的消除不正确PSM的能力。另一方面,目标数据库中的许多命中都有高分CID光谱和ETD光谱的低分(或 反之亦然),从而减少交叉方法返回的正确PSM的数量。
      类似地,可以服用鉴定的肽的“联合”(所有显着的CID鉴定加上所有重要的ETD鉴定)以获得更多的肽鉴定。例如,从上述50,765个光谱对,可以采用4073 + 12,093 + 2280 = 18,446肽,对应于FDR(154 + 5 + 137)/ 18,446 = 1.6%。
      光谱对,CID和ETD识别不同意(红色数字 Fig. 7)被丢弃了。
      在相同的FDR水平下,MS-GFDB仅从CID光谱确定16,636个肽,因此该联合方法导致肽数量增加11%。虽然这种改善肽数(具有较大的FDR)是有意义的,但我们所提出的方法导致相当数量的鉴定的肽,以更严格的置信水平(1%FDR而不是1.6%)。

       组合CID / ETD光谱的标识

      给定CID / ETD对,可以生成“组合频谱”并使用组合频谱搜索数据库。我们使用如上所述的总和PRM光谱(由MS-GFDB CID / ETD表示),并使用仅使用CID光谱(MS-GFDB CID)或ETD光谱(MS-GFDB ETD)与MS-GFDB进行其性能。 MS-GFDB CID / ETD与MS-GFDB CID或MS-GFDB ETD相比,在整个FDR范围内鉴定了更多的肽,用于胰蛋白酶消化和Lys-N摘要(Fig. 8)。例如,在1%FDR中,MS-GFDB CID / ETD鉴定来自CID / ETD对胰蛋白酶消化物的18,342个肽,来自Lysn消化物的12,561个肽,相当于CID时的13%,27%,41%和33%改善-typ,ETD-TRYP,CID Lysn和ETD-Lysn数据集分别单独使用。如果我们考虑电荷3和更大的光谱(其中ETD具有CID的优势),则改善变得更显着:23%,30%,68%和21%。
      图缩略图GR8.
      Fig. 8来自MS-GFDB CID / ETD的鉴定肽数(a)CID-TRYP和ETD-TRYP中的2个谱对(b)CID-LYSN和ETD-LYSN中的2个光谱对,(c)CID-TRYP和ETD-TRYP的3个光谱对(d)CID-LYSN和ETD-LYSN的3个光谱对,(e)CID-TRYP和ETD-TRYP的电荷4和更大的谱对,和(f c -LYSN和ETD-LYSN的电荷4和更大的光谱对。 还示出了具有MS-GFDB的鉴定肽的数量以供参考。针对相应的肽水平FDR绘制肽鉴定的数量。单独计算FDRS的前体电荷2,前体电荷3和前体电荷4和更大的FDR。红色曲线代表MS-GFDB CID / ETD,绿色曲线表示MS-GFDB CID和蓝色曲线代表MS-GFDB ETD。对于所考虑的所有情况,MS-GFDB优于MS-GFDB CID和MS-GFDB ETD。
      MS-GF. DB CID / ETD的提高性能是因为构建组合光谱的概率模型。我们谨讨论构建组合光谱的蛮力方法实际上减少了肽识别的数量(补充7. )。

      讨论

      我们证明了发电功能方法很容易适应对新型光谱类型的分析。对于我们已测试的所有类型的频谱数据集,MS-GFDB优于最先进的MS / MS数据库搜索工具。我们进一步证明了如何利用来自CID / ETD对的组合CID / ETD光谱使用MS-GFDB。
      我们强调MS-GFDB以完全相同的方式分析所有不同的数据集,使用不同的评分参数由相同的训练过程自动派生。虽然可能似乎对MS-GF评分函数(定义为向量的简单点)来提高传统MS / MS工具中使用的更复杂的评分功能,但是通过导出严格的MS-GF,可以实现 p 使用生成功能方法的值。我们并不声称MS-GF分数比吉祥物分数“更好”,但我们确实表明了这一点 p 源自MS-GF的价值观大大提高了吉祥物评分。这种观察强调严格的重要性 p 对吉祥物和续集等流行工具保持不可用的值。
      从同一前体分析频谱对的问题与组合MS的数据库搜索分数的问题有关。2 和 MS3 来自奥尔森和曼恩,2004年寻址的相同肽的光谱(
      • 奥尔森J.V.
      通过三个质谱碎裂的连续阶段改善蛋白质组学中的肽鉴定。
      ),Bandeira. 等等。 ,2008年(
      • Bandeira N.
      • 奥尔森J.V.
      • 曼J.v.
      • PEVZNER P.A.
      多光谱肽测序及其在多级质谱中的应用。
      )和乌尔兹 等等。 ,2008年(
      • ulintz p.j.
      • Bodenmiller B.
      • 安德鲁斯P.C.
      • Aeberberold R.
      • nesvizhskii a.i.
      研究MS2 / MS3匹配统计:用于耦合连续阶段质谱数据的模型,提高肽鉴定信心。
      )。 Olsen和Mann,2004和Bandeira 等等。 ,2008年开发了MS的概率评分模型2 光谱并用它来调整MS3 通过求解ms来得分2 和 MS3 得分。虽然这种方法类似于我们的方法,但两者都使用(对数似然)分数作为一对的分数,它没有提供严格的框架来计算 p 该对的价值。另一方面,Ulintz 等等。 ,2008年开发了一种方法,分别为MS搜索数据库2 和 MS3 如果顶部得分序列匹配(类似于上述交叉点方法),则光谱和调整两个光谱的概率。相比之下,我们的方法考虑所有可能的情况(例如 包括对CID光谱的分数差和对ETD光谱的良好分数的肽,并使用它们来计算 p 价值观,以前研究中缺少的东西。
      ETD. 在分析具有翻译后修饰(PTM)的肽(PTM)的肽中具有一定的优势(
      • taouatas n。
      • 博米姆。
      • Heck A.J.
      • 穆罕默德S.
      使用Lys-N金属膨胀酶肽酶的肽的直接梯形序列。
      ,
      • Domon B.
      • Bodenmiller B.
      • Carapito C.
      • 昊Z.
      • Huehmer A.
      • Aeberberold R.
      电子传递与碰撞激活结合研究,以研究果蝇磷蛋白酶磷酸酯组。
      ,
      • Swaney D.L.
      • 温格C.D.
      • Thomson J.A.
      • Coon J.J.
      人胚胎干细胞磷脂蛋白酶通过电子转移解离串联质谱法揭示。
      ,
      • Chalkley R.J.
      • Thalhammer A.
      • Schoepfer R.
      • 伯灵名A.L.
      用电子转移解离质谱法在天然肽上鉴定蛋白质O-甘露苯基化位点。
      )。 MS-GFDB可用于鉴定修饰的肽。当预先选择PTM(限制性搜索PTMS)时,MS-GFDB仅需要将具有PTMS的氨基酸质量添加到标准的20氨基酸组中。在分析磷酸化肽样品中,MS-GFDB从CID光谱中鉴定约30%-40%的肽,而ETD光谱的肽约为60%-90%而不是吉祥物(补充8)。在该数据集中的吉祥物MS-GFDB的增益小于上述其他数据集中。这是因为我们使用由未经修改的光谱训练的参数来得分磷酸化肽的光谱。众所周知,一些翻译后修饰(PTMS)如磷酸化改变了光谱的碎片倾向,特别是在CID光谱的情况下(
      • Boersema P.J.
      • 穆罕默德S.
      • heck a.j.r.
      质谱分段和分析质谱法。
      )。因此,为了有效地分析这种PTM,需要开发特定于目标PTM的评分功能(
      • Payne S.H.
      • yau m.
      • Smolka M.B.
      • 坦纳S.
      • 周H.
      • BAFNA V.
      特异性磷酸化的MS / MS评分,用于快速和准确的磷酸溶解组分析。
      )。设计PTM特异性评分功能和改性肽的发电功能超出了本文的范围。

      补充材料

      参考

        • Zubarev R.
        • Kelleher N.
        • MLEFFERTY F.
        电子捕获乘法蛋白阳离子的捕获解离。一个非精通过程。
        J.IM。化学。 SOC。 1998; 120: 3265-3266
        • Cooper H.J.
        • Håkanssonk.
        • Marshall A.G.
        电子捕获解离在生物分子分析中的作用。
        质谱。录 2005; 24: 201-222
        • Syka J.E.
        • Coon J.J.
        • Schroeder M.J.
        • Shabanowitz J.
        • 狩猎d.f.
        通过电子转移解离质谱法分析肽和蛋白质序列分析。
        Proc。 Natl。阿卡。 SCI。美国。 2004; 101: 9528-9533
        • Taverna S.D.
        • Ueberheide下班。
        • 刘Y.
        • Tackett A.J.
        • Diaz R.L.
        • Shabanowitz J.
        • Chait B.T.
        • 狩猎d.f.
        • Allis C.D.
        组蛋白H3 n末端甲基化与乙酰化与乙酰化之间的长距离组合联动。
        Proc。 Natl。阿卡。 SCI。美国。 2007; 104: 2086-2091
        • Khidekel N.
        • Ficarro S.B.
        • 克拉克下午
        • Bryan M.C.
        • Swaney D.L.
        • Rexach J.E.
        • 太阳y.e.
        • Coon J.J.
        • 彼得斯e.c.
        • Hsieh-Wilson L.C.
        用定量蛋白质组学探测脑中O-Glcnac糖基化的动态。
        NAT。化学。 BIOL。 2007; 3: 339-348
        • Appella E.
        • 安德森C.W.
        蛋白质组学 - 电子捕获(ECD)和电子转移解离(ETD)碎片技术和组合分数对角线色谱(CoFradic)的新前景。
        FEBS J. 2007; 274: 6255
        • 莫里娜H.
        • 喇叭d.m.
        • 唐ñ。
        • Mathivanan S.
        • Pandey A.
        磷酸肽的全局蛋白质组学分析使用电子转移解离串联质谱法。
        Proc。 Natl。阿卡。 SCI。美国。 2007; 104: 2199-2204
        • Altelaar a.f.
        • 穆罕默德S.
        • 麸皮
        • Adan R.A.
        • Heck A.J.
        通过多重肽提取方法改善鼠神经组织的内源肽的鉴定和多路复用质谱分析。
        J.蛋白质组。 2009; 8: 870-876
        • 穆罕默德S.
        • Lorenzen K.
        • Kerkhoven R.
        • van Breukelen B.
        • Vannini A.
        • 克莱默P.
        • Heck A.J.
        酵母RNA聚合酶II和III的多路复用蛋白质组学映射允许接近完全的序列覆盖并揭示几个新的磷酸化位点。
        肛门。化学。 2008; 80: 3584-3592
        • ENG J.K.
        • mccormack a.l.
        • yates j.r.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • Perkins D.N.
        • Pappin D.J.
        • 皱褶D.M.
        • Cottrell J.s.
        使用质谱数据搜索序列数据库来搜索基于概率的蛋白质识别。
        电泳。 1999; 20: 3551-3567
        • geer l.y.
        • 马克S.P.
        • Kowalak J.A.
        • 瓦格纳L.
        • 徐M.
        • Maynard D.M.
        • 杨X.
        • 施W.
        • 布莱恩特S.H.
        开放质谱搜索算法。
        J.蛋白质组。 2004; 3: 958-964
        • 克雷格r.
        • Beavis R.C.
        串联:匹配具有串联质谱的蛋白质。
        生物信息学。 2004; 20: 1466-1467
        • 坦纳S.
        • 舒H.
        • 弗兰克A.
        • 王L.C.
        • Zandi E.
        • Mumby M.
        • PEVZNER P.A.
        • BAFNA V.
        检查:从串联质谱中鉴定后期改性肽。
        肛门。化学。 2005; 77: 4626-4639
        • Sadygov R.G.
        • 好D.M.
        • Swaney D.L.
        • Coon J.J.
        ETD. 谱的新概率数据库搜索算法。
        J.蛋白质组。 2009; 8: 3198-3205
        • 金斯。
        • Gupta n。
        • PEVZNER P.A.
        串联质谱的频谱概率和生成功能:对诱饵数据库的罢工。
        J.蛋白质组。 2008; 7: 3354-3363
        • 金斯。
        • Gupta n。
        • Bandeira N.
        • PEVZNER P.A.
        光谱词典:与数据库搜索串联质谱集成De Novo Peptide Sequencing。
        摩尔。细胞。蛋白质组学。 2009; 8: 53-69
        • taouatas n。
        • 博米姆。
        • Heck A.J.
        • 穆罕默德S.
        使用Lys-N金属膨胀酶肽酶的肽的直接梯形序列。
        NAT。方法。 2008; 5: 405-407
        • eppstein d。
        基于SCX基于SCX的肽分馏,用于通过碰撞诱导的最佳测序,电子转移解离。
        J.蛋白质组学生物素。 2008; 1: 379-388
        • Zubarev R.A.
        • Zubarev A.R.
        • Savitski m.m.
        电子捕获/转移与牢固激活/诱导的解离:独奏或二重奏?
        J.IM。 SOC。质谱。 2008; 19: 753-761
        • Swaney D.L.
        • Mcalister G.C.
        • Coon J.J.
        霰弹枪蛋白质组学的决策树驱动串联质谱。
        NAT。方法。 2008; 5: 959-964
        • Nielsen M.L.
        • Savitski m.m.
        • Zubarev R.A.
        傅里叶变换质谱法利用互补分段技术改善蛋白质鉴定。
        摩尔。细胞。蛋白质组学。 2005; 4: 835-845
        • Savitski m.m.
        • Nielsen M.L.
        • Kjeldsen F.
        • Zubarev R.A.
        蛋白质组学评级DE Novo测序方法。
        J.蛋白质组。 2005; 4: 2348-2354
        • Datta R.
        • 伯尔尼姆。
        光谱融合:使用多种质谱进行DE Novo肽测序。
        J. COPPLE。 BIOL。 2009; 16: 1169-1182
        • 伯克沙A.
        • Leinenbach A.
        • Pervukhin A.
        • Lubeck M.
        • 哈特默·罗
        • Baessmann C.
        • Elnakady Y.A.
        • Müllerr.
        • BöckerS.
        • HUBER C.G.
        • Kohlbacher O.
        使用互补CID和电子转移解离串联MS的Novo肽测序。
        电泳。 2009; 30: 3736-3747
        • 莫里娜H.
        • Matthiesen R.
        • Kandasamy K.
        • Pandey A.
        碰撞诱导解离和电子转移解离的综合比较。
        肛门。化学。 2008; 80: 4825-4835
        • 好D.M.
        • 温格C.D.
        • Mcalister G.C.
        • 白D.L.
        • 狩猎d.f.
        • Coon J.J.
        采集后ETD光谱处理,用于增加肽鉴定。
        J.IM。 SOC。质谱。 2009; 20: 1435-1440
        • taouatas n。
        • Altelaar a.f.
        • 博米姆。
        • Helbig A.O.
        • 穆罕默德S.
        • Heck A.J.
        基于强的阳离子换碳的百分比肽的分馏促进了翻译后修饰的靶向分析。
        摩尔。细胞。蛋白质组学。 2009; 8: 190-200
        • Gauci S.
        • Helbig A.O.
        • Slijper M.
        • Krijgsveld J.
        • Heck A.J.
        • 穆罕默德S.
        Lys-N和胰蛋白酶在基于SCX的方法中以精制的SCX方法覆盖磷脂蛋白酶的互补部分。
        肛门。化学。 2009; 81: 4493-4501
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • 凯勒阿。
        • ENG J.
        • 张恩。
        • 李X.J.
        • Aeberberold R.
        使用Open XML文件格式的均匀蛋白质组学MS / MS分析平台。
        MOL SYST BIOL。 2005; 1 (2005.0017)
        • DančíkV.
        • addona t.a.
        • 克劳瑟K.R.
        • vath J.E.
        • PEVZNER P.A.
        通过串联质谱法测序De Novo肽测序。
        J. COPPLE。 BIOL。 1999; 6: 327-342
        • 济孔克。
        • 金斯。
        • Bandeira N.
        • Pevzner P.
        旋转光谱词典及其对串联质谱数据库搜索的应用。
        讲座笔记计算机SCI。 2010; 1: 208-232
        • PEVZNER P.A.
        • DančíkV.
        • 唐c.l.
        通过质谱法识别突变蛋白质。
        J. COPPLE。 BIOL。 2000; 7: 777-787
        • Bandeira N.
        • 奥尔森J.V.
        • 曼J.v.
        • PEVZNER P.A.
        多光谱肽测序及其在多级质谱中的应用。
        生物信息学。 2008; 24: I416-I423
        • KällL.
        • Storey J.D.
        • maccoss m.j.
        • 贵族W.S.
        使用诱饵数据库对由串联质谱法鉴定的肽的意义。
        J.蛋白质组。 2008; 7: 29-34
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • KällL.
        • 坎特伯雷J.D.
        • 韦斯顿J.
        • 贵族W.S.
        • maccoss m.j.
        霰弹枪蛋白质组学数据集的半监督学习肽鉴定。
        NAT。方法。 2007; 4: 923-925
        • 麸皮
        • yu l.
        • 哈贝德T.
        • Choudhary J.
        用吉祥物过滤器准确敏感的肽鉴定。
        J.蛋白质组。 2009; 8: 3176-3181
        • Boersema P.J.
        • taouatas n。
        • Atelaar a.f.
        • gouw J.W.
        • 罗斯P.L.
        • Pappin D.J.
        • Heck A.J.
        • 穆罕默德S.
        使用Lys-N金属膨胀酶的MALDI-MS / MS直截了当和脱肽测序。
        摩尔。细胞。蛋白质组学。 2009; 8: 650-660
        • Coon J.J.
        碰撞或电子? 21世纪蛋白质序列分析。
        肛门。化学。 2009; 81: 3208-3215
        • 奥尔森J.V.
        通过三个质谱碎裂的连续阶段改善蛋白质组学中的肽鉴定。
        Proc。 Natl。阿卡。 SCI。美国。 2004; 101: 13417-13422
        • ulintz p.j.
        • Bodenmiller B.
        • 安德鲁斯P.C.
        • Aeberberold R.
        • nesvizhskii a.i.
        研究MS2 / MS3匹配统计:用于耦合连续阶段质谱数据的模型,提高肽鉴定信心。
        摩尔。细胞。蛋白质组学。 2008; 7: 71-87
        • Domon B.
        • Bodenmiller B.
        • Carapito C.
        • 昊Z.
        • Huehmer A.
        • Aeberberold R.
        电子传递与碰撞激活结合研究,以研究果蝇磷蛋白酶磷酸酯组。
        J蛋白质组。 2009; 8: 2633-2639
        • Swaney D.L.
        • 温格C.D.
        • Thomson J.A.
        • Coon J.J.
        人胚胎干细胞磷脂蛋白酶通过电子转移解离串联质谱法揭示。
        Proc。 Natl。阿卡。 SCI。美国。 2009; 106: 995-1000
        • Chalkley R.J.
        • Thalhammer A.
        • Schoepfer R.
        • 伯灵名A.L.
        用电子转移解离质谱法在天然肽上鉴定蛋白质O-甘露苯基化位点。
        Proc。 Natl。阿卡。 SCI。美国。 2009; 106: 8894-8899
        • Boersema P.J.
        • 穆罕默德S.
        • heck a.j.r.
        质谱分段和分析质谱法。
        J质谱。 2009; 44: 861-878
        • Payne S.H.
        • yau m.
        • Smolka M.B.
        • 坦纳S.
        • 周H.
        • BAFNA V.
        特异性磷酸化的MS / MS评分,用于快速和准确的磷酸溶解组分析。
        J.蛋白质组。 2008; 7: 3373-3381