dialignr在DIA和目标蛋白质组学中的遥控器中提供精确的保留时间对齐*[S]

  • 沙姆州古普塔
    隶属关系
    来自多伦多大学的分子遗传学部,多伦多,加拿大M5G 1A8;

    加拿大M5S 3E1的多伦多大学多伦多大学唐纳里和生物分子研究中心;
    搜索本作者的文章
  • Sara Ahadi.
    隶属关系
    ¶遗传学,斯坦福大学医学院,斯坦福大学,CA 94305
    搜索本作者的文章
  • 文宇周
    隶属关系
    ¶遗传学,斯坦福大学医学院,斯坦福大学,CA 94305
    搜索本作者的文章
  • HannesRöst.
    一致
    应该解决对应的通信
    隶属关系
    来自多伦多大学的分子遗传学部,多伦多,加拿大M5G 1A8;

    加拿大M5S 3E1的多伦多大学多伦多大学唐纳里和生物分子研究中心;
    搜索本作者的文章
  • 作者脚注
    *提交人声明没有竞争的金融利益。
    [S] 本文含有补充材料补充表1-3,7,8和15以及补充图。 1,10-15和17-19。
      序列窗口获取所有理论片段离子质谱(SWATH-MS)被广泛用于蛋白质组学分析,鉴于其高通量和再现性,但确保在诸如人血浆如人血浆等异质样品的大规模研究中的分析物的一致定量仍然具有挑战性。大规模研究中的异质性可以是通过数据采集,不同操作员或仪器采集的大的时间间隔引起的,以及间歇修复或替换零件,诸如液相色谱柱,所有这些都会影响保留时间(RT)再现性和,连续,性能对SWATH-MS数据分析。这里,我们基于使用混合动态规划方法的原始MS2色谱图的直接对准,提出了一种新的RT对准算法。该算法不施加时间按时间洗脱顺序,并且允许对换油顺序的峰进行对准。此外,允许在粗糙全球拟合周围的某个窗口中映射的RT映射使其变得稳健地对抗噪声。在手动验证的数据集中,该策略表现出目前的最先进的方法。此外,在现实世界的临床数据中,我们的方法通过将98%的峰值绘制而与67%累积相比,我们的方法表现优于全局对准方法。 Dialignr可降低对准误差高达30倍的遥远运行。还证明了这种成对对准策略中使用的技术参数的鲁棒性。源代码在BSD许可证下发布 //github.com/Roestlab/DIAlignR.

      图形概要

      在转化研究中,通常通过数据驱动方法发现蛋白质生物标志物和治疗靶标,例如通过将蛋白质丰度模式与疾病状况联系起来。大型样品队列在这些研究中是必不可少的,因为人口中存在大量生物可变性,并且需要足够的统计力来识别特定疾病的事件(
      • uzozie a.c.
      • Aeberberold R.
      促进靶素论的翻译研究和精密药物。
      ,
      • 苏里诺瓦S.
      • 什因·罗斯
      • HüttenhainR.
      • Cerciello F.
      • Wollscheid B.
      • Aeberberold R.
      论血浆蛋白生物标志物的发展。
      )。血浆是患者的临床信息的良好来源,因为它可以不诱导地获得,并且来自受影响组织的蛋白质可能会泄漏到血液中。遗憾的是,血浆样品对蛋白质组学分析具有高度挑战,由于样品中的肽的多样性和高动态蛋白质(
      • nigjeh e.n.
      • 陈R.
      • 品牌R.E.
      • Petersen G.M.
      • Chari S.T.
      • von haller p.d.
      • ENG J.K.
      • 冯Z.
      • 闫Q.
      • brentnall t.a.
      • 潘S.
      基于血浆分析中优化数据无关采集的定量蛋白质组学。
      )。因此,血浆蛋白的定量需要在宽动态范围内的复杂性和测量的高度可重复降低。跨大规模研究的情况加剧,这使得血浆生物标志物挑战的发展(
      • 苏里诺瓦S.
      • 什因·罗斯
      • HüttenhainR.
      • Cerciello F.
      • Wollscheid B.
      • Aeberberold R.
      论血浆蛋白生物标志物的发展。
      ,
      • nigjeh e.n.
      • 陈R.
      • 品牌R.E.
      • Petersen G.M.
      • Chari S.T.
      • von haller p.d.
      • ENG J.K.
      • 冯Z.
      • 闫Q.
      • brentnall t.a.
      • 潘S.
      基于血浆分析中优化数据无关采集的定量蛋白质组学。
      )。
      在过去的二十年中,基于质谱(MS)的蛋白质组学,在获得各种生物样品中的蛋白质的鉴定和定量方面具有高度的创新,使得高度的创新进展(
      • 苏里诺瓦S.
      • 什因·罗斯
      • HüttenhainR.
      • Cerciello F.
      • Wollscheid B.
      • Aeberberold R.
      论血浆蛋白生物标志物的发展。
      ,
      • Schubert O.T.
      • 罗斯特H.L.
      • 柯林斯B.C.
      • Rosenberger G.
      • Aeberberold R.
      定量蛋白质组学:基础和应用研究中的挑战和机遇。
      )。靶向蛋白质组学方法,特别是选择的反应监测(SRM),可以在多个运行中提供高再现性。然而,它受到低吞吐量的限制,可以测量每项研究只有几十个蛋白的丰度(
      • uzozie a.c.
      • Aeberberold R.
      促进靶素论的翻译研究和精密药物。
      ,
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      )。
      最近,我们开发了SWATH-MS,一种有针对性分析数据无关的采集(DIA)的方法
      使用的缩写是:
      DIA
      独立数据的收购
      AUC
      曲线下的区域
      LC.
      液相色谱法
      黄土
      局部加权回归
      rse.
      剩余标准错误
      RT.
      保留时间
      XIC.
      提取离子色谱图
      Swath-Ms.
      所有理论片段离子质谱的顺序窗口获取
      爱好者
      索引保留时间
      三十
      识别信心转让。
      1使用的缩写是:DIA
      独立数据的收购
      AUC
      曲线下的区域
      LC.
      液相色谱法
      黄土
      局部加权回归
      rse.
      剩余标准错误
      RT.
      保留时间
      XIC.
      提取离子色谱图
      Swath-Ms.
      所有理论片段离子质谱的顺序窗口获取
      爱好者
      索引保留时间
      三十
      识别信心转让。
      数据,可以在大规模临床研究中可重复地量化较大的肽(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • 吉拉特L.C.
      • Navarro P.
      • 塔特S.
      • 罗斯特H.
      • selevsek n。
      • 重新勒
      • Bonner R.
      • Aeberberold R.
      由数据独立获取产生的MS / MS光谱的有针对性的数据提取:一致和准确的蛋白质组分析的新概念。
      )。在临床领域实施该方法可以在各种条件下提供样本的全面表征。它在生物标志物研究中允许可再现量化约2,000个蛋白质对肿瘤肾脏和健康组织的研究(
      • uzozie a.c.
      • Aeberberold R.
      促进靶素论的翻译研究和精密药物。
      ,
      • 郭t.
      • Kouvonen P.
      • Koh C.C.
      • 吉拉特L.C.
      • Wolski W.E.
      • 罗斯特H.L.
      • Rosenberger G.
      • 柯林斯B.C.
      • BLUM L.C.
      • 吉隆森S.
      • joerger m.
      • Jochum W.
      • Aeberberold R.
      组织活检样品在永久定量数字蛋白质映射中的快速质谱转化。
      )并且有可能记录包含大量蛋白质的样品的分子库存,从而使患者纵向监测可能(
      • uzozie a.c.
      • Aeberberold R.
      促进靶素论的翻译研究和精密药物。
      )。
      在DIA模式中,选择MS1中的前体进行预定的 m / z. 范围和碎片化。这产生了所有选定前体的片段离子的多路复用MS2光谱。可以通过使用基于库的方法来分析DIA数据(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • 罗斯特H.L.
      • Rosenberger G.
      • Navarro P.
      • 吉拉特L.
      • Miladinovićć
      • Schubert O.T.
      • Wolski W.
      • 柯林斯B.C.
      • MalmströmJ.
      • malmströml。
      • Aeberberold R.
      OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
      )或免费方法(
      • tsou c.-c。
      • Avtonomov D.
      • 拉森B.
      • Tucholska M.
      • Choi H.
      • Gingras A.-​​C.
      • nesvizhskii a.i.
      DIA-UMPIRE:数据无关的采集蛋白质组学的综合计算框架。
      )。基于文库的方法表明,在复杂样品中能够精确肽和蛋白质定量(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • Navarro P.
      • Kuharev J.
      • 吉拉特L.C.
      • 伯恩哈德特O.M.
      • 麦克莱恩B.
      • 罗斯特H.L.
      • tate s.a.
      • tsou c.-c。
      • 重新勒
      • 遥远的美国。
      • Rosenberger G.
      • Perez-Riverol Y.
      • nesvizhskii a.i.
      • Aeberberold R.
      • Tenzer S.
      一种多中心研究基准测试软件工具,用于无标记蛋白质组量化。
      ,
      • 刘Y.
      • Buil A.
      • 柯林斯B.C.
      • 吉拉特L.C.
      • BLUM L.C.
      • 郑L.Y.
      • Vitek O.
      • mouritsen J.
      • 加法扬G.
      • 卫星T.D.
      • Dermitzakis e.t.
      • Aeberberold R.
      342例血浆蛋白在人双胞胎腺中的定量变异性。
      )。尽管如此,即使使用SWATH-MS获得对临床血浆样品的可重复和稳健的分析是挑战性的,因为观察到各个跑道中蛋白质数量的大变化(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • Navarro P.
      • Kuharev J.
      • 吉拉特L.C.
      • 伯恩哈德特O.M.
      • 麦克莱恩B.
      • 罗斯特H.L.
      • tate s.a.
      • tsou c.-c。
      • 重新勒
      • 遥远的美国。
      • Rosenberger G.
      • Perez-Riverol Y.
      • nesvizhskii a.i.
      • Aeberberold R.
      • Tenzer S.
      一种多中心研究基准测试软件工具,用于无标记蛋白质组量化。
      ,
      • 刘Y.
      • Buil A.
      • 柯林斯B.C.
      • 吉拉特L.C.
      • BLUM L.C.
      • 郑L.Y.
      • Vitek O.
      • mouritsen J.
      • 加法扬G.
      • 卫星T.D.
      • Dermitzakis e.t.
      • Aeberberold R.
      342例血浆蛋白在人双胞胎腺中的定量变异性。
      )。驱动变异性的主要因素之一是测定文库和血浆肽的洗脱谱之间的保留时间(RT)偏差。在由Nigjeh和同事进行的实验中,大多数肽在技术复制之间具有RT变化约10分钟,影响肽量化的鲁棒性(
      • nigjeh e.n.
      • 陈R.
      • 品牌R.E.
      • Petersen G.M.
      • Chari S.T.
      • von haller p.d.
      • ENG J.K.
      • 冯Z.
      • 闫Q.
      • brentnall t.a.
      • 潘S.
      基于血浆分析中优化数据无关采集的定量蛋白质组学。
      )。如果未经校正的话,这种变化也可能导致肽的鉴定不正确和不一致(
      • nigjeh e.n.
      • 陈R.
      • 品牌R.E.
      • Petersen G.M.
      • Chari S.T.
      • von haller p.d.
      • ENG J.K.
      • 冯Z.
      • 闫Q.
      • brentnall t.a.
      • 潘S.
      基于血浆分析中优化数据无关采集的定量蛋白质组学。
      )。
      当前的DIA数据分析软件使用IRT肽来计算单调RT功能(线性回归(
      • eScher C.
      • 重新勒
      • 麦克莱恩B.
      • Ossola R.
      • 赫罗特F.
      • 谢尔顿J.
      • maccoss m.j.
      • rinner o.
      使用IRT,归一化的保留时间,用于更具靶向肽的测量。
      )或分段回归(
      • 布鲁德尔R.
      • 伯恩哈德特O.M.
      • Gandhi T.
      • 重新勒
      高精度IRT预测数据无关地采集的目标分析及其对识别和定量的影响。
      ))关于图书馆。使用该映射,获得来自MS2光谱的提取离子色谱图(XIC),用于峰值拣选。软件通常在XIC中找到多个潜在的峰群,这使得下游分析具有挑战性。通过在运行中建立峰值对应关系,可以针对每个MS运行确定正确的肽洗脱时间(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • 史密斯r.
      • Ventura D.
      • 王子J.T.
      LC.-MS在理论与实践中对齐:全面的算法综述。
      )。 RT的偏移通常被视为系统级变化,它在两个运行之间使用单调函数进行建模(
      • 史密斯r.
      • Ventura D.
      • 王子J.T.
      LC.-MS在理论与实践中对齐:全面的算法综述。
      )。然而,这种假设可能并不总是准确,并且具体地在远处运行中,特异于单个肽的奇点是常见的,产生相对峰值切换,其中两种肽的洗脱顺序横跨两次运行交换
      • 史密斯r.
      • Ventura D.
      • 王子J.T.
      LC.-MS在理论与实践中对齐:全面的算法综述。
      ,
      • Spicer V.
      • 格里戈里安姆
      • gotfrid A.
      • 站立K.G.
      • krokhin o.v.
      预测与肽RP-HPLC中梯度斜率的变化相关的保留时间偏移。
      ,
      • 吴L.
      • Amon S.
      • 林H.
      用于SWATH-MS数据的混合保留时间对准算法。
      )。这种现象越来越可能在较大的研究中,并且在大规模临床研究中非常可能,其中数据采集发生在跨度。
      文献中有许多方法在RTS中建立对应。在SWATH-MS的发展之前,代谢组和蛋白质组学中的当前RT对准算法主要开发(
      • 史密斯r.
      • Ventura D.
      • 王子J.T.
      LC.-MS在理论与实践中对齐:全面的算法综述。
      )因此,依赖于MS1色谱图(
      • nielsen n.-p.v.
      • 卡尔斯滕森准噶。
      • Smedsgaard J.
      用相关优化翘曲对准单个和多波长色谱分析对化学计量数据分析的调度。
      ,
      • 拜伦D.
      • Danielsson R.
      • Malmquist G.
      • 标记K.E.
      通过翘曲和动态编程作为液相色谱 - 质谱数据的Parafacac造型预处理工具的色谱对齐。
      ,
      • Listgarten J.
      • 尼尔下午
      • Roweis S.T.
      • Emili A.
      连续时间序列的多次对准。
      ,
      • Sadygov R.G.
      • 马罗托夫
      • hühmera.f.r.
      色度lign:三维LC-MS色谱表面的时间对准的两步算法。
      ,
      • Prakash A.
      • Mallick P.
      • Whiteaker J.
      • 张H.
      • Paulovich A.
      • fl
      • 李H.
      • Aeberberold R.
      • Schwikowski B.
      基于质谱的比较蛋白质组学的信号图。
      ,
      • Hoffmann N.
      • stoye J.
      色谱 - 质谱数据的基于信号的基于信号的保留时间对准。
      ,
      • Christin C.
      • Hoefsloot H.C.
      • Smilde A.K.
      • 适合F.
      • Bischoff R.
      • Horvatovich P.L.
      基于所选质量迹线的时间对准算法,用于复杂LC-MS数据。
      ),采摘功能(
      • 罗宾逊M.D.
      • de souza d.p.
      • 敏锐的w.w.
      • 桑德斯e.c.
      • 麦肯维尔M.J.
      • 速度t.p.
      • likićv.a.
      多气相色谱 - 质谱实验中信号峰对准的动态规划方法。
      ,
      • 巴兰R.
      • Kochi H.
      • 锡达尔
      • Suematsu M.
      • Soga T.
      • Nishioka T.
      • 罗伯特M.
      • Tomita M.
      Mathdamp:用于代谢物轮廓的差异分析的包装。
      ,
      • 王J.
      • 林H.
      基于图的多液相色谱 - 质谱数据集的峰值对准算法。
      ,
      • 桑廷米
      • 阿里A.
      • Hansson K.
      • månssono.
      • Andreasson E.
      • resjös。
      • Levander F.
      一种自适应对准算法,用于质量控制的无标签LC-MS。
      )或两者的组合(
      • 王子J.T.
      • Marcotte e.m.
      通过订购的双斑内插翘曲进行eSI-LC-MS蛋白质组学数据集的色谱对齐。
      ,
      • Hoffmann N.
      • 凯克米
      • NeuWeger H.
      • Wilhelm M.
      • HögyP.
      • niehaus k。
      • stoye J.
      组合基于峰和色谱图的保留时间对准算法,用于多相色谱 - 质谱数据集。
      )。这些算法通常使用原始MS1色谱图上的动态编程找到全局成对对齐功能(
      • Sadygov R.G.
      • 马罗托夫
      • hühmera.f.r.
      色度lign:三维LC-MS色谱表面的时间对准的两步算法。
      ,
      • Prakash A.
      • Mallick P.
      • Whiteaker J.
      • 张H.
      • Paulovich A.
      • fl
      • 李H.
      • Aeberberold R.
      • Schwikowski B.
      基于质谱的比较蛋白质组学的信号图。
      ,
      • Hoffmann N.
      • stoye J.
      色谱 - 质谱数据的基于信号的基于信号的保留时间对准。
      ,
      • Christin C.
      • Hoefsloot H.C.
      • Smilde A.K.
      • 适合F.
      • Bischoff R.
      • Horvatovich P.L.
      基于所选质量迹线的时间对准算法,用于复杂LC-MS数据。
      ,
      • 王子J.T.
      • Marcotte e.m.
      通过订购的双斑内插翘曲进行eSI-LC-MS蛋白质组学数据集的色谱对齐。
      )或在功能列表中(
      • 罗宾逊M.D.
      • de souza d.p.
      • 敏锐的w.w.
      • 桑德斯e.c.
      • 麦肯维尔M.J.
      • 速度t.p.
      • likićv.a.
      多气相色谱 - 质谱实验中信号峰对准的动态规划方法。
      ,
      • 巴兰R.
      • Kochi H.
      • 锡达尔
      • Suematsu M.
      • Soga T.
      • Nishioka T.
      • 罗伯特M.
      • Tomita M.
      Mathdamp:用于代谢物轮廓的差异分析的包装。
      ),包括使用带限制的方法。对于复杂的样本,所谓的“地标峰”(
      • 王子J.T.
      • Marcotte e.m.
      通过订购的双斑内插翘曲进行eSI-LC-MS蛋白质组学数据集的色谱对齐。
      ,
      • Hoffmann N.
      • 凯克米
      • NeuWeger H.
      • Wilhelm M.
      • HögyP.
      • niehaus k。
      • stoye J.
      组合基于峰和色谱图的保留时间对准算法,用于多相色谱 - 质谱数据集。
      已被用来提高RT对准精度。然而,这些方法中的大多数依赖于MS1数据,并且所得到的对准功能受到所有组成肽的影响。在SWATH-MS运行中,MS2数据具有高信噪比,并且在多个运行中可再现。以前关于SWATH运行的RT对准的研究依赖于MS2特征发现软件。这些使用双链匹配对准MS2功能(
      • 吴L.
      • Amon S.
      • 林H.
      用于SWATH-MS数据的混合保留时间对准算法。
      )或使用本地加权回归(黄土)计算全局函数的功能(
      • 钱伯下午
      • Hastie T.J.
      )或通过内核密度方法(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • Searle B.C.
      • Pino L.K.
      • Egertson J.D.
      • 婷婷。
      • 劳伦斯R.T.
      • Villen J.
      • maccoss m.j.
      使用色谱文库进行数据独立采集质谱的综合肽量化。
      )(见补充部分S1)。然而,这些方法在高噪声,缺失功能或特征检测算法故障时提供了次优效果。此外,全球单调功能不考虑肽切换,因为单调功能不允许任何两种肽之间的RT逆转(
      • 吴L.
      • Amon S.
      • 林H.
      用于SWATH-MS数据的混合保留时间对准算法。
      )。
      在这里,我们呈现Dialignr,一个RT对准算法,解决了先前方法的这些缺点。我们的算法不需要特征,并且能够直接将原始的多路复用MS2色谱迹线与目标蛋白质组学数据直接对准。我们的方法使用动态编程来获得色谱图之间的最佳映射,该色谱图在被洗脱的峰值组周围的多个峰值上包含众多的峰值。每个前体的独立RT对准促进了洗脱阶峰的对准。我们的方法还能够使用全球整体对准进行指导,使其对噪声稳健。因此,Dialignr可以灵活地处理在全局和局部对齐的极端之间选择的用户偏好。
      我们提供免费访问我们的源代码和我们的R包 //github.com/Roestlab/DIAlignR。我们在手动验证的数据集中测试了我们的工具超过7,000个色谱图,并对现有方法进行了改进的性能。我们还在24个随机选择的血液血浆中进行了测试,选自在许多月内测量的异质队列。对于两个数据集,我们的算法表现优于全局对准方法,并且能够纠正特征检测算法引入的误操作。对于非常遥远的运行,它还可以精确地对齐开关峰值,这是使用全局对齐方法无法实现的(
      • 罗斯特H.L.
      • Rosenberger G.
      • Navarro P.
      • 吉拉特L.
      • Miladinovićć
      • Schubert O.T.
      • Wolski W.
      • 柯林斯B.C.
      • MalmströmJ.
      • malmströml。
      • Aeberberold R.
      OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
      ,
      • eScher C.
      • 重新勒
      • 麦克莱恩B.
      • Ossola R.
      • 赫罗特F.
      • 谢尔顿J.
      • maccoss m.j.
      • rinner o.
      使用IRT,归一化的保留时间,用于更具靶向肽的测量。
      )。

      材料和方法

      对准算法对于映射近似噪声的映射信号是有用的。存在很少的数据集,可以用于基准测试,正如原始事实所未知。

       验证数据集

      对于基准测试,我们使用了先前发布的数据集(
      • 罗斯特H.L.
      • Rosenberger G.
      • Navarro P.
      • 吉拉特L.
      • Miladinovićć
      • Schubert O.T.
      • Wolski W.
      • 柯林斯B.C.
      • MalmströmJ.
      • malmströml。
      • Aeberberold R.
      OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
      )16条跨越的跑道 链球菌Pyogenes 细菌菌株。在这些运行中,手动注释452个随机选择的前体(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      )。其中,八个前体具有少于两次的注释,因此被除去。来自剩余剩余集合的七个其他前体在XIC之外的注释峰值,使它们不适用,因此从基准测试中移除(参见补充部分S2)。因此,考虑了437个注释的前体用于对全球对准方法进行开发的Dialignr工具的性能测试。注释的前体RTS可用 补充表1。由于从验证数据集随机选择注释的峰值,因此该数据集具有4.9%的峰值,信号信噪比小于1(补充图1A)。

       大规模人类等离子体数据集

      我们在2017年2月17日至2017年7月20日(IRB 23602)中,在1275名人血浆样本上进行了SWATH-MS。在Nanolc 425系统(Sciex,Framingham,MA)上分离血浆样品的胰蛋白酶样品。使用0.5×10-mm Chromxp(Sciex)与陷阱洗脱设定使用5μl/ min流。 LC梯度设定为4〜32%B的43分钟梯度,总运行1小时。流动相A为100%水,甲酸0.1%。流动相B为100%乙腈,甲酸0.1%。将8μg未浸入的血浆加载到15cm Chormxp柱上。在配备有Duospray源和25μm内直径电极(SCIEX)的三重焊源和25-μm系统上的TripLet采集进行MS分析。变量Q1窗口SWATH获取方法(100窗口)内置于高灵敏度MS / MS模式,使用分析师TF软件1.7。
      为了减少成对比对的数量,随机地,选择了从每批的两次运行;它们的元数据和openSwath输出文件在于 补充表2。由于在视觉上验证峰值,因此仅考虑具有低虚假发现率分数的峰值进行性能评估。因此,Q值小于10的靶前体的峰值−3 (m-score <选择1E-03,选择峰值级= 1),并且需要在所有24个运行中存在前体。连续地,用OpenSWATH提取并解析所选406前体的片段离子色谱图(
      • 罗斯特H.L.
      • Rosenberger G.
      • Navarro P.
      • 吉拉特L.
      • Miladinovićć
      • Schubert O.T.
      • Wolski W.
      • 柯林斯B.C.
      • MalmströmJ.
      • malmströml。
      • Aeberberold R.
      OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
      ,
      • Rosenberger G.
      • Bludau I.
      • 施密特U.
      • 赫苏尔米
      • 猎人C.L.
      • 刘Y.
      • maccoss m.j.
      • 麦克莱恩B.X.
      • nesvizhskii a.i.
      • pedrioli p.g.a.
      • 重新勒
      • 罗斯特H.L.
      • 塔特S.
      • 婷婷。
      • 柯林斯B.C.
      • Aeberberold R.
      大规模有针对性数据无关的采集分析中肽和蛋白质误差率的统计控制。
      )和“mzr”包装(
      • Chambers M.C.
      • 麦克莱恩B.
      • Burke R.
      • Amodei D.
      • Ruderman D.L.
      • Neumann S.
      • Gatto L.
      • Fischer B.
      • 普拉特B.
      • Egertson J.
      • 霍夫克
      • Kessner D.
      • 塔斯曼N.
      • 舒尔曼N.
      • Frewen B.
      • 贝克T.A.
      • Brusniak m.y.
      • 保罗C.
      • 皱纹D.
      • 闪光灯L.
      • Kani K.
      • 成型C.
      • Seymour S.L.
      • Nuwaysir L.M.
      • Lefebvre B.
      • Kuhlmann F.
      • 罗克J.
      • rainer p.
      • Detlev S.
      • Hemenway T.
      • Huhmer A.
      • Langridge J.
      • Connolly B.
      • Chadick T.
      • 霍莉K.
      • eCkels J.
      • 德意曲e.w.
      • 莫里茨R.L.
      • 凯茨J.E.
      • agus d.b.
      • Maccoss M.
      • Tabb D.L.
      • Mallick P.
      用于质谱和蛋白质组学的跨平台工具包。
      )默认参数。在所有24个运行中肽的RT提供 补充表3.。色谱图可在PeptidAtlas(FTP.PeptiDAls.org Pass01280:KQ2592B)上。
      提供两个数据集的表格描述为 表I..
      表I.验证和人类等离子体数据集的概要描述
      验证数据集人类等离子体数据集
      生物样本S. pyogenes菌株SF370来自血样的血浆
      质谱仪SCIEX 5600 TRIPLETOF.SCIEX 6600 TRIPLETOF.
      LC.梯度线性线性
      总运行时间135分钟55分钟
      LC.-栏更换是的
      质谱仪修复是(在7批后替换四极杆)
      数据采集​​日期2012年8月8日 - 2012年8月9日2017年2月17日至2017年7月20日
      获取的运行数量16975
      批次数量112
      选择用于对齐的运行1624
      跑步总数120276
      用于特征检测和XIC提取的软件OpenSwath.OpenSwath.
      按任向值选择的常见前体的数量437406
      总结总数49,505112,056
      手动注释是(天际线)

       色谱法对齐算法

      在靶向蛋白质组学或SWATH-MS实验中,使用一种或多种片段离子(转变)测量每种前体。通常,我们建议使用至少六个片段离子进行DIA / SWATH-MS分析(
      • Schubert O.T.
      • 罗斯特H.L.
      • 柯林斯B.C.
      • Rosenberger G.
      • Aeberberold R.
      定量蛋白质组学:基础和应用研究中的挑战和机遇。
      )。对于每个片段离子,获得提取的离子色谱图(XIC或色谱图)。一个或多个色谱图的集合称为“色谱图组”,其映射到给定的前体。如果使用前体使用 n 转换,然后为每个运行,相应的色谱图组包括 n XIC,这是我们对齐过程的原始数据。
      色谱图组可以被认为是时间序列信号的集合。可以计算来自RUNA(色度)和匝数(Chromb)之间的色谱图组之间的时序信号的相似性。如果前体有 n 片段离子和每个XIC都有 IJ 时间点 色度刻痕,分别如图所示 Fig. 1A,所有时间点之间的相似性可以表示为相似矩阵 s。因此,
      s=f(ChromA,ChromB)


      图缩略图GR1.
      Fig. 1目标蛋白质组学MS2色谱图的对准算法。 (A)两种延时的肽的片段 - 离子色谱图; 运行A. 在顶部和 跑B. 在底部。通常,通常具有所有库片段离子(n = 3) coeluting. (B)通过强度载体的点产品计算两次运行的色谱图之间的相似性;定义 n - 空间。 (C)色谱图的外点产品提供了一种 I × J 相似度得分矩阵(S)。 (D)基于功能的完整运行对齐作为对齐的近似路径。通过添加负分数,从相似性得分矩阵中的允许窗口的时间点受到负面评分。 (E)采用仿射基于间隙的重叠对准策略来计算通过相似矩阵的最佳评分路径。基于动态编程的策略利用了三个矩阵用于递归计算多个间隙长度分数。使用黑色箭头指示计算的对齐路径。 (F)通过将强度映射回到对齐的时间路径来重新创建色谱图。
      功能 ƒ 被称为相似度测量,可以由用户选择(见下文)。

       相似度措施

      在我们的R包中,我们实施了几种相似度措施,这些措施已经在以前的文献中提出了用于色谱图,例如协方差,点产品,Pearson的相关性,光谱角度和欧几里德距离(
      • 罗斯特H.L.
      • Rosenberger G.
      • Navarro P.
      • 吉拉特L.
      • Miladinovićć
      • Schubert O.T.
      • Wolski W.
      • 柯林斯B.C.
      • MalmströmJ.
      • malmströml。
      • Aeberberold R.
      OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
      ,
      • 王子J.T.
      • Marcotte e.m.
      通过订购的双斑内插翘曲进行eSI-LC-MS蛋白质组学数据集的色谱对齐。
      )。我们观察到所有的点产品 IJ 数据点提供了关于两个时间点之间的幅度和角度的信息,因此来自背景的分离洗脱信号。如果色谱图的每个数据点由载体表示 n dimensional space (n = 3 in Fig. 1A),两种矢量的所得点产品如图所示 Fig. 1B。因此,具有点产品相似性,矩阵 s 来自两种色谱图组的所有载体定义为
      Sij=k=1naikbjk


      在哪里 i ε{1,⋯, I} 和 j ε{1,⋯, J代表矢量的索引 色度刻痕, 分别。颜色编码的相似性矩阵大小 I × J 显示在 Fig. 1C。然而,为了降低噪声峰的影响,使用称为“掩蔽点 - 产品”的改进点产品,其中再次检查较高的相似性分数以进行光谱角度相似度(参见补充部分S5)。使用动态编程计算得到的相似性矩阵中的路径,该动态编程直接转换为映射指数/时间的RT对齐 色度刻痕 和 vice versa.

       通过全局对齐惩罚相似性矩阵

      虽然动态编程将在某些情况下找到最高累积分数的路径,但在某些情况下,通过对噪声的对准驱动得分,并且可以导致对准从全局线性或非线性对准的对准高度发散的解决方案。为了使对齐稳健地免受噪声,并且为了从全局背景中包含信息,我们在算法中添加了一个选项以修改相似度矩阵 s (Fig. 1D)使用基于特征的全局对齐,如黄土。使用拟合的残余标准误差用于定义相似性矩阵中的非干扰区域,并且在其外部的值以负分数惩罚(参见补充部分S5)。这使我们可以在相对于全局预测中找到合理的时间窗口中的对齐路径,并避免大偏差。

       与仿射差距罚款重叠对齐

      通过递归计算从相似性矩阵(1,1)开始到IT的末尾的所有可能的最佳路径来找到最佳对准路径(I, J)使用动态编程(
      • 德国R.
      • 艾迪S.R.
      • Krogh A.
      • 米奇G.
      )。色谱群组 色度刻痕 可能没有端到端的映射,因为它们可以是围绕预期肽洗脱提取的部分色谱图(例如通过索引保留时间[IRT]肽测定)。因此,采用重叠对准而不是MS2色谱组组的全局对准。这种方法允许自由端间隙,从而允许自由滑动色谱图,而不会导致它的任何差距。
      为了扩大或收缩色谱图峰值,单位长度的间隙是合理的选择,因为它将分配完全峰值的间隙。因此,仿效间隙罚款方案具有更高的差距罚款,对于多于一个的间隙长度。在这种方法中,定义了三个矩阵(矩阵M,A,B),其递归地计算出超过单位长度的间隙的分数(
      • 德国R.
      • 艾迪S.R.
      • Krogh A.
      • 米奇G.
      )。介绍了使用仿射隙惩罚的重叠对齐路径 Fig. 1E。这种对齐的运行时间是O(最大限度(我,J.)3)。采用启发式数据驱动的方法来获得来自相似性矩阵的合适仿射差距(参见补充部分S5)。将对齐路径映射到初始时间值提供对齐的色谱图,如图所示 Fig. 1F.

       运行时间进行对齐

      每个肽/前体的MS2色谱图对齐的是OR顺序O(MAX(我,J.)3);然而,不同前体的色谱图可以独立对齐。因此,我们对不同的肽采用并行化以获得更快的速度来完成完整的运行时间映射。

       优化算法参数

      dialignr中使用的各种参数。这些参数的描述可用于补充部分S5。我们使用了一个用于参数优化的验证数据集,并使用半色谱峰宽度和累积RT对准误差在半色谱峰值宽度和累积RT对准误差中的峰值数量。

       与当前算法进行比较的性能指标

      我们使用了手动验证的数据集(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      )将Dialignr与当前最先进的方法进行比较(例如 转移识别信心[TRIC](
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      )),它利用一组高置信峰(“锚肽”)来计算从RON1转换到RON2的线性或非线性对准函数。我们选择了黄土(本地回归)以及对评估的线性回归。对于黄土,测试了R软件环境的交叉验证(如TRIC中使用的)和默认跨度(= 0.75)的优化SPANValue(
      • 钱伯下午
      • Hastie T.J.
      )。对于黄土拟合,执行交叉验证以获得两次运行之间的最佳跨度值(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ,
      • 钱伯下午
      • Hastie T.J.
      )。在补充部分S3和S4中详述了获得全局拟合(单调映射函数)的步骤。
      通过与手动注释进行比较来计算RT错误 S. pyogenes dataset (
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      ),并且在某个RT容差内对准的肽数的产生分布用作对准算法的总精度的量度。手动注释不适用于人类等离子体数据集;因此,Openswath的高质量结果(具有低假发现率截止的峰值)用于基准测试。

      结果

       参数优化

      这里,我们介绍了一种用于多颗粒色谱对准的算法,其仅使用来自靶蛋白质组学或DIA实验的RAW MS2数据进行RT对准。为了优化我们的算法的性能,我们研究了算法参数对验证数据集运行的准确性的影响(
      • 罗斯特H.L.
      • 刘Y.
      • D'Agostino G.
      • Zanella M.
      • Navarro P.
      • Rosenberger G.
      • 柯林斯B.C.
      • 吉拉特L.
      • Testa G.
      • malmströml。
      • Aeberberold R.
      三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
      )。首先,我们评估了色谱图组的不同相似性测量的性能。用光谱角度掩盖的点产品(参见补充部分S5)作为相似度量,提供了对所有120个可能的跑步对排列的最高分数(Fig. 2A)。在RT误差容差的半峰宽度(这里:15.3 s)中,这种相似度测量与所有方法的曲线(AUC)下的最高区域对齐94.33%的注释峰(参见 补充表7和8)。
      图缩略图GR2.
      Fig. 2使用全球比较的不同相似度测量,技术参数和惩罚相似性的效果的比较 S. pyogenes dataset. (A)各种相似性测量的性能作为具有误差小于特异性RT差异的肽的累积分数。平均半峰宽度由虚线表示。 (B[描绘了在某个RT差分公差内对准的峰值百分比的间隙惩罚选择对差距选择的影响。 (C)呈现了Run11和Run12之间的批次DGSVSVADSGR / 2的惩罚相似性矩阵。从两个可用的高相似性矢量,对准路径通过高相似性载体B.(D)肽的XIC的末端显示为绿点。惩罚相似度优先于黄土拟合周围的某个窗口内对齐,描绘为虚线的绿线。这里,高相似载体B的对准B(固体红色圆圈)。
      然后,我们调查了动态规划中使用的差距惩罚的效果。在Dialignr中,差距罚款是通过定性分数分布的固定量级值来计算的。我们发现,定位量值的选择对某一RT容差(以下)对齐的峰值百分比没有相当大的影响(Fig. 2B)。从图中,20TH. 至 90TH. 分量值在半峰宽度内产生近似95.6%的对齐峰。 GapQuantile的效果对更宽的RT耐受性不太明显。进一步分析,65TH. 将量子选择为色谱法对齐的基础间隙罚分。对于仿射隙惩罚,使用0.125的间隙开口因子,而考虑间隙延伸因子为40(见补充部分S5)。
      我们接下来调查了转型次数对对齐的影响(见补充部分S5和 补充图10A)。我们发现,随着片段离子的数量增加,对准精度得到改善,具有最佳对准94.3%,使用所有库片段离子相比,只有一个过渡的88.7%(补充表15.)。然而,最大的改善从一个过渡(88.7%)到两个过渡(92.8%),使用所有转变的改善较小。这表明单个转换对于该算法而言不足,但在两个转换后,相对增益更加适度。
      我们的算法使用全局对齐函数来限制相似性矩阵。在源自“锚肽”的全局拟合周围约束在某个窗口(由rsedistfactor给定)的对准提高了对准精度。我们观察到,通过约束相似性,将95.4%的峰与非致命的达到94.3%的峰值对齐(见 补充图10B)。示出了这种对准的示例 图。 2C2D 其中相似矩阵具有两个高相似性的热点。通过约束虚线区域内的对齐 Fig. 2D,对齐路径通过了正确的热点。利用不受约束的相似性矩阵,导致不正确的对齐,如图所示 补充图11.

       使用“金标准”参考数据集进行验证

      使用验证数据集,我们将Dialignr与当前对齐方式进行比较。就肽数对齐和对准精度,通过Dialignr的色谱对齐方式表现出优于黄土和线性回归方法(参见 Fig. 3A表二)。在这一点 S. pyogenes 基准数据集,与最先进的方法相比,Dialignr,Dialignr减少1.8倍。累积,色谱对准仅在真正的RT的15.3秒(半峰宽度)内未对准4.3%,与黄土的7.9%相比看 Fig. 3A)。
      图缩略图GR3.
      Fig. 3MS2色谱图对齐在验证数据集上的对齐精度与每次运行的手动注释的437峰组进行运行。 (A)绘制误差小于特异性Rt差异的肽的累积分数,用于所有可能的C(16,2)= 120对进行色谱图对齐,线性配合和 k - 最终邻居平滑(黄土),没有最佳跨度。 (B)绘制具有对准精度的肽的累积级分,用于色谱图对准和具有不同生物条件的对的皮肤上的对准和黄土。 STREP0对构成0%等离子体运行,STREP10对由10%的等离子体运行组成,并且Strep0_strep10对具有0%等离子体的血浆和其他10%等离子体的血浆。在验证数据集中有28个strep0对,28个strep10对,64对strep0_strep10案例。 (C)在黄土和色谱图对齐的半峰宽内匹配的肽数量的直方图。 (D)RT预测误差的直方图被绘制用于色谱法对齐和黄土。两种方法的RT差异标准偏差分别为9.56秒和10.98秒。
      表二从手动验证的S. pyaOgses数据集和异质人体等离子体测量对齐的平均肽数。对于等离子体数据,openswath m-score的峰值<0.001用于评估算法
      数据集方法半峰宽度在半峰值宽度内对齐的平均峰值在一个峰值宽度内对准的平均峰值数 在两个峰宽内对准的平均峰值数每次运行峰值总数半峰宽度(%)在半峰值宽度的峰值
      验证数据集dialignr.394.81667407.3410.6916743795.68765
      黄土380.07500406.18333410.8166743792.10249
      异质人类等离子体数据集dialignr.397.56159400.50362403.8804340697.92157
      黄土308.67754382.17754403.1521740676.02895
      我们接下来研究了实验扰动对对准方法性能的影响。我们将条件对准与条件对准之间的条件对准进行比较(在验证数据集中,条件为0%,增加10%的人血浆 S. pyogenes 在增长期间)。对于两个对准方法,我们观察到与条件对齐之间的条件对齐之间的性能降低(Fig. 3B)。然而,黄土方法的性能下降(4.93%)基本上大于Dialignr(2.7%)的相应性能下降,表明对司氏毒性的样品异质性增加的鲁棒性。
      为了评估跨多个运行对对齐方法的一致性,我们计算了每个运行对的正确对齐峰的数量(定义为对准在半峰值宽度内的对准)。与黄土相比,这种分布以低标准偏差向右转向右侧,表明前者在其性能中一致(Fig. 3C)。就对准的精度而言,色谱图对齐始终比全局对准方法更好地执行,因为前者在每个跑对的累积肽频率曲线下具有更高的面积(更高的AUC为120对120对;见 补充图12C)。类似地,我们观察了具有黄土方法的较大的RT变化(标准偏差= 18.45秒,色谱图对齐令人满意地纠正,标准偏差为11.68 s(Fig. 3D补充图12a和12b.)。我们得出结论,在验证数据集上,Dialignr在一系列不同RT截止值和LC-MS / MS之间的准确性和正确对齐峰的准确性和正确对齐峰值的数量始终如一。
      接下来,我们对这两种方法之间的全局差异是如何转化为单独的对齐方式。因此,我们计算每种肽的每对成对对准的对​​准误差(总共49,505个比定),发现色谱对准在所有病例的4.7%的4.7%中表现出色,而黄土在1.1%的情况下取得了更好的结果,而性能相当达到剩余的94.2%案件(见 补充图13B)。平均而言,Dialignr将RT误差减少2.3秒,中位数为1.7 s(见 补充图13C)。总体而言,我们的方法对准47.3K峰值,与45.6K在半峰宽度(15.3秒)内的优化黄色相比。然而,一般来说,我们观察到,在验证数据集上,两种方法以相似的一致性进行,这可能是由于细菌样本的低复杂性和数据的高均匀性,因为它们在同一两个连续日内获得的数据LC列。

       在大规模的异构人等离子体测量中的应用

      在展示始终如一地改善了性能之后 S. pyogenes 验证数据集,我们调查了我们算法对来自人类等离子体的大规模SWATH-MS实验的数据的性能。这些实验提供了一个更具挑战性的数据集,因为数据在六个月内获得了数据,其中仪器间歇修复和用新列(Column2)替换旧列(列1)。在随机选择从12个批次中的每一个运行的两个LC-MS / MS,使用406个肽用于测试我们的算法。由于我们没有手动验证峰值,高频率峰值组(Q值< 10−3)被用作验证集。
      将光谱图对准算法(Dialignr)与高度异构的人类等离子体数据集进行了低温方法,我们发现我们的方法对准97.92%的峰值与黄土的76.03%,最大误差为20 s(半色谱峰宽)。描绘了 Fig. 4A。所有测试的276成对对准显示使用色谱对准的改善性能(参见 补充图15)。接下来,我们对我们在两种不同列中获取的运行的对齐方面的性能感兴趣。我们发现,对于在不同柱上获取的运行,色谱图对准方法通过黄土方法对准峰的97.7%(与柱内对准内的97.84%相比)(Fig. 4B),表明Dialignr即使对于高度异构的数据集而言,Dialignr也保留了性能,而黄土方法没有。具体而言,我们不仅找到了Dialignr在柱上对齐之间表现出低的黄土,而且除了列在列对齐中,Dialignr的性能损失比黄土更加明显。在累计验证色谱图对齐的性能之后,我们决定探讨各个运行对对齐的一致性。 Fig. 4C 呈现在所有276对中对齐的峰值的分布。 Dialignr能够平均对准400峰值在半峰宽度内(平均黄土平均对齐309峰),改善了29%。这表明使用黄土时的大量对准误差,这可以通过Dialignr急剧减少。
      图缩略图GR4.
      Fig. 4MS2色谱图对准24次临床等离子体测量数据集的对准精度对齐用OpenSwath注释。每次运行中都选择了406个峰值组 m-分数< 0.001. (A)绘制误差小于特异性RT差异的肽的累积级分,用于所有可能的C(24,2)= 276对进行色谱图对齐,线性配合和 k - 最终邻居平滑(黄土),没有最佳跨度。 (B)绘制具有对准精度的肽的累积级分,用于具有不同数据采集条件的相对的色谱对齐和黄土。 LC列与四极置更换一起。在Column1上获得了十四次运行,这使得91对,标有“Column1”。在Quother替换栏中的Quadrupole替换后获得了十个运行,该方法将成导入45对,标记为“Column2”。有140对由“Column1”和“Column2”标记的运行组成;这些对被标记为“Column1-Column2”。 (C)在半峰宽度匹配的肽数的直方图,用于黄土和色谱图对齐。 (D)RT预测误差的直方图被绘制用于色谱法对齐和黄土。两种方法的RT差异标准偏差分别为22.91秒和13.7秒。
      为了验证各个对齐的性能,我们进一步计算了每种肽的每对对齐的对准误差。黄土对准误差的标准偏差为22.91秒,与13.7秒相比,用于Dialignr(Fig. 4D)。这表明RT对准与我们的方法更高的精度。在112,056666个对准中,我们发现Dialignr在所有病例的23%中表现出黄土,在76%的案件中同样进行(见 补充图14 - 在1.13%案件中表现更糟)。在手动验证时,发现这些更糟糕的峰值中的几个是由于OpenSwath的错误注释(补充图18)。因此,在异构人等离子体数据集上测试色谱图对准方法再次验证其一致性和改进的RT对准性能。

       切换肽洗脱顺序

      在液相色谱中,通常从一个跑到另一次运行时观察到漂移漂移。然而,我们对不同肽的变化感兴趣,因此可能导致逆转保留顺序(
      • Spicer V.
      • 格里戈里安姆
      • gotfrid A.
      • 站立K.G.
      • krokhin o.v.
      预测与肽RP-HPLC中梯度斜率的变化相关的保留时间偏移。
      )。在这样的场景中,在一次运行中按顺序洗脱的两种肽可以在另一次运行中逆转它们的洗脱顺序。由于我们的方法没有假设肽洗脱的秩序保存并促进独立对准,因此我们假设Dialignr能够揭示不订单保留的色谱比对的情况。具体地,我们分析了从异质和远处等离子体运行切换洗脱顺序的肽对。
      为了通过色谱图对齐算法确认这种峰值切换壳体的对齐,我们专门研究了对“Run4_RUN23”的对齐,因为它具有最多的峰值切换对。 Run4是2017年2月28日收购的批量v4的一部分,而Run23是来自2017年7月20日收购的批次M3.这对从普通的高得分训练肽的黄土拟合 Fig. 5A。大多数测试肽围绕全球合适线散射而不是直接在线。该图迅速表明407肽对(来自线的两侧),其包含由406个肽切换出它们的洗脱顺序的237个肽(参见补充部分S6)。因此,我们发现,总体而言,58.4%的肽参与了至少一种不令保存的洗脱事件。
      图缩略图GR5.
      Fig. 5对临床等离子体测量数据集对对准406肽的对齐406肽。 Run4“022817_V4_PLASMA_8UG_C11_010-05-02-2-V3-PLASMA083”于2017年2月28日收购,而Run23“072017_M3_Plasma_8ug_C4_69-090-1031-M3-Plasma027”于2017年7月20日获得。(A)使用自信的峰值获得两次运行之间的黄土拟合。测试肽以配合线围的红色显示。通过交叉验证获得跨度值= 0.27获得。前体AQLVDMK / 2和HydGsystfger / 2分别在洋红色和橙色圆十字符号中示出。 (B)两种肽,AQLVDMK / 2和HYDGSYSTFGER / 2,它们的洗脱顺序在这些运行中逆转。这种现象理论上是不可能对全局单调方法的峰值的对准。 Dialignr的色谱图对齐使用片段离子作为额外尺寸,因此可以精确地对准它们。 (C具有误差小于特异性RT差异的肽的分数被绘制成对Run4和Run23进行色谱图对齐,线性配合, k - 最终邻居平滑(黄土),没有最佳跨度。
      其中一个峰值切换壳体出现在 Fig. 5B。在Hydystfger / 2之后的Run4肽AQLVDMK / 2次洗脱中,而在RUN23中,发现洗脱令逆转。两种肽在Run4的Run23中看到阳性RT漂移;然而,HydGystfger / 2班次1,070 - 850 = 270 s,而aqlvdmk / 2只漂移仅1,050-900 = 150 s。两个运行之间的这种变化的rt漂移导致肽以不同的顺序洗脱。肽对不能与全局对准方法对齐,这在最佳情况下将在120秒中关闭;但是,我们的色谱图对齐方法将峰值正确映射到Run4到Run23(参见 补充图17)。
      此外,我们计算了对对对准的肽的累积分数“run4_run23”(Fig. 5C)。色谱图对齐与黄土相比正确对齐98%的峰值,其能够仅对准37.93%,因此,Dialignr能够将误差降低至多30倍。作者在视觉上进一步检查了八个没有正确对齐的峰值,并被作者进一步检查,并被发现是Openswath的误操作病例,主要是由于发生后期修改(参见补充部分S7和 补充图18)。

      讨论

      在LC-MS / MS之间的RT漂移和对准RTS校正LC-MS / MS之间的对准是蛋白质组学中的长期问题,并且由于蛋白质组学对人类队列的大规模分析移动,因此变得特别重要。然而,大多数努力关注MS1数据,并且很少有算法可以利用由目标方法或DIA / SWATH-MS产生的MS2光谱中存在的全部信息。
      在本文中,我们介绍了一种新颖的算法,其使用原始碎片 - 离子色谱图直接进行RT对准,用于针对靶向蛋白质组学和DIA数据。我们的算法使用XIC在一对运行中映射峰值,与当前最先进的方法相比,提高对准精度。此外,我们扩展了算法并实现了一种混合方法,它使用了基于特征的全局对齐来调节相似性矩阵 s 这导致准确性进一步提升(见 补充图10B)。这种混合方法提供了两个世界,具有灵活的“旋钮”,允许用户更专注于全局功能或更多地依赖于本地信息。据我们所知,研究人员尚未探索基于动态编程的基于碎片离子色谱图对齐。动态编程方法对于获得非线性(或覆盖)对准至关重要,因为即使对于本地峰值也具有变化的漂移。利用黄土将对准部分限制使得我们的算法更稳定,并提供了全局对准方法的鲁棒性。
      我们展示在“金标”验证数据集上,Dialignr始终如一地优于全局对准方法(使用线性或非线性方法),目前最先进的(补充图12C)。如果前体有两个过渡而不是一个转换,我们观察到对准精度近4%增加了近4%(补充图10A)和通过使用所有六个片段离子的另外1.5%的对齐前体,这也对应于建议的准则(
      • Schubert O.T.
      • 罗斯特H.L.
      • 柯林斯B.C.
      • Rosenberger G.
      • Aeberberold R.
      定量蛋白质组学:基础和应用研究中的挑战和机遇。
      )。由于Dialignr方法更加强调本地数据,因此我们还观察到全局对准功能产生更好的对齐( 补充图13B)。然而,总体而言,我们看到了增加的性能,Dialignr算法从7.9%降低到4.3%的错误率。有趣的是,我们发现我们的方法对色谱条件或样本矩阵的变化不太敏感,而不是全局对准方法(Fig. 3B)。
      这一发现导致我们推测,新的色谱比对对大规模研究中样品组成和色谱条件的异质性敏感。我们在几个月内获得了对人类血浆的大规模SWATH-MS实验的算法。在此数据集中,Dialignr降低了RT对准误差从24%到2%,这是对当前最先进的方法的显着改进。我们的方法表现优于其他方法,并且始终映射了半峰宽内的最高峰值,而不管采集时间间隔,柱更换或仪器修复在两个运行之间(Fig. 4B)。 Dialignr改进了RT对准精度,这具有可能通过下游工具改善峰值群识别和定量。我们手动识别出错误对齐的峰值组的示例,如图所示 补充图19。我们还观察到,在峰值在提取的色谱图之外的情况下,我们的方法能够以我们的混合方法使用全局对齐方式映射它外部的RT(参见 补充图18)。然后可以重新提取色谱图并用于正确注释峰值。因此,该方法可以进一步用于通过OpenSwath和其他工具提取色谱图。
      RT. 对准的改进具有非资格的计算成本。对于具有3.4秒的循环时间的10分钟XIC的对准,平均而言,Dialignr为0.16秒。因此,选择的437肽的成对对准每次运行对约1分钟。每种肽的对准中的最高成本是使用动态编程计算对准路径。然而,该问题与图书馆中的肽数线性缩放,并且可以在计算群集中容易地缓解。
      我们认为,我们的方法对于大规模的异构目标蛋白质组学研究最有用,在几个月甚至几年内收集不同人员和数据的运行。考虑到肽的洗脱顺序的切换,在这种实验中应用单个映射函数成为一个非常具有挑战性的任务。全局对准功能,单调,假设肽洗脱的时间顺序,因此不能对准切换肽。因此,我们观察到具有全局函数的实质性抵消和使用Dialignr的误差的总体减少。我们的杂种方法准确地对齐这些肽,因为它主要依赖于片段离子的附加尺寸 m / z. 对齐峰值。切换肽可能可以共享片段离子;但是,如果图书馆仔细设计,这是非常罕见的情景(
      • Schubert O.T.
      • 罗斯特H.L.
      • 柯林斯B.C.
      • Rosenberger G.
      • Aeberberold R.
      定量蛋白质组学:基础和应用研究中的挑战和机遇。
      )并且在这种情况下,我们的方法不会比全局对准方法更糟糕。
      准确的RT对准在应用基于质谱的蛋白质组学的大规模系统生物学研究中具有多种用途;正确的识别和改进的大量分析物的定量是其中两个。这似乎直观,因为目前最具定量方法,至少在某种程度上依赖于准确的RT对准。我们提出了一种可以通过在大量样品中建立分析物之间的对应关系来对准DIA数据的工具,使DIA适用于多中心和纵向研究。我们还期望通过现有的蛋白质组学软件使用该工具来简化分析物识别并提高量化。

      数据可用性

      通过OpenSwath提取的原始色谱图和特征在加入代码Pass01280下的PeptidAtlas上提供。

      致谢

      我们感谢Michael Snyder进行监督数据采集并提供对异构等离子体数据集的访问。我们还感谢Michael Brudno进行了有价值的讨论,用于使用动态编程的色谱对齐方式。

      补充材料

      参考

        • uzozie a.c.
        • Aeberberold R.
        促进靶素论的翻译研究和精密药物。
        j。 2018; 189: 1-10
        • 苏里诺瓦S.
        • 什因·罗斯
        • HüttenhainR.
        • Cerciello F.
        • Wollscheid B.
        • Aeberberold R.
        论血浆蛋白生物标志物的发展。
        J.蛋白质组。 2011; 10: 5-16
        • nigjeh e.n.
        • 陈R.
        • 品牌R.E.
        • Petersen G.M.
        • Chari S.T.
        • von haller p.d.
        • ENG J.K.
        • 冯Z.
        • 闫Q.
        • brentnall t.a.
        • 潘S.
        基于血浆分析中优化数据无关采集的定量蛋白质组学。
        J.蛋白质组。 2017; 16: 665-676
        • Schubert O.T.
        • 罗斯特H.L.
        • 柯林斯B.C.
        • Rosenberger G.
        • Aeberberold R.
        定量蛋白质组学:基础和应用研究中的挑战和机遇。
        NAT。 protoc。 2017; 12: 1289-1294
        • 罗斯特H.L.
        • 刘Y.
        • D'Agostino G.
        • Zanella M.
        • Navarro P.
        • Rosenberger G.
        • 柯林斯B.C.
        • 吉拉特L.
        • Testa G.
        • malmströml。
        • Aeberberold R.
        三十:靶向蛋白质组学中可重复蛋白质定量的自动对准策略。
        NAT。方法。 2016; 13: 777-783
        • 吉拉特L.C.
        • Navarro P.
        • 塔特S.
        • 罗斯特H.
        • selevsek n。
        • 重新勒
        • Bonner R.
        • Aeberberold R.
        由数据独立获取产生的MS / MS光谱的有针对性的数据提取:一致和准确的蛋白质组分析的新概念。
        摩尔。细胞。蛋白质组学。 2012; 11 (o111.016717)
        • 郭t.
        • Kouvonen P.
        • Koh C.C.
        • 吉拉特L.C.
        • Wolski W.E.
        • 罗斯特H.L.
        • Rosenberger G.
        • 柯林斯B.C.
        • BLUM L.C.
        • 吉隆森S.
        • joerger m.
        • Jochum W.
        • Aeberberold R.
        组织活检样品在永久定量数字蛋白质映射中的快速质谱转化。
        NAT。 Med。 2015; 21: 407-413
        • 罗斯特H.L.
        • Rosenberger G.
        • Navarro P.
        • 吉拉特L.
        • Miladinovićć
        • Schubert O.T.
        • Wolski W.
        • 柯林斯B.C.
        • MalmströmJ.
        • malmströml。
        • Aeberberold R.
        OpenSwath启用了对独立于数据的采集MS数据的自动化,有针对性的分析。
        NAT。 Biotechnol。 2014; 32: 219-223
        • tsou c.-c。
        • Avtonomov D.
        • 拉森B.
        • Tucholska M.
        • Choi H.
        • Gingras A.-​​C.
        • nesvizhskii a.i.
        DIA-UMPIRE:数据无关的采集蛋白质组学的综合计算框架。
        NAT。方法。 2015; 12: 258-264
        • Navarro P.
        • Kuharev J.
        • 吉拉特L.C.
        • 伯恩哈德特O.M.
        • 麦克莱恩B.
        • 罗斯特H.L.
        • tate s.a.
        • tsou c.-c。
        • 重新勒
        • 遥远的美国。
        • Rosenberger G.
        • Perez-Riverol Y.
        • nesvizhskii a.i.
        • Aeberberold R.
        • Tenzer S.
        一种多中心研究基准测试软件工具,用于无标记蛋白质组量化。
        NAT。 Biotechnol。 2016; 34: 1130-1136
        • 刘Y.
        • Buil A.
        • 柯林斯B.C.
        • 吉拉特L.C.
        • BLUM L.C.
        • 郑L.Y.
        • Vitek O.
        • mouritsen J.
        • 加法扬G.
        • 卫星T.D.
        • Dermitzakis e.t.
        • Aeberberold R.
        342例血浆蛋白在人双胞胎腺中的定量变异性。
        摩尔。系统。 BIOL。 2015; 11: 786
        • eScher C.
        • 重新勒
        • 麦克莱恩B.
        • Ossola R.
        • 赫罗特F.
        • 谢尔顿J.
        • maccoss m.j.
        • rinner o.
        使用IRT,归一化的保留时间,用于更具靶向肽的测量。
        蛋白质组学。 2012; 12: 1111-1121
        • 布鲁德尔R.
        • 伯恩哈德特O.M.
        • Gandhi T.
        • 重新勒
        高精度IRT预测数据无关地采集的目标分析及其对识别和定量的影响。
        蛋白质组学。 2016; 16: 2246-2256
        • 史密斯r.
        • Ventura D.
        • 王子J.T.
        LC.-MS在理论与实践中对齐:全面的算法综述。
        简短生物形式。 2015; 16: 104-117
        • Spicer V.
        • 格里戈里安姆
        • gotfrid A.
        • 站立K.G.
        • krokhin o.v.
        预测与肽RP-HPLC中梯度斜率的变化相关的保留时间偏移。
        肛门。化学。 2010; 82: 9678-9685
        • 吴L.
        • Amon S.
        • 林H.
        用于SWATH-MS数据的混合保留时间对准算法。
        蛋白质组学。 2016; 16: 2272-2283
        • nielsen n.-p.v.
        • 卡尔斯滕森准噶。
        • Smedsgaard J.
        用相关优化翘曲对准单个和多波长色谱分析对化学计量数据分析的调度。
        J.Chromatogr。一种。 1998; 805: 17-35
        • 拜伦D.
        • Danielsson R.
        • Malmquist G.
        • 标记K.E.
        通过翘曲和动态编程作为液相色谱 - 质谱数据的Parafacac造型预处理工具的色谱对齐。
        J.Chromatogr。一种。 2002; 961: 237-244
        • Listgarten J.
        • 尼尔下午
        • Roweis S.T.
        • Emili A.
        连续时间序列的多次对准。
        在: Saul L.K. Weiss Y. Bottou L. 神经信息处理系统的进步。 17. 麻雀, 2005: 817-824
        • Sadygov R.G.
        • 马罗托夫
        • hühmera.f.r.
        色度lign:三维LC-MS色谱表面的时间对准的两步算法。
        肛门。化学。 2006; 78: 8207-8217
        • Prakash A.
        • Mallick P.
        • Whiteaker J.
        • 张H.
        • Paulovich A.
        • fl
        • 李H.
        • Aeberberold R.
        • Schwikowski B.
        基于质谱的比较蛋白质组学的信号图。
        摩尔。细胞。蛋白质组学。 2006; 5: 423-432
        • Hoffmann N.
        • stoye J.
        色谱 - 质谱数据的基于信号的基于信号的保留时间对准。
        生物信息学。 2009; 25: 2080-2081
        • Christin C.
        • Hoefsloot H.C.
        • Smilde A.K.
        • 适合F.
        • Bischoff R.
        • Horvatovich P.L.
        基于所选质量迹线的时间对准算法,用于复杂LC-MS数据。
        J.蛋白质组。 2010; 9: 1483-1495
        • 罗宾逊M.D.
        • de souza d.p.
        • 敏锐的w.w.
        • 桑德斯e.c.
        • 麦肯维尔M.J.
        • 速度t.p.
        • likićv.a.
        多气相色谱 - 质谱实验中信号峰对准的动态规划方法。
        BMC生物信息学。 2007; 8: 419
        • 巴兰R.
        • Kochi H.
        • 锡达尔
        • Suematsu M.
        • Soga T.
        • Nishioka T.
        • 罗伯特M.
        • Tomita M.
        Mathdamp:用于代谢物轮廓的差异分析的包装。
        BMC生物信息学。 2006; 7: 530
        • 王J.
        • 林H.
        基于图的多液相色谱 - 质谱数据集的峰值对准算法。
        生物信息学。 2013; 29: 2469-2476
        • 桑廷米
        • 阿里A.
        • Hansson K.
        • månssono.
        • Andreasson E.
        • resjös。
        • Levander F.
        一种自适应对准算法,用于质量控制的无标签LC-MS。
        摩尔。细胞。蛋白质组学。 2013; 12: 1407-1420
        • 王子J.T.
        • Marcotte e.m.
        通过订购的双斑内插翘曲进行eSI-LC-MS蛋白质组学数据集的色谱对齐。
        肛门。化学。 2006; 78: 6140-6152
        • Hoffmann N.
        • 凯克米
        • NeuWeger H.
        • Wilhelm M.
        • HögyP.
        • niehaus k。
        • stoye J.
        组合基于峰和色谱图的保留时间对准算法,用于多相色谱 - 质谱数据集。
        BMC生物信息学。 2012; 13: 214
        • 钱伯下午
        • Hastie T.J.
        统计模型在S. Wadsworth.&Brooks / Cole高级书籍& Software, 太平洋格罗夫,加州1992
        • Searle B.C.
        • Pino L.K.
        • Egertson J.D.
        • 婷婷。
        • 劳伦斯R.T.
        • Villen J.
        • maccoss m.j.
        使用色谱文库进行数据独立采集质谱的综合肽量化。
        生物XIV。 2018; : 277822
        • Rosenberger G.
        • Bludau I.
        • 施密特U.
        • 赫苏尔米
        • 猎人C.L.
        • 刘Y.
        • maccoss m.j.
        • 麦克莱恩B.X.
        • nesvizhskii a.i.
        • pedrioli p.g.a.
        • 重新勒
        • 罗斯特H.L.
        • 塔特S.
        • 婷婷。
        • 柯林斯B.C.
        • Aeberberold R.
        大规模有针对性数据无关的采集分析中肽和蛋白质误差率的统计控制。
        NAT。方法。 2017; 14: 921-927
        • Chambers M.C.
        • 麦克莱恩B.
        • Burke R.
        • Amodei D.
        • Ruderman D.L.
        • Neumann S.
        • Gatto L.
        • Fischer B.
        • 普拉特B.
        • Egertson J.
        • 霍夫克
        • Kessner D.
        • 塔斯曼N.
        • 舒尔曼N.
        • Frewen B.
        • 贝克T.A.
        • Brusniak m.y.
        • 保罗C.
        • 皱纹D.
        • 闪光灯L.
        • Kani K.
        • 成型C.
        • Seymour S.L.
        • Nuwaysir L.M.
        • Lefebvre B.
        • Kuhlmann F.
        • 罗克J.
        • rainer p.
        • Detlev S.
        • Hemenway T.
        • Huhmer A.
        • Langridge J.
        • Connolly B.
        • Chadick T.
        • 霍莉K.
        • eCkels J.
        • 德意曲e.w.
        • 莫里茨R.L.
        • 凯茨J.E.
        • agus d.b.
        • Maccoss M.
        • Tabb D.L.
        • Mallick P.
        用于质谱和蛋白质组学的跨平台工具包。
        NAT。 Biotechnol。 2012; 30: 918-920
        • 德国R.
        • 艾迪S.R.
        • Krogh A.
        • 米奇G.
        生物序列分析:蛋白质和核酸的概率模型。 剑桥大学出版社, 1998