MZDB:使用多种索引策略的文件格式,以便高LC-MS / MS和SWATH-MS数据集的有效分析*

  • 达vidBouyssié.
    一致
    应该解决谁的通信:Institut de Pharmacologie et de Biologie Structurale,205路线De Narbonne,31077 Toulouse Cedex 4,法国。电话:33-5-61175503:传真:33-5-61175549;这些作者同样促进了这项研究。
    隶属关系
    来自‡CNRS; IPBS(Institut de Pharmacologie et de Biologie Structurale); 205 Route de Narbonne,F-31077图卢兹,法国;

    §夜间; UPS; IPBS; F-31077法国图卢兹;
    搜索本作者的文章
  • Marc Dubois.
    一致
    这些作者同样促进了这项研究。
    隶属关系
    来自‡CNRS; IPBS(Institut de Pharmacologie et de Biologie Structurale); 205 Route de Narbonne,F-31077图卢兹,法国;

    §夜间; UPS; IPBS; F-31077法国图卢兹;
    搜索本作者的文章
  • Sara Nasso.
    一致
    这些作者同样促进了这项研究。
    隶属关系
    ¶生物学,分子系统生物学研究所,Eth,Auguste-Piccard-Hof 1,Ethhönggerberg,瑞士CH-8093苏黎世;
    搜索本作者的文章
  • Anne Gonzalez de Peredo
    隶属关系
    来自‡CNRS; IPBS(Institut de Pharmacologie et de Biologie Structurale); 205 Route de Narbonne,F-31077图卢兹,法国;

    §夜间; UPS; IPBS; F-31077法国图卢兹;
    搜索本作者的文章
  • Odile Burlet-Schiltz
    隶属关系
    来自‡CNRS; IPBS(Institut de Pharmacologie et de Biologie Structurale); 205 Route de Narbonne,F-31077图卢兹,法国;

    §夜间; UPS; IPBS; F-31077法国图卢兹;
    搜索本作者的文章
  • Ruedi Aebbersold.
    隶属关系
    ¶生物学,分子系统生物学研究所,Eth,Auguste-Piccard-Hof 1,Ethhönggerberg,瑞士CH-8093苏黎世;

    ‖瑞士苏黎世苏黎世大学的科学厕所
    搜索本作者的文章
  • Bernard Monsarrat.
    隶属关系
    来自‡CNRS; IPBS(Institut de Pharmacologie et de Biologie Structurale); 205 Route de Narbonne,F-31077图卢兹,法国;

    §夜间; UPS; IPBS; F-31077法国图卢兹;
    搜索本作者的文章
      MS数据的分析和管理,尤其是由数据独立MS采集产生的,由SWATH-MS举例说明,对蛋白质组学生物信息学构成重大挑战。需要正确地构造这些数据集固有的大尺寸和大量信息,以实现用于识别特定靶肽的信号的有效和直接提取。标准XML基于XML的格式不适合大MS数据文件,例如,由SWATH-MS生成的那些,并危及高吞吐量数据处理和存储。
      我们开发了MZDB,是大MS数据集的有效文件格式。它依赖于SQLite软件库,包括标准化和便携式服务器的单文件数据库。采用优化的3D索引方法,其中LC-MS坐标(保留时间和m/z)以及用于SWATH-MS数据的前体M / Z,用于查询数据库以进行数据提取。
      与XML格式相比,MZDB保存了~25%的存储空间,并根据特定的数据访问,将访问时间提高到甚至2000倍的倍数。类似地,MZDB也显示出与MZ5这样的其他格式相比显着降低的访问时间。 C ++和Java实现都将原始或XML格式转换为MZDB并提供访问方法,将在允许许可证下发布。 SQLite C库及其驱动程序可以轻松访问MZDB,以及所有主要语言的驱动程序,并使用现有的专用GUI浏览。这里描述的MZDB可以提高现有的质谱数据分析管道,在效率,便携性,紧凑性和灵活性方面提供前所未有的性能。
      质谱仪的不断改进(
      • KöcherT.
      • Swart R.
      • Mechtler K.
      超高压RPLC连字符到LTQ-ORBITRAP VELOS显示峰值容量和鉴定的肽数之间的线性关系。
      ,
      • Thakur S.S.
      • 盖尔特T.
      • Chatterjee B.
      • Bandilla P.
      • Fröhlichf.
      • Cox J.
      通过LC-MS / MS的深度和高敏感的蛋白质组覆盖,而无需预先分量。
      ,
      • Nagaraj N.
      • 亚历山大Kulak N.
      • Cox J.
      • Neuhauser N.
      • Mayr K.
      • HOERNING O.
      • vorm o.
      通过单次超高HPLC在台式壁图上运行酵母蛋白质的系统宽扰动分析。
      ,
      • 韦伯K.J.
      • XU T.
      • 公园S.K.
      • yates j.r.
      修饰的Mudpit分离确定了4488个蛋白质在酵母中系统范围内的静态分析中。
      )和HPLC系统(
      • Bantscheff M.
      • Schirle M.
      • 甜蜜曼G.
      • 瑞克J.
      • Kuster B.
      蛋白质组学中的定量质谱:批判性综述。
      ,
      • Bantscheff M.
      • Lemeer S.
      • Savitski m.m.
      • Kuster B.
      蛋白质组学中的定量质谱:2007年至今的批判性评论更新。
      ,
      • Michalski A.
      • 达莫e.
      • Hauschild J.-P.
      • Lange O.
      • Wieghaus A.
      • Makarov A.
      • Nagaraj N.
      • Cox J.
      • 角horn
      基于质谱的蛋白质组学使用Q辐射,高性能台式四轴锻体质谱仪。
      ,
      • 安德鲁斯G.L.
      • 西蒙斯B.L.
      • 年轻J.B.
      • 霍克里奇上午
      • Muddiman D.C.
      新型混合Quadriupole飞行时间串联质谱仪的性能特征(三重岩5600)。
      ,
      • Senko M.W.
      • 弥补下午
      • 坎特伯雷J.D.
      • Mathur R.
      • 宋Q.
      • eliuk s.m.
      • Mullen C.
      • 埃尔利L.
      • 哈德曼M.
      • Blethrow J.D.
      • Bui H.
      • SPECHT A.
      • Lange O.
      • Denisov E.
      • Makarov A.
      • 角horn
      • Zabrouskov V.
      新颖的并联四极孔/线性离子阱/绕素纤维质谱仪改善蛋白质组覆盖率和肽鉴定率。
      ,
      • Hebert A.S.
      • Richards A.L.
      • Bailey D.J.
      • Ulbrich A.
      • Coughlin E.E.
      • Westphall M.S.
      • Coon J.J.
      一小时酵母蛋白质组。
      )而且,它们为他们产生的软件开发人员提供了迅速增加的数据卷对不断适应他们的工具来处理不同类型和越来越大的原始文件的大小来构成真正的挑战。实际上,单个MS分析的文件大小从几个MB转化为几年的MB到几个GB。高吞吐量的引入,高质量精度MS分析数据相关的采集(DDA)和采用数据独立采集(DIA)方法,例如SWATH-MS(
      • Gillet L.C.
      • Navarro P.
      • 塔特S.
      • 罗斯特H.
      • selevsek n。
      • 重新勒
      • Bonner R.
      • Aeberberold R.
      由数据独立获取产生的MS / MS光谱的有针对性的数据提取:一致和准确的蛋白质组分析的新概念。
      ),这是在这一发展中的重要因素。这些庞大的数据文件的管理是实验室和原始文件公共存储库的主要问题,需要定期升级其存储解决方案和容量。
      XML.(可扩展标记语言)标准格式的可用性(
      • Pedrioli P.G.一种
      • ENG J.K.
      • Hubley R.
      • Vogelzang M.
      • 德意曲e.w.
      • 骑B.
      • 普拉特B.
      • Nilsson E.
      • Angeletti R.H.
      • APWEILER R.
      • 张克。
      • Costello C.E.
      • Hermjakob H.
      • 黄S.
      • 朱利安r.k.
      • Kapp E.
      • McComb M.E.
      • 奥利弗S.G.
      • omenn g.
      • Paton n.w.
      • 辛普森r.
      • 史密斯r.
      • 泰勒C.F.
      • 朱W.
      • Aeberberold R.
      质谱数据的共同开放表示及其在蛋白质组学研究中的应用。
      ,
      • 玛特L.
      • Chambers M.
      • STURM M.
      • Kessner D.
      • Levander F.
      • Shofstahl J.
      • 唐W.H.
      • RömppA.
      • Neumann S.
      • Pizarro A.D.
      • MonteCchi-Palazzi L.
      • 塔斯曼N.
      • 科尔曼M.
      • Reinger F.
      • Souda P.
      • Hermjakob H.
      • binz p.-a.
      • 德意曲e.w.
      MZML-质谱数据的社区标准。
      )加强实验室之间的数据交换。然而,与原始尺寸相比,XML导致原始文件大小的膨胀量大于两到三次。供应商文件虽然较轻,是专有格式,通常与Microsoft Windows以外的操作系统兼容。它们通常不会与许多开源软件工具接口,并且不为数据交换提供可行的解决方案。除了尺寸的通货膨胀之外,在文献中已经在文献中描述了与使用XML相关的其他缺点(
      • 沙阿尔。
      • 戴维森J.
      • Monroe M.E.
      • Mayampurath上午
      • 达nielson W.F.
      • 施y.
      • 罗宾逊A.c.
      • 掌握B.H.
      • Belov M.E.
      • 安德森G.A.
      • 史密斯r.d.
      基于质谱的蛋白质组学的有效数据格式。
      ,
      • 林三。
      • 朱L.
      • 冬天A.Q.
      • Sasinowski M.
      • Kibbe w.a.
      什么是mzxml适合?
      ,
      • Askenazi M.
      • Parikh J.R.
      • 玛托J.A.
      MZAPI:一种有效共享质谱数据的新策略。
      ,
      • Wilhelm M.
      • Kirchner M.
      • Steen J.A.J.
      • 斯丁H.
      MZ5:质谱数据集的空间和延时存储。
      )。这些包括语言语法的详细程度,缺乏对多维色谱分析的支持,并且在数据处理期间显示了低性能。尽管XML标准最初被构思为用于在社区中启用数据共享的格式,但它们通常用作MS数据分析的输入。最新软件工具(
      • Kohlbacher O.
      • Reinert K.
      • GRÖPLC.
      • Lange E.
      • pfeifer n。
      • Schulz-Trieglacaff O.
      • STURM M.
      TOPP- OpenMS蛋白质组学管道。
      ,
      • Barsnes H.
      • Vaudel M.
      • Colaert N.
      • 赫尔森K.
      • 镰刀A.
      • 鲍伦森
      • 玛特L.
      CompoMics-Utilities:用于计算蛋白质组学的开源Java库。
      )通常只与MZML文件兼容,限制 事实上 蛋白质组学分析的吞吐量。
      为了解决这些问题,一些独立的实验室开发了依赖二元规范的开放格式(
      • 沙阿尔。
      • 戴维森J.
      • Monroe M.E.
      • Mayampurath上午
      • 达nielson W.F.
      • 施y.
      • 罗宾逊A.c.
      • 掌握B.H.
      • Belov M.E.
      • 安德森G.A.
      • 史密斯r.d.
      基于质谱的蛋白质组学的有效数据格式。
      ,
      • Wilhelm M.
      • Kirchner M.
      • Steen J.A.J.
      • 斯丁H.
      MZ5:质谱数据集的空间和延时存储。
      ,
      • jaitly n ..
      • Mayampurath A.
      • Littlefield K.
      • Adkins J.N.
      • 安德森G.A.
      • 史密斯r.d.
      Decon2LS:用于自动处理和高分辨率质谱数据的自动处理和可视化的开源软件包。
      ,
      • 史密斯C.A.
      • 想要e.j.
      • O'Maille G.
      • Abagyan R.
      • Siuzdak G.
      XCMS:使用非线性峰对准,匹配和识别处理用于代谢物分析的质谱数据。
      ),优化文件大小和数据处理性能。类似的努力已经超过十年前开始,在其他人中,在2004年首次描述的NetCDF版本4中,为一个名为HDF5的新数据模型增加了支持。因为它特别适合于复杂数据的表示,所以在几个科学项目中使用HDF5来存储和有效地访问大量字节,如MZ5格式(
      • Wilhelm M.
      • Kirchner M.
      • Steen J.A.J.
      • 斯丁H.
      MZ5:质谱数据集的空间和延时存储。
      )。与基于XML的格式相比,MZ5在文件大小,内存占用空间和访问时间方面更有效。因此,在超过10年前更换JCAMP文本格式之后,NetCDF现在是基于XML格式的合适替代品。尽管如此,在二进制文件中存储和索引大量数据的解决方案不限于NetCDF。例如,已经证明关系模型可以代表原始数据,如YAFMS格式(
      • 沙阿尔。
      • 戴维森J.
      • Monroe M.E.
      • Mayampurath上午
      • 达nielson W.F.
      • 施y.
      • 罗宾逊A.c.
      • 掌握B.H.
      • Belov M.E.
      • 安德森G.A.
      • 史密斯r.d.
      基于质谱的蛋白质组学的有效数据格式。
      )基于SQLite的技术,该技术允许实现便携式,自包含的单个文件数据库。与MZ5类似,YAFMS在文件大小和访问时间方面肯定更有效,而不是XML。
      尽管有所改进,但这些新的二进制格式的限制依赖于缺少多索引模型来表示LC-MS数据的双维结构。当使用LC-MS / MS采集文件时,LC-MS数据的固有2D索引确实非常有用。在最先进的状态下,可以在DDA和DIA方法中识别出三个主要的原始数据访问策略:
      • (1)整体依次阅读 m/z 光谱,用于系统处理整个原始文件。用例:文件格式转换,峰值拣选,MS / MS谱分析,以及MS / MS峰列表生成。
      • (2)系统处理特定的数据 m / z. 窗户,穿过整个色谱梯度。用例:提取整个色谱梯度和MS特征检测的XIC。
      • (3)随机访问LC-MS地图的小区域(几个光谱或少数 m/z 连续光谱的窗口)。用例:数据可视化,在小型时间范围内针对XIC的提取,并针对谱的子集中提取。
      采用某种数据访问策略取决于特定的数据分析算法,其可以主要通过无监督或监督方法进行信号提取。无监督的方法(
      • Kohlbacher O.
      • Reinert K.
      • GRÖPLC.
      • Lange E.
      • pfeifer n。
      • Schulz-Trieglacaff O.
      • STURM M.
      TOPP- OpenMS蛋白质组学管道。
      ,
      • Bellew M.
      • Coram M.
      • Fitzgibbon M.
      • IGRA M.
      • 兰多夫T.
      • 王P.
      • 5月D.
      • ENG J.
      • 方罗。
      • 林C.
      • 陈杰。
      • Goodlett D.
      • Whiteaker J.
      • Paulovich A.
      • McIntosh M.
      用高分辨率LC-MS综合分析复杂蛋白质混合物的综合算法。
      ,
      • Katajamaa M.
      • oresic m.
      LC / MS配置文件数据差分分析的处理方法。
      ,
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
      ,
      • Jaffe J.D.
      • MANI D.R.
      • Leptos K.C.
      • 教堂。
      • Gillette M.A.
      • carr s.a.
      Pepper,实验蛋白质组学模式识别的平台。
      )识别LC-MS特征,基于理论同位素分布,洗脱峰等的形状等。相反,监督方法(
      • 李X.-j.
      • 张H.
      • ranish j.a.
      • Aeberberold R.
      通过稳定同位素稀释和串联质谱法产生的蛋白质丰度差异的自动统计分析。
      ,
      • 重新勒
      • rinner o.
      • Picotti P.
      • HüttenhainR.
      • 贝克米
      • Brusniak m.y.
      • Hengartner M.O.
      • Aeberberold R.
      MPROPHET:用于大规模SRM实验的自动数据处理和统计验证。
      ,
      2012年的方法。
      ,
      • Michalski A.
      • Cox J.
      在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
      ,
      • Kulak N.A.
      • Nagaraj N.
      • Cox J.
      即将到来的年龄完全,准确,普遍存在的蛋白质素。
      )使用峰值拾取为驱动数据访问,使用 先验 关于肽坐标的知识(m/z,保留时间,和 m/z DIATERORERSEATORES,其由识别搜索引擎给出的适当提取列表或有针对性蛋白质组学中的过渡列表提供(

      Roest,HL,Rosenberger,G.,Navarro,P.,Schubert,OT,Wolski,W.,Collins,BC,Malmstroem,J.,Malmstroem,L.,Aebbersold,R.,自动化,有针对性分析的工具数据无关的采集(DIA)MS-DATA:OPENSWATH。 NAT。 Biotechnol。,接受。

      )。根据提取列表的特定算法,数据大小和长度,数据访问开销可以显着变化。在无监督的方法中,特征检测首先基于对全套MS光谱的分析,然后在相邻MS扫描中检测到的峰值的分析;因此,需要优化的顺序频谱访问。在监督方法中,用它们提取肽XIC 先验 坐标,因此顺序谱接入不是合适的解决方案;例如,由不同肽共享的MS光谱将多次加载导致高度冗余的数据重新加载。尽管复杂的缓存机制可以减少这个问题的影响,但它们也会提高内存消耗。因此,优选的是通过在时间尺寸中利用索引来执行对特定MS光谱的目标访问。但是,由于全文谱的冗余负载,它仍然是一个次优的解决方案,而只有一个以肽为中心的小光谱窗口 m/z 是感兴趣的。因此,数十种肽的量化(
      • Michalski A.
      • Cox J.
      在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
      ,
      • Kulak N.A.
      • Nagaraj N.
      • Cox J.
      即将到来的年龄完全,准确,普遍存在的蛋白质素。
      )需要适当的数据访问方法来应对MS数据的重复和高负载。
      因此,我们认为理想的文件格式应该显示出可比的效率,而不管特定用例如何。为了实现任何数据访问的这种重要的灵活性和效率,我们开发了一种具有多种索引策略的新解决方案:MZDB格式(即M./z 数据库)。作为YAFMS格式,MZDB使用SQLite实现,通常在多个计算项目中采用,并且与大多数编程语言兼容。与MZ5和YAFMS格式相比,其中每个频谱由单个索引条目引用,MZDB具有允许多维数据索引的内部数据结构,从而导致沿着时间和时间的有效查询 m/z 方面。这使得MZDB专门适用于大规模LC-MS / MS数据的处理。特别地,为SWATH-MS数据扩展了多维数据索引模型,其中第三索引由 m/z 除了RT和RT和外部的前体离子 m/z 片段离子。
      为了展示其所有描述的数据访问策略的效率,将MZDB与MZML格式进行比较,即官方XML标准以及最新的MZ5二进制格式,它已经与许多现有文件格式进行了比较(
      • Wilhelm M.
      • Kirchner M.
      • Steen J.A.J.
      • 斯丁H.
      MZ5:质谱数据集的空间和延时存储。
      )。结果表明,MZDB在大多数比较之外,除了在MZ5和MZDB可比性的顺序读取基准之外,除了连续的读取基准之外,MZDB优于大多数比较。 MZDB访问性能,可移植性和紧凑性,以及其对PSI控制的词汇的符合性使其与质谱数据存储和交换的现有解决方案互补,并且最终将解决与其处理期间的数据访问开销相关的问题。因此,MZDB可以增强现有的质谱数据分析管道,提供前所未有的性能,因此提供了可能性。

       实验步骤

       MS数据集

      为了在DDA数据上进行不同文件格式的评估,使用培养的原发性血管ECS的总裂解物。它被提交给1D-SDS-PAGE并分馏成12个凝胶带,如前所述加工(45)。在80分钟的梯度通过纳米-SMS / MS通过耦合到LTQ-Orbitrap Velos质谱仪(Thermo Fisher Scientific Inc.,Waltham,MA),通过NaNOlc-MS / MS在80分钟的梯度期间洗脱肽。 LTQ-orbitrap velos与Xcalibur软件以数据相关的采集模式操作。调查扫描MS在300-2000的orbitrap中获得 m/z 范围的分辨率设定为60,000的值。选择每次测量扫描的10个最强烈的离子进行CID碎片,并在线性捕集器(LTQ)中分析所得片段。在60秒内使用动态排除以防止重复选择相同的肽。
      本研究中使用的SWATH-MS数据是最近发布的数据集的一部分(

      Roest,HL,Rosenberger,G.,Navarro,P.,Schubert,OT,Wolski,W.,Collins,BC,Malmstroem,J.,Malmstroem,L.,Aebbersold,R.,自动化,有针对性分析的工具数据无关的采集(DIA)MS-DATA:OPENSWATH。 NAT。 Biotechnol。,接受。

      ),对应于将422种合成肽掺入三个不同的蛋白质组学背景(水,酵母细胞裂解物或HeLa细胞裂解物)中的样品中的样品,以产生“金标准”数据集。将这些样品提交给TripletOf 5600系统(AB Sciex,Framingham,MA)的SWATH-MS分析,基本上如(

      Roest,HL,Rosenberger,G.,Navarro,P.,Schubert,OT,Wolski,W.,Collins,BC,Malmstroem,J.,Malmstroem,L.,Aebbersold,R.,自动化,有针对性分析的工具数据无关的采集(DIA)MS-DATA:OPENSWATH。 NAT。 Biotechnol。,接受。

      )。根据从不同复杂性的样本获得的数据集,我们选择了四个增加尺寸,〜2,5,10和25 GB的文件(MZXML转换后的最终尺寸)。

       生物信息学

      对于DDA数据,原始数据文件使用ProteOWIzard转换为MZ5和MZML(
      • Kessner D.
      • Chambers M.
      • Burke R.
      • agus d。
      • Mallick P.
      Proteowizard:开源软件,用于快速蛋白质组学工具开发。
      )MSConvert工具具有以下设置:默认二进制编码(64位for m/z 和32位的强度),没有数据过滤( IE。 配置文件模式编码),启用索引,禁用ZLIB压缩。使用内部软件工具“Raw2mzdb.exe”(参见结果部分中的“实现”),将原始文件转换为MZDB,默认绑定框尺寸:时间宽度为15 s和 m/z MS边界框的宽度为5DA,每个MS / MS频谱的一个边界框(时间宽度为0 s和 m/z 宽度为10,000 da)。通过比较MZDB与MZ5文件格式(未示出的数据)比较MD5签名来检查MZDB数据的完整性。为了评估顺序读取时间,使用十二个获取的DDA文件,并且从这个小MS数据集,我们使用类似于MZ5基准标记的程序创建了一个大而异质的数据文件面板(
      • Wilhelm M.
      • Kirchner M.
      • Steen J.A.J.
      • 斯丁H.
      MZ5:质谱数据集的空间和延时存储。
      )。每个文件都被重复截断,随着频谱数量的增加(步长设置为800张),直到达到原始文件的总大小。这导致了包含多种尺寸范围内的636个子文件,并且为每个尺寸测量顺序读数时间。更具体地评估沿着的阅读时间 m/z 维度(运行切片)和随机访问的性能(范围查询),使用来自12个分数的最大原始文件(文件大小1.6GB)。使用不同的工具进行基准。在MZ5文件,原始文件和MZXML文件的情况下,使用MS Spectra的迭代读取来评估顺序读取时间,并通过指定“-binary”命令参数来使用“MSBenchMark”ProteOWIzard工具计算启用所有的装载 m/z - 中包含在数据文件中的情况。通过提供适当的选项,使用“MSAccess”ProteOwizard工具来评估涉及LC-MS区域加载LC-MS区域的基准,具体到执行的读取操作:运行切片迭代和整个LC梯度随机提取并启用“SIC”选项,虽然用“切片”选项进行了小特定区域的提取。在MZDB文件的情况下,使用与“MSAccess”的“PWIZ-MZDB”库中构建的“PWIZ-MZDB”库进行了所有类型的数据访问和测试,以确保所有文件格式的同质读取方法。
      基于SWATH-MS数据的基准组成的XIC的目标数据提取(50ppm×60秒和50ppm×200秒)在增加尺寸(2,5,10和25 GB)的四个文件上。此外,还评估了与文件建立连接所需的时间,因为文件大小缩小为文件大小。通过内部开发的Java软件,通过内部开发的Java软件对比较进行比较,目前在Eth Lab中采用的标准。特别地,使用Java蛋白质组学库(来自西雅图蛋白质组中心的Java随机接入库(JRAP)库的增强版)来实现对MZXML文件的访问来检索光谱(IE。 峰值列表)感兴趣,java平台集合框架的二进制搜索获取(m/z每个频谱的强度)感兴趣点。使用Java中开发的“MZDB-SWATH”库执行对MZDB文件的数据访问。

       使用专用于测试运行的所有资源进行比较(没有并行作业)

      达达硬件配置:Windows 8,64Bits工作站,英特尔酷睿™I7 2.93 GHz,8 GB RAM和4 TB的SATA HDD。 DIA硬件配置:MAC OS X 10.8.3,Intel Core™I7 3.4 GHz,32 GB RAM和SATA HDD为1 TB。

       结果

       文件格式规格

      MZDB中使用的索引策略旨在有效地解决LC-MS数据的不同访问情况。通过SQLITE本地提供的SQL频谱索引本质上覆盖第一访问案例(光谱读取)。关于第二种访问案例(系统加载 m/z Windows),MZDB关系架构(Fig. 1)旨在有一个额外的指数 m/z 尺寸,介绍“运行切片”概念(Fig. 2),也就是说,覆盖整个色谱梯度但限制为给定的LC-MS地图的子集。 m/z 扫描窗口。基本上,如图所示 Fig. 2,LC-MS数据分为自定义的网格单元中 m/z 和时间宽度,即边界框(BBS)。每个频谱首先分成给定的几个频谱切片 m/z 窗户。谱切片属于相同 m/z 窗口和在给定的时间窗口中的洗脱被分组成BB。运行切片由具有相同的所有BBS组成 m/z 窗户。在LC-MS / MS的定量分析的情况下,因此可以有效地提取所有肽的信号 m/z 落在给定的“运行切片”中 m/z 范围。最后,通过实现多维数据索引模型,大大优化了第三种访问情况(对小频谱区域的随机访问),该模型允许沿着两次和 m/z 方面。在以前的研究中描述了使用多维索引模型获得的一般性能增加(
      • Guttman A.
      在1984年ACM Sigmod的数据管理国际会议上的诉讼程序中。
      ,
      • Vitter J.s.
      外部存储器算法和数据结构:处理大规模数据。
      )。它在LC-MS采集中的应用首先在质心数据上测试(
      • 汗Z.
      • 绽放J.S.
      • 加西亚B.A.
      • Singh M.
      • Kruglyak L.
      蛋白质量化数百种实验条件。
      )然后在配置文件数据(
      • 纳瓦斯。
      • Silvestri F.
      • TISIET F.
      • 迪卡米洛B.
      • Pietracaprina A.
      • Toffolo上午
      高吞吐量3D蛋白质组学数据的优化数据结构:MZRTree。
      )通过MZRTree,一种效率导向的数据格式。这里,MZRTree结构实现为SQLite文件格式,利用SQLite标准化及其内置R *树索引。作为MZDB项目的初步阶段,我们评估了SQLite适应MZRTRE的适应如何影响访问时间性能。为此目的,我们根据四个不同的提取范围测量了访问时间,如最初(
      • Gautier V.
      • Mouton-Barbosa E.
      • Bouyssiéd。
      • Delcourt N.
      • Beau M.
      • Girard J.P.
      • Cayrol C.
      • Burlet-Schiltz O.
      • Monsarrat B.
      • Gonzalez de Peredo A.
      一维SDS-PAGE / NANOMES的无标记量化和霰弹枪分析复合蛋白质蛋白质:炎症人内皮细胞大规模分析的评价。
      ):覆盖整个矩形的矩形 m/z 维度和20个保留时间(光谱);覆盖所有保留时间和5 da范围的矩形 m/z 尺寸(色谱图);矩形为5 da和60次保留时间(小肽);矩形为5 da和200个保留时间(大肽)。使用与原始MZRTree出版物中相同的测试数据文件进行这些测量。我们的可行性研究表明,多维索引模型的SQLite实施可以在发布的结果上提高:在与原始MZRTree格式相比时,我们达到了四种范围查询,实际上,我们达到了类似的性能或两到十倍的性能或速度增益(补充图。S1)。
      图缩略图GR1.
      Fig. 1MZDB数据格式的简化关系模型。 大多数表名称和内容与MZML PSI标准的主节点相同。边界框通过三个不同的表索引:spectrum,run_slice和budding_box_rtree。 MZDB格式引入了“Run Slice”概念。
      图缩略图GR2.
      Fig. 2MZDB文件的数据结构。 LC-MS数据在自定义的网格单元中划分 m/z 和时间宽度,即边界框。每个频谱首先分成给定的几个频谱切片 m/z 窗户。谱切片属于相同 m/z 窗口和在给定的时间窗口中的洗脱被分组成BB。运行切片由具有相同的所有BBS组成 m/z window.
      用于MZDB格式的SQLite采用允许定义基于关系模型的规范。介绍了MZDB模型的简化版本 Fig. 1,而完整版在补充材料中可用。应该注意的是,只要有可能,表和列名和内容都与MZML PSI标准的主节点相同。但是,实施的关系模型不构成 本身 整个原始数据信息的全面持久层。实际上,元数据以XML格式存储在专用“Param_tree”字段中。描述描述这些字段内容的XML模式定义(XSD)也在补充材料中提供。边界框可以被视为频谱切片阵列,并由三个不同的表索引( Fig. 1)。 “频谱”和“run_slice”索引是SQL本机,而“绑定_box_rtree”是一个R *树索引,这是SQLite引擎的内置特征。最后,我们还开发了一种针对SWATH-MS数据进行了优化的解决方案,其中实现了定制的3D索引方法:LC-MS坐标(保留时间和 m/z 片段离子)以及 m/z 前体是用于查询数据库以获取有针对性的数据提取时的索引。目前,最先进的软件,用于根据打开格式处理SWATH数据(IE。 OpenSwath) (
      • Gillet L.C.
      • Navarro P.
      • 塔特S.
      • 罗斯特H.
      • selevsek n。
      • 重新勒
      • Bonner R.
      • Aeberberold R.
      由数据独立获取产生的MS / MS光谱的有针对性的数据提取:一致和准确的蛋白质组分析的新概念。
      ,

      Roest,HL,Rosenberger,G.,Navarro,P.,Schubert,OT,Wolski,W.,Collins,BC,Malmstroem,J.,Malmstroem,L.,Aebbersold,R.,自动化,有针对性分析的工具数据无关的采集(DIA)MS-DATA:OPENSWATH。 NAT。 Biotechnol。,接受。

      )使用每个MZXML文件的拆分版本。基本上,初始条件MZXML文件在许多MZXML文件中拆分,对应于给定的“SWATH”,其中包含来自给定的所有父子离子的MS / MS片段的给定的“SWATH” m/z 窗户。结果,对于每个查询(从前体导出的特定片段的信号的提取),必须根据的情况访问不同的数据文件 m/z 前体离子。这导致管理系列MZXML文件,它使分析复杂化,特别是如果要比较的数据集数量很高。相反,MZDB中的3D索引允许通过在没有任何开销的情况下访问单个数据文件来询问任何前体的SWATH-MS数据(补充图S2)。

       实现

      我们开发了两个软件库,以便从DDA数据开始创建和处理MZDB数据文件,以及特定于DIA / SWATH-MS数据的第三个。
      名为“pwiz-mzdb”的第一个实例,可以视为ProteoWizard扩展,专用于MZDB格式的生成和转换。它是用C ++语言编写的,并利用Proteowizard框架(
      • 汗Z.
      • 绽放J.S.
      • 加西亚B.A.
      • Singh M.
      • Kruglyak L.
      蛋白质量化数百种实验条件。
      )阅读供应商原始文件格式和标准,如MZXML,MZML和MZ5。可以使用两个命令行接口:将上述格式转换为MZDB的“Raw2mzdb.exe”,以及“MZDB2MZML.exe”,其执行反向转换为MZML标准,因此还允许读取和操作MZDB文件。第二实例是一个名为“MZDB-Access”的全功能Java库,允许读取MZDB格式,并在不同的访问方式中优化数据提取。根据要进行的提取,可以使用三种可用的最适合的指数:频谱,运行切片和BB R *树索引。名为“MZDB-SWATH”的第三实例是一个互补的Java库,用于SWATH-MS数据,显然是适用于其他特定的DIA方法。它将SWATH-MS数据从XML标准格式转换为MZDB(也支持变量 m/z 窗口隔离宽度设置,最近引入了SWATH-MS采集)。 “MZDB-SWATH”库提供了使用R *树索引执行SWATH-MS数据的经典目标数据提取的方法,从而实现了片段离子的有效高吞吐量XIC提取。内置查询访问方法返回符号列表,符合MZXML / MZML Spectra表示。
      达达文件(PWIZ-MZDB)的C ++实现可在Apache 2.0许可证(也适用于Proteowizard),而Java对应物(MZDB-Access)在Cecill-C许可证下分发。 DIA文件(MZDB-SWATH)的Java库在GPL 3.0许可下许可。可以从专用网站下载软件包(//github.com/mzdb)。因此,所有三个库,PWIZ-MZDB,MZDB访问和MZDB-SWATH表示直接可用的工具来处理和使用MZDB文件,并且它们可以直接集成在更常规的定量处理管道中以实现从中开始的有效数据提取索引格式。

       数据编码模式

      如最近所描述的(43),可以使用多种模式,最常见于轮廓和以集中模式表示质谱。前者提供了频谱的无损持久性,而后者显着降低了数据集的大小,因为只有一对值[m/z,每个检测到的MS峰值保持强度。我们在这里介绍了一种新的MS数据表示模式,拟合模式,延长了明确模式。实际上,为每个MS峰值,左半宽和右半宽以半最大,以保持峰值的表征。与澄清模式相比,这导致信息损失降低。此拟合模式是可选的,用户可以选择如何编码每个MS级别:配置文件,蜈蚣或安装。对于SWATH-MS数据,转换为MZDB只是简单地再现存储在XML格式中的相同数据。

       基准

      使用DDA或SWATH-MS数据,通过严格的基准设置评估MZML,MZ5和MZDB文件格式的性能。首先,我们将在将原始文件转换为不同格式后获得的文件大小。我们在创建MZML和MZ5格式时切换/关闭ProteOwizard“MSCONVERT”工具的压缩选项,并使用“Raw2mzdb.exe”工具在配置文件或拟合模式下生成MZDB格式。结果显示在 补充图S3 对于DDA数据,并指示MZML文件,具体取决于它是否被压缩,需要两到三倍的空间与原始文件相比。相反,MZ5和MZDB使用大约20%的磁盘空间而不是MZML文件,并且显着,它们分别在压缩和装配模式中创建时均接近原始原始文件大小。在SWATH-MS数据上,与MZXML相比的存储空间方面的平均收益也很重要(约25%,未显示数据),因为MZDB直接存储二进制数据,因此不需要BASE64数据编码,因为它基于XML格式的情况。
      接下来在基本上在不同模式下进行数据访问时间来进行不同格式的比较:顺序读数 m/z 沿RT维度的光谱,系统负载 m/z Windows,以及沿着两个维度的特定窗口中的随机访问数据。首先,我们希望检查MZDB的性能,以满足最古典的访问模式,即顺序读数 m/z 光谱。对于三种数据格式,我们如此评估系统,顺序读取在转换的文件(以未压缩,配置文件模式)中编码的所有光谱所需的时间作为文件大小的函数。为此,我们通过重复截断原始的小型DDA数据集中包含的不同文件(参见实验过程),我们生成了具有异构尺寸的大型数据集的636个文件。读数所需的总时间(以秒为单位) m/z 文件中包含的光谱作为文件大小的函数绘制,并且每个分布的线性拟合的斜率,反映了每个数据格式的全局时间性能,如图所示 Fig. 3。关于RT维度中的顺序读数,MZDB和MZ5总体是可比的,并且它们优于两种MZML格式。可以注意到,尽管MZDB读数时间与文件大小严格成比例,但MZ5数据点更广泛。
      图缩略图GR3.
      Fig. 3顺序阅读时间。 在未压缩的配置文件模式下,在转换之后读取文件所需的所有MS Spectra所需的所有MS Spectra所需的时间(以秒为单位)对于此测试(总共636个)使用大量DDA文件(总计636),并且对于每个文件,绘制总读取时间绘制针对文件大小(表示为文件中的数据点数,即,数量 m/z - 强度对)。使用每个文件格式的所有点的线性拟合的斜率表示顺序读数的速度(×107)并在底部表中报道。 MZ5和MZDB格式都明显优于MZML,而MZ5仅略微比MZDB略微更快,用于连续读数。
      然而,通过利用索引策略,有针对性数据提取的MZDB最显着的性能增益。在转换为三种不同格式的单个DDA文件中,因此测试了不同类型的数据提取,如图所示 Fig. 4A:(1)按照之前描述的(2)在整个RT范围内提取100个区域的所有MS和MS / MS光谱的所有MS和MS / MS光谱的顺序读数。 m/z 5 da的窗口(提取100个运行切片),(3)系统迭代读取整个文件沿着 m/z 与A的尺寸 m/z 5 da窗口(跑步迭代),(4)提取100“小”矩形区域(60 s和5 da窗口),或(5)100“大”矩形区域(200 s和5 da窗口) 。通常,测试2和3利用在MZDB结构中引入的运行切片索引,并且旨在说明格式如何允许将数据处理到经典读取模式,即沿着 m/z 尺寸。基于小型LC-MS区域的直接读数,测试4和5,模拟在为目标肽列表中进行XIC时所需的访问类型,并利用R *树索引的MZDB以快速访问所需的区域。在该基准测试中,我们比较了通过在三种转换格式(MZDB,MZ5和MZML)以及初始原始文件上执行这些测试获得的访问时间(Fig. 4B)。我们还在表格中指出了生成三种格式所需的转换时间。测试1(沿RT维度的MS光谱顺序读数)基本上再现在单个文件中所示的结果 Fig. 3 使用较大的数据集:在顺序MS频谱读取模式下,MZDB显示比MZ5类似的速度,两者均比MZML略快。虽然在这种情况下,直接读取原始文件是最快速的选项,在转换成MZDB后,此访问模式的读取速度仍然非常令人满意。另一方面,当查询数据以系统提取时 m/z Windows在整个RT梯度(测试2和3)中,与MZDB相比,访问时间与其他格式和原始文件相比,MZDB:在这种情况下,MZDB的特定结构允许非常快速地加载特定的运行切片(对于5 da的100个特定查询小于1分钟 m/z 在整个RT范围内的窗口,以及完全读取文件沿着 m/z 维度),而这种处理显然不太适应另外两种格式,并且需要很长的阅读时间。在目标提取模式(测试4和5)中,还观察到性能的出色增益:通常,对文件的分隔区域执行100个随机查询,与MZDB的少于一秒,与MZ5取决于MZ5,根据MZ5,根据MZ5,根据MZ5取决于5至15分钟在区域大小上,而原始文件的处理时间甚至更长,并且可以超过MZML格式的一小时。因此,在处理速度方面的好处在这些测试中,在这些测试中克服了生成MZDB格式所需的转换时间(对于基准中使用的1.6 GB热原始文件约1.5分钟)。
      图缩略图GR4.
      Fig. 4达达数据上不同的数据文件格式的基准。 A,用于评估性能的数据访问的示意图。在DDA文件(1.6 GB)上执行不同种类的读取和数据提取,此处示出为BIDIMUSIONALLC-MS MAP m/z 和Rt轴。 测试1(绿色):通过扫描迭代,所有MS和MS / MS光谱的顺序读数,代表最古典的数据访问类型; 测试2(紫色):提取包含一个地区的区域 m/z 在整个Rt范围内5 da窗口(运行切片)。在第二次测试中,进行100个提取这种类型的提取物 m/z Windows以100左右随机选择 m/z 值,并测量总读数时间; 测试3(红色):系统地迭代沿着整个文件的阅读 m/z 与A的尺寸 m/z 5 da窗口(跑步迭代); 测试4和5(蓝色) :针对LC-MS地图的特定区域的有针对性的提取,定义为“小”矩形区域(60 s和5 da Windows)或“大”矩形区域(200 s和5 da窗口)。对于测试4和5,在每种情况下进行100种不同的提取,随机选择 m/z 和RT值。在MZDB的情况下,在测试2和3中实现的数据访问利用格式引入的运行切片索引,而测试4和5利用R *树索引以快速访问目标区域。 B, 基准 不同格式的测试结果(MZDB,MZ5,本机原始和MZML)。结果以四个比较文件格式表示为上述不同测试的总访问时间为单位。将原始文件转换为MZDB,MZ5和MZML所需的转换时间(秒)分别在第一行(用于MZ5和MZML的未压缩模式,MZDB的简档模式)中指示。三列的最后一列表示MZDB与其他格式之间的总访问时间中的比率。
      鉴于这些结果,我们进一步将基准集中在SWATH-MS数据上,以便在对SWATH-MS数据访问执行目标数据提取时评估MZDB的可扩展性以增加数据大小。因此,我们在增加尺寸(2,5,10和25 GB,MZXML参考)的四个文件上测试了320 XIC(每个SWATH)的目标数据提取。这里的大小 m/z 窗口在目标片段离子周围设定为50ppm,正如Swath-MS数据提取所做的那样。通过在60或200秒的RTWindows上提取XIC来进行测试:因此,每个前体的最终范围查询为50ppm×60s和50ppm×200秒。获得的访问时间是平均重复的,并且被说明 Fig. 5 对于每个文件大小。我们的结果表明,对于较小的文件大小(2,5和10 GB),与MZXML相比,MZDB将XIC提取的访问时间提高了3至10的倍数。对于25 GB文件(即全细胞裂解物的SWATH-MS数据文件的预期大小),访问时间在MZXML格式上显着增加,高达约5分钟以执行320最大的XIC(50ppm× 200秒)。明显地,对转换成MZDB格式的此文件执行相同的查询,花费小于10秒,比MZXML更快30倍。因此,随着文件大小的增加,MZDB访问时间可缩放,远小于MZXML。此外,在 Fig. 5 我们还报告了MZDB和MZXML文件的相应加载时间:而这次对于所有文件大小的MZDB可忽略不计,并且对于MZXML的25 GB文件可以达到最多半分钟。因此,用于SWATH-MS的MZDB表示对增加的数据大小,关于访问和加载时间,以及显然优于MZXML的缩小性非常满意。
      图缩略图GR5.
      Fig. 5MZDB的性能比较 相对 MZXML在SWATH-MS数据上。 对应于不同复杂性的样本的尺寸(2,5,10和25 GB)的四个SWATH-MS文件上进行测试。在每种情况下,直方图示出了在MZDB文件(黄色)或ON上的两种不同大小(50ppm×60s或50ppm×200c)执行320 XIC(每个SWATH)所需的总处理时间mzxml一个(蓝色)。时间是从10重复的平均值获得的。还报告了每个文件的加载时间。

       讨论

      很长一段时间,在蛋白质组学管道中,与数据生产相关的步骤(IE。 生物化学样品制备,LC-MS / MS采集)远远比数据存储和处理更具挑战性和耗时。然而,随着近年来近年来非常高分辨率,快速测序质谱仪的引言,以及引入更复杂的实验设置,与数据处理相关的需求在蛋白质组学领域变得越来越重要。因此,生物信息化步骤的持续时间不再忽略不计,并且可以代表多达几个小时/天,这给蛋白质组学设施带来了额外的挑战。作为示例,为数据比较/量化的无标签方法越来越广泛地为研究铺平了包括较大数量的条件和技术复制的方式,产生了必须一起处理的几个GB的重要系列文件,并且必须对大量肽离子峰进行复杂MS信号分析。类似地,最近引入的DIA方法,例如SWATH-MS,其中蛋白质鉴定和定量基于从较大且较大的光谱文库中包含的肽离子开始的大规模靶向XIC,也与长加工时间相关联。减慢该计算步骤的瓶颈是数据访问时间,与使用现有质谱格式时的信息效率低。最明显的例子是给定的XIC的方式 m/z 使用MZXML生成值,其中沿RT维度顺序读取光谱,以及所有的 m/z 需要加载所需的RT区域中获取的所有光谱的数据点。显然,数据索引要通过目标直接检索数据点 m/z RT值将加速数据查询。
      MZDB格式主要旨在通过通过优化数据索引策略获得的访问时间的戏剧性提高来加速LC-MS数据的处理。如上所述,这些本质上的多维数据以各种方式操纵,从而需要专用的阅读程序。所选择的数据访问策略强烈取决于要解决的问题(例如 PeakList生成,MS功能检测,XIC提取,数据可视化等......)。在这方面,无论特定的访问模式如何,我们认为最佳文件格式应该为每个类型的访问提供良好的性能。 MZDB数据结构有助于实现此目标:如基准所示,它为不同用例提供了良好的权衡。简单顺序读数 m/z 光谱在MZDB中与MZ5中的快速一样快,与MZML相比,都具有显着的优势。但是,对于“运行切片”迭代和范围查询用例,依赖于运行切片索引和边界框R *树索引,可观察到对现有解决方案的重大改进。必须注意到,调整默认设置以提供不同访问策略的最佳权衡(参见实验程序),并且它们可以很容易地适应每个用户的需求,因为MZDB是高度可定制的。实际上,可以指定更大的BBS尺寸,以减小文件的大小或在两个尺寸中加速顺序读取时间,或者相反,用户可以减少BBS尺寸以加速范围查询执行。还应该指出的是,MZDB是高度可扩展的,即范围查询性能对数据大小的鲁棒增加。最重要的是,MZDB可伸缩性使其特别适用于处理最近的MS仪器生成的数据文件,例如,Thermo Q-Arive和Absciex Triple-ToF 5600.实际上,这些数据集可以非常大,尤其是当MS时分析与广泛的LC梯度相结合(
      • Thakur S.S.
      • 盖尔特T.
      • Chatterjee B.
      • Bandilla P.
      • Fröhlichf.
      • Cox J.
      通过LC-MS / MS的深度和高敏感的蛋白质组覆盖,而无需预先分量。
      )或样本分馏,并且它们对数据处理算法的挑战,这取决于基于XML的格式。所有这些功能都清楚地预先将MZDB格式的应用程序应用于无标记量定量的算法。它将有益于涉及密集XIC操作的应用,例如DIA实验(其中从MS / MS数据中提取数十万片段离子的信号,从 m/z 和RT信息在光谱库中),但也是使用监督的LC-MS特征提取的DDA标记的蛋白质组学研究(其中定量基于用于先前识别和验证的所有前体离子的MS信号的提取/ MS测序数据,定义 m/z 和RT值,例如例如在天际线无标签实现中)。它对基于无监督的LC-MS特征检测的无标签算法也可能有用:尽管在这种情况下,检索定量信息(MS特征)不是基于目标的信号提取 先验的m./z 和Rt坐标,特定运行切片的装载 m/z 沿着RT尺寸,窗口可以促进用于识别肽离子图案的每个同位素的洗脱峰的算法。
      当然,可以使用MZDB格式实现的处理时间的好处,以牺牲原始文件转换为MZDB的费用。由于使用MZXML / MZML文件时已经是这种情况,因此确实有必要生成和存储其他文件,并考虑转换时间。关于格式的紧凑性,我们已经显示了以未压缩的配置文件模式编码的数据文件显示了二进制格式MZDB和MZ5的类似数据大小,但是显着小于MZXML文件。使用Zlib压缩光谱显着降低了MZML和MZ5数据集的大小,增益大约两倍。 SQLite也提供压缩( 例如 但是,使用压缩和加密的只读数据库商业扩展名)我们认为MZDB引入的拟合编码模式是数据大小减少的有价值选项,其中保存了数据的参数化模型。最后,压缩数据集的另一个选项是使用压缩整个文件的算法,该算法也适用于XML格式(44)。关于转换时间,我们已经观察到,每个千兆字节(相对于本机原始文件的大小)约为1分钟。当然,任何基于MZDB的工作流程都必须包括这种额外的转换时间,而不是通过利用专有构造函数库直接访问原始文件的管道(例如 maxquant)或proteowizard框架(例如 天际线)。然而,这将显然必须加权复杂的MS信号处理任务所获得的好处:而本研究中所示的基准已经在执行基于百的简单测试时,在其他格式和原始文件中已经指示了几分钟的增益。范围查询,可以预期使用MZDB的使用将带来通常涉及更多涉及大量连续XIC的定量研究的重大改进(例如,在无标记的DDA文件的经典处理中定量,鉴定成千上万的肽离子),以及几个小时的计算机计算。另外,即使在评估全局工作流时必须考虑转换时间,也必须指出,只有一次执行转换,而许多不同和/或重复处理任务通常在给定文件上执行。在更改例如SWATH数据集中的目标肽列表之后,可以多次定量定量,改变实验设计并在无标签DDA实验中包括新的比较条件,或简单地改变定量软件的调谐参数。最后一个点可能不会被低估,通常,生物信息学的持续时间处理妨碍了许多软件工具中的默认参数的用户的任何优化。最后,存在可以短于转换时间本身短的过程的示例,但是将由用户重复执行,并且将从转换中强烈地受益,例如用于在图形界面中的数据可视化数据的提取。 。一旦将转换执行到MZDB,就可以很快多次访问数据,例如,可以检索任何感兴趣的肽的XIC,并在一秒的一小部分中显示并显示。这将为用户提供非常有效的可视化和与数据交互的可能性,这并不总是通过专用于显示和探索原始数据的当前工具来实现。
      MZDB格式目前在完全集成的开放式标签的无标准定量蛋白质组态管道中,基于通常利用数据的索引来检索MS信号(未发布结果)的算法。因此,这种新软件将为用户提供对DDA和DIA数据集管理的最佳解决方案。除了即将到来的实现之外,重要的是强调MZDB格式很容易用作许多无标签的蛋白质组学工具的输入。为此,我们提供了MZDB文件创建和使用的多个软件库, 例如 PWIZ-MZDB,MZDB访问和MZDB-SWATH。这些C ++和Java工具的可用性应简化为程序员的新格式的处理,因为它们可以选择更适合于开发其应用程序的编程语言的库。由于MZDB基于标准SQLITE技术,因此额外的优点是,通过现有的专用SQLITE图形用户界面,可以通过非特异性用户直观地浏览它( 补充图S4)。此外,SQLite采用可以通过嵌入的SQLITE引擎使用“结构化查询语言”(SQL),例如,可以在数据文件或一些元数据信息的任何子集中执行简单的查询以在几秒钟内检索如采集参数,离子注射时间,前体离子 m/z 必须指出的是,MZDB,作为SQL模型的混合组合和一些XML模式定义,是非常灵活的使用和易于延伸:实际上,XML字符串特别适用于敏捷表示的敏捷表示元数据。此XML模型的语义已经受到MZML格式的启发,以简化格式转换过程。此外,它确保了元数据可持续性,因为它们遵守Hupo蛋白质组学标准倡议的本体论。最后,所有编程语言都通过所有编程语言的广泛采用确保MZDB可以在任何现有的质谱数据分析软件中轻松实现(例如 MaxQuant,Openms,Proteowzard和Skyline)。
      总之,我们已经表明,与现有的文件格式相比,MZDB在性能,紧凑性,可持续性和可用性方面都具有很强的优势。其特征使其特别适用于密集的数据处理,从而帮助解决目前是对非常大规模蛋白质组学研究分析的瓶颈的计算挑战。

      致谢

      我们感谢Matthew Chambers在使用ProteoWizard的使用以及与Francesco Silvestri的富有成效讨论以及Piero de Gol进行信息学咨询和仔细阅读手稿。我们感谢Pierre-Alain Binz,了解了关于将PSI-MS控制词汇集成到MZDB格式的建议。我们要感谢法国的研究部与“投资D'Avenir基础设施国民EN Biologie etSanté”计划(Profi,Profeomics法国基础设施,ANR-10-Inbs-08,BM)进行支持,以支持这项工作。

      补充材料

      参考

        • KöcherT.
        • Swart R.
        • Mechtler K.
        超高压RPLC连字符到LTQ-ORBITRAP VELOS显示峰值容量和鉴定的肽数之间的线性关系。
        肛门。化学。 2011; 83: 2699-2704
        • Thakur S.S.
        • 盖尔特T.
        • Chatterjee B.
        • Bandilla P.
        • Fröhlichf.
        • Cox J.
        通过LC-MS / MS的深度和高敏感的蛋白质组覆盖,而无需预先分量。
        摩尔。细胞。蛋白质组学。 2011; 10M110.003699
        • Nagaraj N.
        • 亚历山大Kulak N.
        • Cox J.
        • Neuhauser N.
        • Mayr K.
        • HOERNING O.
        • vorm o.
        通过单次超高HPLC在台式壁图上运行酵母蛋白质的系统宽扰动分析。
        摩尔。细胞。蛋白质组学。 2012; 11M111.013722M111.013722
        • 韦伯K.J.
        • XU T.
        • 公园S.K.
        • yates j.r.
        修饰的Mudpit分离确定了4488个蛋白质在酵母中系统范围内的静态分析中。
        J.蛋白质组。 2013; 12: 2177-2184
        • Bantscheff M.
        • Schirle M.
        • 甜蜜曼G.
        • 瑞克J.
        • Kuster B.
        蛋白质组学中的定量质谱:批判性综述。
        肛门。生物丹纳尔。化学。 2007; 389: 1017-1031
        • Bantscheff M.
        • Lemeer S.
        • Savitski m.m.
        • Kuster B.
        蛋白质组学中的定量质谱:2007年至今的批判性评论更新。
        肛门。生物丹纳尔。化学。 2012; 404: 939-965
        • Michalski A.
        • 达莫e.
        • Hauschild J.-P.
        • Lange O.
        • Wieghaus A.
        • Makarov A.
        • Nagaraj N.
        • Cox J.
        • 角horn
        基于质谱的蛋白质组学使用Q辐射,高性能台式四轴锻体质谱仪。
        摩尔。细胞。蛋白质组学。 2011; 10
        • 安德鲁斯G.L.
        • 西蒙斯B.L.
        • 年轻J.B.
        • 霍克里奇上午
        • Muddiman D.C.
        新型混合Quadriupole飞行时间串联质谱仪的性能特征(三重岩5600)。
        肛门。化学。 2011; 83: 5442-5446
        • Senko M.W.
        • 弥补下午
        • 坎特伯雷J.D.
        • Mathur R.
        • 宋Q.
        • eliuk s.m.
        • Mullen C.
        • 埃尔利L.
        • 哈德曼M.
        • Blethrow J.D.
        • Bui H.
        • SPECHT A.
        • Lange O.
        • Denisov E.
        • Makarov A.
        • 角horn
        • Zabrouskov V.
        新颖的并联四极孔/线性离子阱/绕素纤维质谱仪改善蛋白质组覆盖率和肽鉴定率。
        肛门。化学。 2013; 85: 11710-11714
        • Hebert A.S.
        • Richards A.L.
        • Bailey D.J.
        • Ulbrich A.
        • Coughlin E.E.
        • Westphall M.S.
        • Coon J.J.
        一小时酵母蛋白质组。
        摩尔。细胞。蛋白质组学。 2014; 13: 339-347
        • Gillet L.C.
        • Navarro P.
        • 塔特S.
        • 罗斯特H.
        • selevsek n。
        • 重新勒
        • Bonner R.
        • Aeberberold R.
        由数据独立获取产生的MS / MS光谱的有针对性的数据提取:一致和准确的蛋白质组分析的新概念。
        摩尔。细胞。蛋白质组学。 2012; 11
        • Pedrioli P.G.一种
        • ENG J.K.
        • Hubley R.
        • Vogelzang M.
        • 德意曲e.w.
        • 骑B.
        • 普拉特B.
        • Nilsson E.
        • Angeletti R.H.
        • APWEILER R.
        • 张克。
        • Costello C.E.
        • Hermjakob H.
        • 黄S.
        • 朱利安r.k.
        • Kapp E.
        • McComb M.E.
        • 奥利弗S.G.
        • omenn g.
        • Paton n.w.
        • 辛普森r.
        • 史密斯r.
        • 泰勒C.F.
        • 朱W.
        • Aeberberold R.
        质谱数据的共同开放表示及其在蛋白质组学研究中的应用。
        NAT。 Biotechnol。 2004; 22: 1459-1466
        • 玛特L.
        • Chambers M.
        • STURM M.
        • Kessner D.
        • Levander F.
        • Shofstahl J.
        • 唐W.H.
        • RömppA.
        • Neumann S.
        • Pizarro A.D.
        • MonteCchi-Palazzi L.
        • 塔斯曼N.
        • 科尔曼M.
        • Reinger F.
        • Souda P.
        • Hermjakob H.
        • binz p.-a.
        • 德意曲e.w.
        MZML-质谱数据的社区标准。
        摩尔。细胞。蛋白质组学。 2011; 10
        • 沙阿尔。
        • 戴维森J.
        • Monroe M.E.
        • Mayampurath上午
        • 达nielson W.F.
        • 施y.
        • 罗宾逊A.c.
        • 掌握B.H.
        • Belov M.E.
        • 安德森G.A.
        • 史密斯r.d.
        基于质谱的蛋白质组学的有效数据格式。
        J.IM。 SOC。质谱。 2010; 21: 1784-1788
        • 林三。
        • 朱L.
        • 冬天A.Q.
        • Sasinowski M.
        • Kibbe w.a.
        什么是mzxml适合?
        专家Rev.蛋白质组学。 2005; 2: 839-845
        • Askenazi M.
        • Parikh J.R.
        • 玛托J.A.
        MZAPI:一种有效共享质谱数据的新策略。
        NAT。方法。 2009; 6: 240-241
        • Wilhelm M.
        • Kirchner M.
        • Steen J.A.J.
        • 斯丁H.
        MZ5:质谱数据集的空间和延时存储。
        摩尔。细胞。蛋白质组学。 2012; 11
        • Kohlbacher O.
        • Reinert K.
        • GRÖPLC.
        • Lange E.
        • pfeifer n。
        • Schulz-Trieglacaff O.
        • STURM M.
        TOPP- OpenMS蛋白质组学管道。
        生物信息学。 2007; 23: E191-E197
        • Barsnes H.
        • Vaudel M.
        • Colaert N.
        • 赫尔森K.
        • 镰刀A.
        • 鲍伦森
        • 玛特L.
        CompoMics-Utilities:用于计算蛋白质组学的开源Java库。
        BMC生物信息学。 2011; 12: 70
        • jaitly n ..
        • Mayampurath A.
        • Littlefield K.
        • Adkins J.N.
        • 安德森G.A.
        • 史密斯r.d.
        Decon2LS:用于自动处理和高分辨率质谱数据的自动处理和可视化的开源软件包。
        BMC生物信息学。 2009; 10: 87
        • 史密斯C.A.
        • 想要e.j.
        • O'Maille G.
        • Abagyan R.
        • Siuzdak G.
        XCMS:使用非线性峰对准,匹配和识别处理用于代谢物分析的质谱数据。
        肛门。化学。 2006; 78: 779-787
        • Bellew M.
        • Coram M.
        • Fitzgibbon M.
        • IGRA M.
        • 兰多夫T.
        • 王P.
        • 5月D.
        • ENG J.
        • 方罗。
        • 林C.
        • 陈杰。
        • Goodlett D.
        • Whiteaker J.
        • Paulovich A.
        • McIntosh M.
        用高分辨率LC-MS综合分析复杂蛋白质混合物的综合算法。
        生物信息学。 2006; 22: 1902-1909
        • Katajamaa M.
        • oresic m.
        LC / MS配置文件数据差分分析的处理方法。
        BMC生物信息学。 2005; 6: 179
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和蛋白质组含蛋白质定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • Jaffe J.D.
        • MANI D.R.
        • Leptos K.C.
        • 教堂。
        • Gillette M.A.
        • carr s.a.
        Pepper,实验蛋白质组学模式识别的平台。
        摩尔。细胞。蛋白质组学。 2006; 5: 1927-1941
        • 李X.-j.
        • 张H.
        • ranish j.a.
        • Aeberberold R.
        通过稳定同位素稀释和串联质谱法产生的蛋白质丰度差异的自动统计分析。
        肛门。化学。 2003; 75: 6648-6657
        • 重新勒
        • rinner o.
        • Picotti P.
        • HüttenhainR.
        • 贝克米
        • Brusniak m.y.
        • Hengartner M.O.
        • Aeberberold R.
        MPROPHET:用于大规模SRM实验的自动数据处理和统计验证。
        NAT。方法。 2011;
      1. 2012年的方法。
        NAT。方法。 2012; 10: 1
        • Michalski A.
        • Cox J.
        在单次霰弹枪蛋白质组学中,超过100,000种可检测的肽种类研磨,但大多数是数据依赖的LC-MS / MS无法访问的。
        J.蛋白质组。 2011; 10: 1785-1793
        • Kulak N.A.
        • Nagaraj N.
        • Cox J.
        即将到来的年龄完全,准确,普遍存在的蛋白质素。
        摩尔。细胞。 2013; 49: 583-590
      2. Roest,HL,Rosenberger,G.,Navarro,P.,Schubert,OT,Wolski,W.,Collins,BC,Malmstroem,J.,Malmstroem,L.,Aebbersold,R.,自动化,有针对性分析的工具数据无关的采集(DIA)MS-DATA:OPENSWATH。 NAT。 Biotechnol。,接受。

        • Kessner D.
        • Chambers M.
        • Burke R.
        • agus d。
        • Mallick P.
        Proteowizard:开源软件,用于快速蛋白质组学工具开发。
        生物信息学。 2008; 24: 2534-2536
        • Guttman A.
        在1984年ACM Sigmod的数据管理国际会议上的诉讼程序中。
        ACM。 1984; : 47-57
        • Vitter J.s.
        外部存储器算法和数据结构:处理大规模数据。
        ACM计算。 SURV。 2001; 33: 209-271
        • 汗Z.
        • 绽放J.S.
        • 加西亚B.A.
        • Singh M.
        • Kruglyak L.
        蛋白质量化数百种实验条件。
        Proc。 Natl。阿卡。 SCI。美国。 2009; 106: 15544-15548
        • 纳瓦斯。
        • Silvestri F.
        • TISIET F.
        • 迪卡米洛B.
        • Pietracaprina A.
        • Toffolo上午
        高吞吐量3D蛋白质组学数据的优化数据结构:MZRTree。
        J.蛋白质组学。 2010; 73: 1176-1182
        • Gautier V.
        • Mouton-Barbosa E.
        • Bouyssiéd。
        • Delcourt N.
        • Beau M.
        • Girard J.P.
        • Cayrol C.
        • Burlet-Schiltz O.
        • Monsarrat B.
        • Gonzalez de Peredo A.
        一维SDS-PAGE / NANOMES的无标记量化和霰弹枪分析复合蛋白质蛋白质:炎症人内皮细胞大规模分析的评价。
        摩尔。细胞。蛋白质组学。 2012; 8: 527-539