蛋白质组学识别(骄傲)转换器2框架:改进的工具套件,以方便数据提交到骄傲数据库和Proteomexchange联盟*

  • RichardG.Côté.
    脚注
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • 约翰内斯托恩斯
    脚注
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • joséA.迪安斯
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • 瑞旺
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • 詹姆斯赖特
    隶属关系
    蛋白质组学质谱,康乐信托桑杰研究所,英国剑桥亨克斯顿;
    搜索本作者的文章
  • Henk W.P. van denorn.
    隶属关系
    生物分子质谱与蛋白质组学,Bijvoet生物分子研究中心和乌得勒德大学,荷兰和荷兰蛋白质组学中心的乌得勒氏制药科学研究所;
    搜索本作者的文章
  • Bas Van Breukelen.
    隶属关系
    生物分子质谱与蛋白质组学,Bijvoet生物分子研究中心和乌得勒德大学,荷兰和荷兰蛋白质组学中心的乌得勒氏制药科学研究所;
    搜索本作者的文章
  • Albert J.r. Heck.
    隶属关系
    生物分子质谱与蛋白质组学,Bijvoet生物分子研究中心和乌得勒德大学,荷兰和荷兰蛋白质组学中心的乌得勒氏制药科学研究所;
    搜索本作者的文章
  • Niels Hulstaert.
    隶属关系
    医疗蛋白质研究部,VIB,B-9000根特,比利时;

    格伦大学生物化学系,比利时B-9000格伦特;
    搜索本作者的文章
  • Lennart Martens.
    隶属关系
    医疗蛋白质研究部,VIB,B-9000根特,比利时;

    格伦大学生物化学系,比利时B-9000格伦特;
    搜索本作者的文章
  • Florian Reisinger.
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • Attila Csordas.
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • David Ovelleiro
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • Yasset Perez-Rivevol
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;

    古巴哈瓦那基因工程与生物技术中心蛋白质组学系;
    搜索本作者的文章
  • Harald Barsnes.
    隶属关系
    挪威卑尔根大学生物医学系蛋白质组学股
    搜索本作者的文章
  • Henning Hermjakob.
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • Juan AntonioVizcaíno.
    一致
    应解决对应的通信:蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国。 Tel.:Ptapet 44(0)1223 492686;
    隶属关系
    蛋白质组学服务团队,Embl Outstation,欧洲生物信息学院(EBI),Wellcome Trust Genome Campus,Hinxton,剑桥,英国;
    搜索本作者的文章
  • 作者脚注
    *这项工作得到了Wellcome Trust [Grant Number Wt085949ma]至J.G.,R.G.C.,J.A.D.和f.r. R.W.支持BBSRC'骄傲转换器'授权[参考BB / I024204 / 1]支持。 J.A.v.欧盟FP7 Grant Proteomexchange支持N.H.授权号码260558]。 J.A.v.也由欧盟FP7拨款Lipidomicnet(Grant Number 202272)支持。 H.B.由挪威研究委员会提供支持。 H.W.P.VDT,B.VB和A.J.R.H由荷兰蛋白质组学中心提供支持。 H.W.P.VDT,B.VB,A.J.R.H和L.M. eu FP7 Grant Prime-XS的确认支持[授予编号262067]。 L.M.进一步承认跟根大学的支持(多学科研究伙伴关系“生物信息学:从网络到网络的核苷酸”)。
    本文包含补充文件S1和S2。
    ‖‖这位作者的贡献平均,应该被视为联合第一作者。
      原始骄傲转换器工具大大简化了将质谱(MS)基于普遍数据库提交质谱(MS)的过程。但是,经过大量用户反馈,有人指出,该工具具有一些限制,无法处理现在变得普遍的用户要求。这提示我们设计和实现一个全新的工具套件,它将构建原始骄傲转换器的成功,并允许用户生成提交准备好的骄傲XML文件。这骄傲转换器2工具套件允许用户将搜索结果文件转换为骄傲XML(执行提交到骄傲数据库所需的格式),生成可用作提交定量和基于凝胶的MS数据的基础的MZTAB骨架文件,以及后处理通过过滤污染物和空光谱,或通过将多个骄傲XML文件合并在一起来实现骄傲的XML文件。所有工具都有一个图形用户界面,它提供了基于对话框的用户友好方式来转换和准备提交文件,以及可用于将工具集成到现有或新型管道的命令行界面,用于批处理和电源用户。这骄傲转换器2因此,工具套件将成为提交过程中的基石,以骄傲,并通过扩展到MS-蛋白质组学数据存储库的Proteomexchange联盟。
      公共领域中的生物数据分享通常被认为是良好的科学实践。这种数据共享的概念在基于MS的蛋白质组学领域获得了大量的牵引力,其中骄傲
      使用的缩写是:
      API.
      应用程序接口
      BBSRC.
      生物技术与生物科学研究委员会
      CLI.
      命令行界面
      简历
      控制词汇
      数据访问对象
      eBI.
      欧洲生物信息学院
      吉伊
      图形用户界面
      java存档
      实验室信息管理系统
      苗族
      有关蛋白质组学实验的最低信息
      NIH
      国立卫生研究院
      ols.
      本体查找服务
      PMF.
      肽质量指纹识别
      自豪
      蛋白质组学识别数据库
      Psi.
      蛋白质组学标准倡议
      PTM.
      翻译后修改
      PX.
      Proteomexchange.
      uniprotkb.
      Uniprot知识库
      XML.
      可扩展标记语言。
      1使用的缩写是:API.
      应用程序接口
      BBSRC.
      生物技术与生物科学研究委员会
      CLI.
      命令行界面
      简历
      控制词汇
      数据访问对象
      eBI.
      欧洲生物信息学院
      吉伊
      图形用户界面
      java存档
      实验室信息管理系统
      苗族
      有关蛋白质组学实验的最低信息
      NIH
      国立卫生研究院
      ols.
      本体查找服务
      PMF.
      肽质量指纹识别
      自豪
      蛋白质组学识别数据库
      Psi.
      蛋白质组学标准倡议
      PTM.
      翻译后修改
      PX.
      Proteomexchange.
      uniprotkb.
      Uniprot知识库
      XML.
      可扩展标记语言。
      (蛋白质组学标识)数据库(http://www.ebi.ac.uk/pride)在欧洲生物信息学院(Ebi,剑桥,英国)是最突出的公共数据存储库之一(
      • VizcaínoJ.A.
      • Côtér.
      • Reinger F.
      • Barsnes H.
      • 抚养金。
      • Rameseder J.
      • Hermjakob H.
      • 玛特L.
      蛋白质组学识别数据库:2010更新。
      )。如果可用(已加工的实验结果)和任何相关的元数据,则vide储存MS和MS / MS光谱,衍生的肽和蛋白质标识和表达值。重要的是要突出显示在提交后未进行重新处理存储的数据。以其当前形式的骄傲表示提交者的数据视图。 Pride也是Proteomexchange(PX)联盟的创始成员(http://www.proteomexchange.org)(
      • Hermjakob H.
      • APWEILER R.
      蛋白质组学识别数据库(骄傲)和Proteomexchange联盟:使蛋白质组学数据可访问。
      )。 PX成员,由骄傲和peptidaitlas领导(
      • 德意曲e.w.
      • 林H.
      • Aeberberold R.
      PeptidAtlas:用于出现目标蛋白质组学工作流的目标选择的资源。
      ),目前正在努力实现一个系统,该系统能够在主要蛋白质组学存储库之间自动化和标准化共享基于MS的射谱数据。在此框架中,骄傲是串联MS数据的初始提交点。目前,已经执行了第一个导频PX提交(包含原始数据和处理结果)(http://proteomecentral.proteomexchange.org)系统现在开始接受常规提交。目前,使用名为骄傲XML的公开可用的XML数据格式来执行骄傲的提交,该数据格式围绕MzData数据标准格式构建(
      • 果园S.
      • Montechi-Palazzi L.
      • 德意曲e.w.
      • binz p.a.
      • 琼斯A.R.
      • Paton n.
      • Pizarro A.
      • 皱褶D.M.
      • Wojcik J.
      • Hermjakob H.
      五年的蛋白质组学数据标准化的进展情况第4届春季春季研讨会HUPO-蛋白质组学标准倡议2007年4月23日至25日欧诺国家超级(索尼昂),法国里昂。
      )。
      几个科学期刊(例如分子和细胞蛋白质组学,蛋白质组学, 和 自然 出版集团期刊)支持逐步致力于授权公钥对MS数据的沉积,以支持相关稿件的出版。同时,若干资金机构(如惠康信托,NIH和BBSRC)也在其资助项目的背景下执行实验数据的公共可用性。尽管有这些努力,但在公共数据可用性方面,MS蛋白质组学的领域仍在落后于其他成熟的“常规”学科(
      信用逾期信贷。
      )。实际上,通过可靠和用户友好的提交工具提供了对该公共数据共享政策趋势的主要贡献。这些工具必须能够正确捕获实验数据和任何支持的技术和生物元数据。此外,为了鼓励MS数据沉积,提交过程必须尽可能简单。
      这是推动原始骄傲转换器的发展的哲学(
      • Barsnes H.
      • VizcaínoJ.A.
      • Eidhammer I.
      • 玛特L.
      骄傲转换器:使蛋白质组学数据分享容易。
      )(http://pride-converter.googlecode.com),一个开源和平台独立的软件工具,用于将蛋白质组学数据提交到骄傲。骄傲转换器可以将来自各种流行的MS蛋白质组学格式的输入数据转换为骄傲XML,通过图形用户界面(GUI)通过过程引导用户。因此,骄傲转换器使MS数据提交了更容易和更直接的过程,特别是对于没有生物信息学支持的研究人员。自2008年以来,自豪感转换器绝对是数据内容巨大增长的关键因素(
      • Csordas A.
      • Ovelleiro D.
      • 王R.
      • 抚养金。
      • ríosd.
      • VizcaínoJ.A.
      • Hermjakob H.
      骄傲:蛋白质组学数据存储库中的质量控制。
      )并已成为 事实上 提交工具为大多数研究人员骄傲。骄傲转换器已定期更新,并已公开提供30多种不同的版本。但是,在接收到用户的广泛反馈后,显而易见的是,原始骄傲转换器主要在软件架构,内存要求,扩展支持格式的困难以及缺乏执行批量转换的功能(频繁请求)。此外,还需要支持新的使用情况,例如支持定量信息以及轻松地处理转换过程中生成的大XML文件的能力。为了克服这些限制,我们决定从头开始设计一个新的提交工具,这适合我们提交者的不断变化的需求。
      在本手稿中,我们描述了普遍的转换器2框架,包括所有新功能和支持的用例。我们确信未来的提交者为骄傲和PX联盟将从本新提交工具的可用性方面受益。

      实验步骤

      骄傲转换器2 工具套件是在Java中开发的,所有源代码都在线获得(http://pride-converter-2.googlecode.com)。它是在非常允许的Apache许可证中作为开源分发,版本2.0。
      的发展 骄傲转换器2 had several goals:
      • 提供一系列专用于特定任务的工具。
      • 应通过命令行界面(CLI)访问每个工具,用于集成到(第三方)骄傲XML生成和注释管道中。
      • 应通过GUI访问每个工具,以提供丰富,用户友好的体验。
      • 在使用资源以保持低内存配置文件中,每个工具必须尽可能高效。
      • 通过重用现有的应用程序编程接口(API)和代码库来支持尽可能多的输入格式。
      • 通过在可能的情况下通过重用组件,将GUI保留在工具套件中的应用程序中的一致性。
      • 提高原始骄傲转换器工具,并支持用户所需的新用例。
      实现这些目标, 骄傲转换器2 工具套件从Linux Toolchain方法中获取灵感,其中专用于单个目的的小应用程序可以将其汇总在一起,以便以最小的资源开销执行强大的操作。因此,骄傲转换器2工具套件由四种不同的应用组成: 骄傲转换器2, 骄傲MZTAB发电机, PRIDE XML Merger, 和 骄傲XML过滤器 (Fig. 1, 表I.)。为方便起见,所有这些工具都在一个可执行的JAR文件中捆绑在一起。用户可以通过双击JAR文件或通过命令行中的参数调用它来启动GUI。如果提供了参数,则会启动CLI,允许批处理,作为关键点,集成到现有的和新建的管道中。 补充文件S1和S2 提供为一个 骄傲转换器2 一般用户指南,以及开发人员。有关技术实现的更多细节可以找到 补充文件S2,第1节。
      图缩略图GR1.
      Fig. 1工作流程概述的概述和工具之间的交互 骄傲转换器2 tool suite.骄傲MZTAB发电机 解析搜索结果文件并生成可用作输入文件的骨架MZTAB文件 骄傲转换器2。生成的骄傲XML文件 骄傲转换器2 可以使用滤波器过滤 骄傲XML过滤器 使用该工具和/或合并为单个骄傲XML文件 骄傲XML合并 tool.
      表I.骄傲转换器2工具套件中的工具
      工具名称功能
      骄傲转换器2将搜索引擎输出文件转换为有效的,注释的良好的骄傲XML文件,准备提交。
      骄傲MZTAB发电机生成骨架MZTAB文件,其中用户可以添加定量和/或凝胶数据。
      骄傲XML合并将多个骄傲XML文件合并在一起,同时保持频谱和肽链路中的内部一致性。
      骄傲XML过滤器根据过滤器规则进行骄傲XML文件,以删除污染物,空光谱和/或更新蛋白质推理分配。

       支持新型使用情况

      原始骄傲转换器具有一些功能和实用的限制。推动落后于发展的工作 骄傲转换器2 工具套件是不仅克服原始工具的缺点的愿望,还可以添加用户用户多次要求的功能。
      这样, 骄傲转换器2 工具套件已添加转换支持,有多种新数据格式(参见 表二)其他格式可能会随着时间的推移而遵循。此外,还提高了对现有格式的支持。例如,现在可以提交由吉祥物产生的肽质量指纹(PMF)数据(http://www.matrixscience.com)。此外,通过对MZTAB文件集成支持,已经大大提高了对骄傲XML文件的定量数据。
      表二普遍转换器2中的支持格式2
      格式名称文件类型数据内容新的 骄傲转换器2二手API.
      吉祥物.DAT.光谱和识别吉祥物API(
      • 矩阵探
      )
      mzidentml..xml.光谱和识别是的jmzidentml(
      • Reinger F.
      • Krishna R.
      • Ghali F.
      • ríosd.
      • Hermjakob H.
      • AntonioVizcaínoJ.
      • 琼斯A.R.
      JMZIDENTML API:肽和蛋白质识别数据的MzidentML标准的Java接口。
      )
      x!串联.xml.光谱和识别xtandem-parser(
      • muth t.
      • Vaudel M.
      • Barsnes H.
      • 玛特L.
      • 镰刀A.
      Xtandem Parser:解析和分析X的开源库!串联MS / MS搜索结果。
      )
      Omssa..csv.光谱和识别新的
      。文本文件光谱和识别是的新的
      症结。文本文件光谱和识别是的新的
      MSGF.。文本文件光谱和识别是的新的
      蛋白质组发现者.msf.光谱和识别是的这rmo MSF Parser(
      • Colaert N.
      • Barsnes H.
      • Vaudel M.
      • 赫尔森K.
      • Timmerman E.
      • 镰刀A.
      • Gevaert K.
      • 玛特L.
      这rmo-MSF-Parser:一个开源Java库,用于解析和可视化Thermo Proteome Discoverer MSF文件。
      )
      mzml..xml.仅限光谱是的jmzml(
      • CôtéR.G.
      • Reinger F.
      • 玛特L.
      JMZML,用于MZML的开源Java API,MS数据的PSI标准。
      )
      DTA..dta.仅限光谱jmzreader(
      • 怜悯J.
      • Reinger F.
      • Hermjakob H.
      • VizcaínoJ.A.
      JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
      )
      MGF..MGF.仅限光谱jmzreader(
      • 怜悯J.
      • Reinger F.
      • Hermjakob H.
      • VizcaínoJ.A.
      JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
      )
      mzdata..xml.仅限光谱jmzreader(
      • 怜悯J.
      • Reinger F.
      • Hermjakob H.
      • VizcaínoJ.A.
      JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
      )
      mzxml..xml.仅限光谱jmzreader(
      • 怜悯J.
      • Reinger F.
      • Hermjakob H.
      • VizcaínoJ.A.
      JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
      )
      PKL..pkl.仅限光谱jmzreader(
      • 怜悯J.
      • Reinger F.
      • Hermjakob H.
      • VizcaínoJ.A.
      JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
      )
      MZTAB格式旨在成为由蛋白质组学标准倡议(PSI)开发的基于MS的素注数据的轻量级标准标签分隔文件。旨在易于解析,它仅包含评估蛋白质组学实验结果所需的最小信息(http://mztab.googlecode.com)。用户可以使用骨架MZTAB文件使用 骄傲MZTAB发电机 然后使用生成的MZTAB文件作为提供定量信息的基础,作为转换过程的一部分 骄傲转换器2。凝胶和现货相关信息也可以添加到MZTAB文件中,使凝胶相关信息捕获更加简单( 补充文件S2,第4节)。用户现在还可以以Fasta格式提供原始搜索数据库(补充文件S1,第3节)。这对于维持非标准蛋白质数据库的数据出处是必不可少的,并且更容易地映射到所有蛋白质数据库中所识别的蛋白质,这是在骄傲数据库中以最大化搜索能力来最大化的过程(
      • VizcaínoJ.A.
      • Côtér.
      • Reinger F.
      • 抚养金。
      • 穆勒M.
      • Rameseder J.
      • Hermjakob H.
      • 玛特L.
      蛋白质组学识别数据库蛋白质组学数据存储库的指南。
      )。
      由此满足的另一个用户要求 骄傲转换器2 工具套件是能够后处理最初生成的骄傲XML文件。例如,用户现在可以使用 骄傲XML过滤器 在提交之前去除污染物和空光谱的工具。最后,在基于凝胶的蛋白质组学实验的情况下,每个凝胶点产生一个MS实验的蛋白质组学实验,原始骄傲转换器工具每点生成一个骄傲的XML文件。这意味着如果不是数百个骄傲的实验登录号,则单个项目可以覆盖几十个。这 骄傲XML合并 现在可以将任意大量的骄傲XML文件合并到单个文件中,同时保持所识别的肽和其底层光谱之间的链接一致。这意味着用户将能够获得单个骄傲的登录号码来指代其整理的实验数据。

      结果

       骄傲转换器2

      大多数用户将最好地由工具的用户友好的GUI服务。此界面具有完整的上下文敏感帮助模块的好处,并为向导转换过程的每个步骤提供的字段和注释提供即时反馈。每个对话框将在继续下一步之前验证用户编辑。如果表单包含任何错误(例如以不正确的格式输入的空强制字段或数据),请立即通知用户,并阻止转换过程直到用户固定错误。因此,一旦填写了对话对话,用户可以确保所需的信息存在。文件验证过程也可以生成警告,这不会阻止该过程,但仍应考虑到生成最佳注释的自豪XML文件。
      命令行界面主要针对具有并行化批量转换和/或已经具有以编程方式提供的机制提供的所有必要元数据所需的所有必要元数据,以及最终骄傲XML文件的权力用户。使用命令行界面时, 骄傲转换器2 必须以两种模式调用工具: 预扫描输出 (参考 Fig. 1)。这 预扫描 需要先运行模式,并将采用从MS实验获得的结果文件(IE。 具有或不伴随肽和蛋白质标识的光谱),并将从中生成中介报告文件。可以可选地提供两种附加类型的文件 预扫描 模式以丰富的报告:蛋白质序列搜索数据库用于蛋白质组学实验(以FASTA格式)和MZTAB文件提供定量数据和凝胶/点信息。报告文件已被正确注释后, 骄傲转换器2 然后运行工具 输出 模式生成良好的骄傲XML文件。
      骄傲转换器2 目前支持所示的格式 表二。只需实现Java即可轻松支持新格式 (数据访问对象)接口。该接口提供了从源文件访问和检索关于元数据,光谱,肽,蛋白质和翻译后修改(PTMS)的信息的方法。 DAOS尝试从源文件中提取尽可能多的信息,以提供用于注释过程的明智的起点。完整的开发人员编程自定义DAO的指南可用 http://code.google.com/p/pride-converter-2/wiki/HowToWriteADao 在这一点 补充文件S2 (第2节)。避免(重新)为各种格式创建解析器, 骄傲转换器2 使用最佳现有的现有可重复使用的API(表二)。当这不是可能的时候,开发了新的解析器。
      由此产生的报告文件 预扫描 将包含所有报告的蛋白质和肽标识,并且还将作为所有后续受控词汇注释的基础,这将进入最终骄傲的XML文件,包括但不限于联系人,协议,仪器的详细信息和软件处理,日记引用,搜索数据库注释,蛋白质序列和PTM。如果提供的话,报告文件还将包含任何定量和基于凝胶的信息。 骄傲转换器2 将尝试自动愈合来自各种来源的蛋白质加入,以将该来源的优选骄傲格式作为其中的一部分 预扫描 过程(例如,提交的蛋白质标识符“SP P29375 KDM5A_HUMAN赖氨酸特异性去甲基酶5A OS = HOMO SAPIENS GN = KDM5A PE = 1 SV = 3“将被清理到P29375,这是UNIPROTKB条目的默认蛋白质标识符格式)。
      报告文件XML模式是明确定义和注释的(http://pride-converter-2.googlecode.com/svn/trunk/report-api/src/main/resources/reportfile.xsd),并提供了一个Java API来生成报表文件,使得简单地将此功能集成为现有蛋白质组学LIM,作为将数据导出到骄傲XML的第一步。一旦报表文件已经生成和注释,手动,以编程方式或使用 骄傲转换器2 吉伊,吉尔 输出 调用骄傲转换器的模式以生成提交就绪的骄傲XML文件。

       骄傲转换器2 Overview

      在GUI模式下推出时(Fig. 2), 骄傲转换器2 指导用户通过12步过程将其搜索引擎输出文件转换为注释的骄傲XML文件(Fig. 3, 补充文件S1,第3节)。输入格式选择是用户必须制作的首选。每个格式的DAO可以具有一个或多个自定义选项,随后可以通过GUI设置。始终提供明智的默认选项,默认情况下仅显示基本所需的选项。 Power用户可以选择显示所有可用选项(如果适用),这些选项的选项将存储在报表文件中,以便用户始终查看如何配置转换过程。
      图缩略图GR2.
      Fig. 2骄傲转换器2 图形用户界面。 所有工具的GUI在可能的情况下共享通用功能,以提高可用性并提供一致的用户体验。每个工具由一系列形式组成,这些形式以奇和的方式呈现。用户可以使用位于右下角的一系列按钮浏览表单。始终可用的上下文敏感的帮助按钮,这是表单角色的简短信息性消息以及预期的信息。始终验证用户输入,以确保所有必填字段都被正确填写,每次按下导航按钮时都会更新图形验证状态。
      图缩略图GR3.
      Fig. 3将搜索引擎结果文件转换为注释的自豪XML文件的12步过程。 表示转换过程中不同步骤的近似持续时间被指示了解提交所需时间所需的时间。未填充的框表示这些步骤的持续时间取决于输入文件的大小。其他步骤与文件选择和/或元数据注释有关,并且与文件的大小无关。 MAC Book Pro Loppoping运行8 GB的RAM运行Mac OS X 10.6.8用于估算时间。为了总结,用户选择他们搜索引擎文件的适当格式,然后选择要转换并设置任何DAO特定选项的文件,如果适用。注释过程从联系人,参考和常规项目描述开始,然后移动到示例注释,协议,仪器详细信息和软件处理详细信息。要求用户审查或完成自动PTM注释并添加任何其他相关实验级详细信息。然后,报告文件最终确定,用户可以在此处停止GUI进程或继续骄傲XML文件生成。这是也可以设置过滤选项的位置。转换过程已完成后,请使用“自豪感检查员”工具审核其骄傲XML文件,并将其提交以骄傲和策略Xchange联盟。
      吉伊允许用户同时转换多个源文件,同时只必须进入一次所需的注释。这可以节省相当大的时间,因为联系信息的注释,示例详细信息,仪器,协议,软件处理,PTM和搜索数据库通常在相关源文件中的相同。 骄傲转换器2 还提供了节省常用注释的可能性,例如仪器和协议作为模板,可以在后续转换中重用。一系列基本模板提供了用户可以更新的工具套件,以更好地满足自己的要求。样本注释允许用户使用包含在骄傲中发现的最常用的值的下拉菜单提供分类学,组织类型和细胞类型注释。用户仍然有可能使用全面的本体查找服务(OLS)(
      • Côtér.
      • Reinger F.
      • 玛特L.
      • Barsnes H.
      • VizCaino J.A.
      • Hermjakob H.
      本体查找服务:更大更好。
      ,
      • Barsnes H.
      • 科特兰特。
      • Eidhammer I.
      • 玛特L.
      ols.对话框:Ontology Lookup服务的开源前端。
      )查找尚未提供的替代条款。如果用户包含定量数据 通过 MZTAB文件,样本注释表格将用于提供定量方法的示例描述。
      其他有用的特征包括在PSI蛋白质改性本体(PSI-MOD)中的适当受控词汇(CV)术语中蛋白质组学实验中最常观察到的PTMS的自动映射(
      • MonteCchi-Palazzi L.
      • Beavis R.
      • binz p.a.
      • Chalkley R.J.
      • Cottrell J.
      • 皱纹D.
      • Shofstahl J.
      • Seymour S.L.
      • Garavelli J.s.
      Psi.-MOD社区标准用于表示蛋白质修改数据。
      )。一致的PTM注释是过去的已知问题以及骄傲数据中的注释误差源(
      • Csordas A.
      • Ovelleiro D.
      • 王R.
      • 抚养金。
      • ríosd.
      • VizcaínoJ.A.
      • Hermjakob H.
      骄傲:蛋白质组学数据存储库中的质量控制。
      ),作为大多数搜索引擎以不同方式使用非标准术语报告PTM。 骄傲转换器2 试图根据搜索引擎报告的最常见的PTM的策划列表来分配标准化的PTM注释和最常见的PTMS和质量三角洲。如果唯一的PTM可以在0.1A大量公差内将QualDlta分配给质量Δ,则注释会自动显示给用户。在可以将多个PTMS分配给质量三角洲的情况下,精度为0.1 da, 骄傲转换器2 将尝试将唯一的PTM分配定位到0.01 da内。如果在较高的精度阈值下找到唯一的匹配,则会分配它,但GUI将报告已观察到多个PTM的事实。在较高的精度阈值下仍然发现多个PTM的情况下,没有完成映射。 GUI将通过突出黄色的冲突来报告大众公差窗口中已经观察到多个PTM的事实。未自动分配的PTM将以红色突出显示。然后,用户必须手动编辑突出显示的修改以使用所建议的PTMS(如果可用)或通过搜索正确的PSI-Mod术语来分配正确的PSI-Mod术语(参见 补充文件S1,第6节欲了解更多细节)。自动PTM分配也在CLI模式下执行,但突出显示多个可能分配的警告仅在控制台窗口中显示,而不是报表文件。因此,用户可以在最终转换之前确认正确的分配。
      一旦提供了所有所需的注释,GUI在继续在所有报表文件中复制元数据之前会显示快速评论屏幕。下一步是生成骄傲XML文件。或者,可以此时可以停止图形转换过程,因为现在所有报表文件都完成并验证,并且可以使用CLI批量脚本和批量转换过程。这对于需要转换大量文件并且可以访问可以并行化的计算机集群,这通常仅为实用。在大多数情况下,具有平均内存和磁盘空间的单个桌面计算机将超过足够的。 GUI的最终屏幕邀请用户使用Pride Inspector工具查看生成的骄傲XML文件(
      • 王R.
      • Fabregat A.
      • ríosd.
      • Ovelleiro D.
      • 抚养金。
      • CôtéR.G.
      • 怜悯J.
      • Csordas A.
      • Perez-Riverol Y.
      • Reinger F.
      • Hermjakob H.
      • 玛特L.
      • VizcaínoJ.A.
      骄傲检查员:可视化和验证MS蛋白质组学数据的工具。
      )并提交他们的数据 通过 PX联盟。请参阅第3至5节 补充文件S1 对于所有工具的完整用户指南 骄傲转换器2 tool suite.

       骄傲MZTAB发电机

      骄傲MZTAB发电机 将基于所使用的相同MS源文件生成骨架MZTAB文件 骄傲转换器2。用户具有相同的解析器选项 骄傲转换器 2并且生成器设置也存储在所产生的MZTAB文件中。这是非常重要的,因为MZTAB文件和报表文件需要使用与转换相同的选项生成,以产生明智和一致的结果。如果使用mztab文件作为其中的一部分 骄傲转换器2 prescan,读取MZTAB文件的配置设置,如果它们与配置设置不匹配 预扫描,错误消息显示给用户,并阻止转换,直到分析差异。
      骄傲MZTAB发电机 有几个解析器选项来处理凝胶和定量信息。如果实验包含定量信息,则可以实现 骄傲MZTAB发电机 自动创建占位符注释以描述实验中使用的定量标签,并将列添加到文件中的定量值,用户将能够编辑以添加定量值。如果实验是基于凝胶的,则可以将每个识别连接到特定凝胶上的特定点(例如,“凝胶A”上的“斑点4”)。如果其中包含在文件名中,也可以自动提取此信息。所有这些附加信息都将存储在报告文件中,随后将进入最终的骄傲XML文件。

       骄傲XML合并

      它是基于MS的蛋白质组学实验中的常见情景,即几个结果来自单一分析。其中一个示例是基于凝胶的MS实验,其中每个光斑通常产生唯一的MS运行和相关结果文件。已经提到了这一点 骄傲转换器2 能够加载这些输入文件并在一批中转换它们,只需要对所有源文件的一轮注释。这 骄傲XML合并 是这样的工作流程中的下一个逻辑步骤,其中所有单独的点文件都被合并到准备提交的单个XML文件中。使用 骄傲XML合并,可以每个凝胶生成一个骄傲的XML文件,这是比每单点的一个自豪XML文件更方便的方法。

       骄傲XML过滤器

      骄傲XML过滤器 旨在后处理生成的骄傲XML文件 骄傲转换器2 并在蛋白质识别和光谱水平上工作。实现这一目标, 骄傲XML过滤器 可以去除峰的空光谱或除去含有少于指定数量的肽的蛋白质鉴定(用于除去“单次奇迹”)。这 骄傲XML过滤器 还可以采取污染物蛋白标识列表,并将其用作黑名单,以从XML文件中删除相应的标识。蛋白质推理问题是报告蛋白质组学结果中的主要挑战之一(
      • nesvizhskii a.i.
      • Aeberberold R.
      霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
      )。不幸的是,骄傲的XML格式不适当地支持单一肽对多种蛋白质,并将其分组成识别群体。因此,默认情况下, 骄傲转换器2 报告肽的所有可能组合到蛋白质分配,确保没有数据丢失。然后这种方法显着增加了报告的蛋白质的数量。因此,我们已添加一个功能 骄傲XML过滤器,它可以采用使用外部蛋白质推理算法产生的蛋白质选手,然后从生成的骄傲XML文件中移除所有不合素蛋白。虽然这不是一个理想的解决方案,但我们认为它是普遍XML的局限性与外部蛋白质推理结果的局限性之间的明智妥协。请参阅第7节 补充文件S1 更深入地解释了如何 S应对蛋白质推理。

      讨论

      骄傲转换器2 与原始骄傲转换器提交工具相比,框架构成了一大步前进。然而,原始工具背后的主要动机在此处保持:软件必须尽可能适用于没有多少生物信息学支持的生物学家。超越这个原始目标,该框架现在支持使用原始工具中缺席的用例,但对用户有很大的需求。因此, 骄傲转换器2 现在可以用生物信息管理员/计算机科学家使用批量转换,它可以集成到流水管中,以将提交的提交到骄傲,并支持PMF和定量数据提交。截至2012年7月, 骄傲转换器2 已被用来生成2000多个提交的骄傲XML文件,涵盖了五种不同的输入文件格式。我们计划在未来几个月内停止原始骄傲转换器申请。
      源代码的模块化软件架构,完整文档和可用可用性允许任何第三方通过简单地提供适当的实现来为新格式添加支持 界面。在实践中,这在过去的几个月里已经发生,因为使用现有的Thermo MSF解析器库,在核心骄傲团队之外的独立创建了来自蛋白质组发现者的模块.MSF结果文件。
      • Colaert N.
      • Barsnes H.
      • Vaudel M.
      • 赫尔森K.
      • Timmerman E.
      • 镰刀A.
      • Gevaert K.
      • 玛特L.
      这rmo-MSF-Parser:一个开源Java库,用于解析和可视化Thermo Proteome Discoverer MSF文件。
      ),在欧盟FP7项目Prime-XS的上下文中(http://www.primexs.eu)。
      我们希望我们添加到的新功能 骄傲转换器2 工具套件,例如可能的集成到LIMS系统中,文件批量转换以及新格式的独立集成,将使良好的蛋白质组学组织开发自己的提交管道进入骄傲或将导出集成到其他工具中的骄傲XML文件。此外,鉴于良好的文件 界面,我们会鼓励其他具有深入专业知识的群体,这些群体具有目前不支持的数据格式贡献转换模块 骄傲转换器2.
      我们认为,通过这一新框架可以以更高效和用户友好的方式解决对科学期刊和资助机构的数据可用性的要求。除了支持新格式的支持之外,我们希望开放性质 骄傲转换器2 将鼓励第三方验证方案自动为生成的骄傲XML文件创建验证报告。支持PSI验证框架(
      • MonteCchi-Palazzi L.
      • Kerrien S.
      • Reinger F.
      • 阿兰达B.
      • 琼斯A.R.
      • 玛特L.
      • Hermjakob H.
      Psi.语义验证器:检查蛋白质组学数据的MIAPE符合性的框架。
      )已经融入了 骄傲转换器2 框架和我们有合作开发语义验证规则,这些规则将反映各种用户需求,例如特定的日记要求和MIAPE指南。
      虽然骄傲数据库仍然基于骄傲的XML格式,但两个模块用于转换MzidentML v1.1(
      • 琼斯A.R.
      • 艾森凯母线
      • Mayer G.
      • Kohlbacher O.
      • Siepen J.
      • 哈巴德S.
      • Selley J.
      • Searle B.
      • Shofstahl J.
      • Seymour S.
      • 朱利安R.
      • binz p.a.
      • 德意曲e.w.
      • Hermjakob H.
      • Reinger F.
      • 怜悯J.
      • VizCaino J.A.
      • Chambers M.
      • Pizarro A.
      • 皱纹D.
      基于质谱的蛋白质组学结果的MzidentML数据标准。
      )和mzml v1.1(
      • 玛特L.
      • Chambers M.
      • STURM M.
      • Kessner D.
      • Levander F.
      • Shofstahl J.
      • 唐W.H.
      • RömppA.
      • Neumann S.
      • Pizarro A.D.
      • MonteCchi-Palazzi L.
      • 塔斯曼N.
      • 科尔曼M.
      • Reinger F.
      • Souda P.
      • Hermjakob H.
      • binz p.a.
      • 德意曲e.w.
      MZML-质谱数据的社区标准。
      )格式化,用于质谱数据和蛋白质/肽识别的两个PSI标准格式,由此提供 骄傲转换器2。这种越来越远的解决方案只是一种临时方法,因为我们目前正在实现纯粹的mzidentml和mzml支持。但是,由于实际原因,我们将继续为有效提交格式作为有效的提交格式支持骄傲的XML。首先,在可靠的和“易于使用”出口商的新数据标准中需要一些时间,可用于许多搜索引擎和分析管道。其次,还有几个现有的第三方管道生产我们希望继续支持的骄傲XML文件,至少直到导出者到MZML / MzidentML的组由维护这些管道的组开发。这是蛋白酶全球服务器(PLG,Waters),Heidi(http://biodev.extra.cea.fr/docs/heidi),OMICSHUB蛋白质组学(积分术),肽表(http://peptide-shaker.googlecode.com)和proteios(
      • HäkkinenJ.
      • vincic g.
      • månssono.
      • Wårellk.
      • Levander F.
      PROTEIOS软件环境:蛋白质组学数据的管理和分析的可扩展多用户平台。
      ),等。
      骄傲XML格式的一个局限性是对蛋白质推断的有限支持。可以报​​告蛋白质组,但不是理想的方式(参见蛋白质组发现者MSF模块的结果文件)。缺省情况下,所有肽到蛋白映射都在骄傲XML文件中报告。但是,用户仍然可以选择仅通过使用来报告所需的蛋白质 骄傲XML过滤器 工具。另一个用例是,它不是由骄傲XML格式支持的理想支持,是PTMS位置的歧义。然而,几个 S可以使用多种技术的组合报告此信息。有关所用方法的更多详细信息,请参阅第7.2节 补充文件S1.
      虽然蛋白质组学工作流程的复杂性和变化仍然是一个重大挑战,但我们期待 骄傲转换器2 成为用户友好,全面捕获和报告蛋白质组学数据的重大步骤以及促进数据提交给PRODEMEXCHANGE联盟的关键因素。

      致谢

      我们要感谢Melih Birim在项目的开始期间的意见。

      补充材料

      参考

        • VizcaínoJ.A.
        • Côtér.
        • Reinger F.
        • Barsnes H.
        • 抚养金。
        • Rameseder J.
        • Hermjakob H.
        • 玛特L.
        蛋白质组学识别数据库:2010更新。
        核酸RES。 2010; 38: D736-742
        • Hermjakob H.
        • APWEILER R.
        蛋白质组学识别数据库(骄傲)和Proteomexchange联盟:使蛋白质组学数据可访问。
        专家Rev.蛋白质组学。 2006; 3: 1-3
        • 德意曲e.w.
        • 林H.
        • Aeberberold R.
        PeptidAtlas:用于出现目标蛋白质组学工作流的目标选择的资源。
        Embo Rep。 2008; 9: 429-434
        • 果园S.
        • Montechi-Palazzi L.
        • 德意曲e.w.
        • binz p.a.
        • 琼斯A.R.
        • Paton n.
        • Pizarro A.
        • 皱褶D.M.
        • Wojcik J.
        • Hermjakob H.
        五年的蛋白质组学数据标准化的进展情况第4届春季春季研讨会HUPO-蛋白质组学标准倡议2007年4月23日至25日欧诺国家超级(索尼昂),法国里昂。
        蛋白质组学。 2007; 7: 3436-3440
      1. 信用逾期信贷。
        NAT。 Biotechnol。 2009; 27 (没有提交人): 579
        • Barsnes H.
        • VizcaínoJ.A.
        • Eidhammer I.
        • 玛特L.
        骄傲转换器:使蛋白质组学数据分享容易。
        NAT。 Biotechnol。 2009; 27: 598-599
        • Csordas A.
        • Ovelleiro D.
        • 王R.
        • 抚养金。
        • ríosd.
        • VizcaínoJ.A.
        • Hermjakob H.
        骄傲:蛋白质组学数据存储库中的质量控制。
        数据库。 2012; 2012: bas004
        • VizcaínoJ.A.
        • Côtér.
        • Reinger F.
        • 抚养金。
        • 穆勒M.
        • Rameseder J.
        • Hermjakob H.
        • 玛特L.
        蛋白质组学识别数据库蛋白质组学数据存储库的指南。
        蛋白质组学。 2009; 9: 4276-4283
        • Côtér.
        • Reinger F.
        • 玛特L.
        • Barsnes H.
        • VizCaino J.A.
        • Hermjakob H.
        本体查找服务:更大更好。
        核酸RES。 2010; 38: W155-160
        • Barsnes H.
        • 科特兰特。
        • Eidhammer I.
        • 玛特L.
        ols.对话框:Ontology Lookup服务的开源前端。
        BMC生物信息学。 2010; 11: 34
        • MonteCchi-Palazzi L.
        • Beavis R.
        • binz p.a.
        • Chalkley R.J.
        • Cottrell J.
        • 皱纹D.
        • Shofstahl J.
        • Seymour S.L.
        • Garavelli J.s.
        Psi.-MOD社区标准用于表示蛋白质修改数据。
        NAT。 Biotechnol。 2008; 26: 864-866
        • 王R.
        • Fabregat A.
        • ríosd.
        • Ovelleiro D.
        • 抚养金。
        • CôtéR.G.
        • 怜悯J.
        • Csordas A.
        • Perez-Riverol Y.
        • Reinger F.
        • Hermjakob H.
        • 玛特L.
        • VizcaínoJ.A.
        骄傲检查员:可视化和验证MS蛋白质组学数据的工具。
        NAT。 Biotechnol。 2012; 30: 135-137
        • nesvizhskii a.i.
        • Aeberberold R.
        霰弹枪蛋白质组学数据的解释:蛋白质推理问题。
        摩尔。细胞。蛋白质组学。 2005; 4: 1419-1440
        • Colaert N.
        • Barsnes H.
        • Vaudel M.
        • 赫尔森K.
        • Timmerman E.
        • 镰刀A.
        • Gevaert K.
        • 玛特L.
        这rmo-MSF-Parser:一个开源Java库,用于解析和可视化Thermo Proteome Discoverer MSF文件。
        J.蛋白质组。 2011; 10: 3840-3843
        • MonteCchi-Palazzi L.
        • Kerrien S.
        • Reinger F.
        • 阿兰达B.
        • 琼斯A.R.
        • 玛特L.
        • Hermjakob H.
        Psi.语义验证器:检查蛋白质组学数据的MIAPE符合性的框架。
        蛋白质组学。 2009; 9: 5112-5119
        • 琼斯A.R.
        • 艾森凯母线
        • Mayer G.
        • Kohlbacher O.
        • Siepen J.
        • 哈巴德S.
        • Selley J.
        • Searle B.
        • Shofstahl J.
        • Seymour S.
        • 朱利安R.
        • binz p.a.
        • 德意曲e.w.
        • Hermjakob H.
        • Reinger F.
        • 怜悯J.
        • VizCaino J.A.
        • Chambers M.
        • Pizarro A.
        • 皱纹D.
        基于质谱的蛋白质组学结果的MzidentML数据标准。
        摩尔。细胞。蛋白质组学。 2012; 11 (M111.014381.)
        • 玛特L.
        • Chambers M.
        • STURM M.
        • Kessner D.
        • Levander F.
        • Shofstahl J.
        • 唐W.H.
        • RömppA.
        • Neumann S.
        • Pizarro A.D.
        • MonteCchi-Palazzi L.
        • 塔斯曼N.
        • 科尔曼M.
        • Reinger F.
        • Souda P.
        • Hermjakob H.
        • binz p.a.
        • 德意曲e.w.
        MZML-质谱数据的社区标准。
        摩尔。细胞。蛋白质组学。 2011; 10 (R110.000133)
        • HäkkinenJ.
        • vincic g.
        • månssono.
        • Wårellk.
        • Levander F.
        PROTEIOS软件环境:蛋白质组学数据的管理和分析的可扩展多用户平台。
        J.蛋白质组。 2009; 8: 3037-3043
        • 矩阵探
        吉祥物解析器API。 2012 (http://www.matrixscience.com/msparser.html)
        • Reinger F.
        • Krishna R.
        • Ghali F.
        • ríosd.
        • Hermjakob H.
        • AntonioVizcaínoJ.
        • 琼斯A.R.
        JMZIDENTML API:肽和蛋白质识别数据的MzidentML标准的Java接口。
        蛋白质组学。 2012; 12: 790-794
        • muth t.
        • Vaudel M.
        • Barsnes H.
        • 玛特L.
        • 镰刀A.
        Xtandem Parser:解析和分析X的开源库!串联MS / MS搜索结果。
        蛋白质组学。 2010; 10: 1522-1524
        • CôtéR.G.
        • Reinger F.
        • 玛特L.
        JMZML,用于MZML的开源Java API,MS数据的PSI标准。
        蛋白质组学。 2010; 10: 1332-1335
        • 怜悯J.
        • Reinger F.
        • Hermjakob H.
        • VizcaínoJ.A.
        JMZReader:Java Parser库,用于处理和可视化多个文本和基于XML的质谱数据格式。
        蛋白质组学。 2012; 12: 795-798