ComplexBrowser:用于识别和定量大规模蛋白质组学数据集的蛋白质复合物的工具*[S]

  • Wojciech Michalak.
    脚注
    隶属关系
    生物化学系&南丹麦大学生物分析科学分子生物分子生物分析科学中心,校园55,DK-5230,Odense M,Denmark
    搜索本作者的文章
  • vasileios tsiamis.
    隶属关系
    生物化学系&南丹麦大学生物分析科学分子生物分子生物分析科学中心,校园55,DK-5230,Odense M,Denmark
    搜索本作者的文章
  • veatschwämmle.
    脚注
    隶属关系
    生物化学系&南丹麦大学生物分析科学分子生物分子生物分析科学中心,校园55,DK-5230,Odense M,Denmark
    搜索本作者的文章
  • Adelina Rogowska-Wrzesińska
    一致
    应解决谁的通信:
    脚注
    隶属关系
    生物化学系&南丹麦大学生物分析科学分子生物分子生物分析科学中心,校园55,DK-5230,Odense M,Denmark
    搜索本作者的文章
  • 作者脚注
    * a.r. -w。由独立研究基金丹麦的批准者提供支持 - 自然科学和村庄基金会,授予SDU的生物分析科学中心。五。由Elixir DK支持。下来自MC2治疗剂AP的学生补助得到支持。
    [S] 本文包含补充数据和表格。
    §当前的联系:生物统计学NADS&并发症,Novo Nordisk A / S,Vandtårnsvej114,DK-2860Søborg,丹麦。
    ¶ 这些作者同等贡献这项工作。
      我们已经开发了ComplexBrowser,一个开源,用于监督定量蛋白质组学数据的监督分析(可自由和等异质标签的基于标签的),其侧重于蛋白质复合物。该软件使用来自Corum和复杂门户数据库的手动策划信息以识别蛋白质复杂组件。首次,我们提供复杂的折叠变化(CFC)因子,其基于复杂亚基CoreGulation的水平来识别上调和下调的复合体。该软件提供蛋白质复合物的组成和表达的交互式可视化,用于探索性分析,并包含一种质量控制步骤,包括基于雷玛包的标准化和统计分析。在两个公布的研究中测试了复杂讲师,该研究鉴定了人腺癌组织或活性小鼠T细胞中蛋白质表达的变化。分析揭示了1519和332个蛋白质复合物,其中在各种研究中发现了233和41个协调。采用的方法提供了转向葡萄糖的代谢和腺癌组织的高增殖的证据,以及鉴定小鼠T细胞活化的染色质改造复合物。结果与实验的原始解释相关,并提供有关受影响蛋白质复合物的新型生物细节。复杂灯器是我们了解的第一个自动化蛋白质复杂分析的工具,用于高通量研究,在分析分析中提供蛋白质复杂调控的见解。

      图形概要

      蛋白质组学成为对生物系统大规模分析的选择方法之一。最近的多维分离方法的进展,改善仪器速度,灵敏度和解决能力,允许在分析范围的范围内产生近完整蛋白质,提供超过12,000个基因产品的定量信息,并占据4-6个级(
      • Bekker -Jensen D.B.
      • Kelstrup C.D.
      • Batth T.S.
      • Larsen S.C.
      • 脱落C.
      • Bramsen J.B.
      • SørensenK.D.
      • Høyers.
      • Ørntoftt.f.
      • 安德森C.L.
      • Nielsen M.L.
      • 奥尔森J.V.
      综合人类蛋白质群快速产生的优化霰弹枪战略。
      ,
      • Kelstrup C.D.
      • Bekker -Jensen D.B.
      • arrey t.n.
      • 何格尔贝阿
      • 更难A.
      • 奥尔森J.V.
      昆育蛋白质组学Q辐射HF-X的性能评价。
      )。蛋白质组学提供无数的研究机会,但也挑战,特别是在生物解释领域的结果。目前,这个过程仍然耗时,需要相当大的专业知识。
      常用的分析管道涉及根据其分子功能,细胞组分和生物过程的注释蛋白质,基于基因本体中收集的信息(GO)
      使用的缩写是:
      基因本体论
      CFC
      复杂折叠变化
      简历
      变异系数
      农场
      强大的微阵列综述因素分析
      FC.
      折叠变化
      FDR.
      假发现率
      ke
      Kyoto基因和基因组的百科全书
      LFQ.
      无标签定量
      LTQ.
      线性陷阱四极轴
      odr.
      正交距离回归
      PCA.
      主要成分分析
      PPI.
      蛋白质 - 蛋白质相互作用
      细绳
      搜索工具,用于检索相互作用基因/蛋白质
      TMT.
      串联大规模标签
      QC.
      质量控制。
      1使用的缩写是:
      基因本体论
      CFC
      复杂折叠变化
      简历
      变异系数
      农场
      强大的微阵列综述因素分析
      FC.
      折叠变化
      FDR.
      假发现率
      ke
      Kyoto基因和基因组的百科全书
      LFQ.
      无标签定量
      LTQ.
      线性陷阱四极轴
      odr.
      正交距离回归
      PCA.
      主要成分分析
      PPI.
      蛋白质 - 蛋白质相互作用
      细绳
      搜索工具,用于检索相互作用基因/蛋白质
      TMT.
      串联大规模标签
      QC.
      质量控制。
      databases (
      • ashburner m.
      • 球C.A.
      • 布莱克J.A.
      • Botstein D.
      • 巴特勒H.
      • 樱桃准晚
      • 戴维斯A.P.
      • Dolinski K.
      • 德怀特S.S.
      • EPPIG J.T.
      • 哈里斯M.A.
      • 山D.P.
      • ISSEL-TARVER L.
      • Kasarskis A.
      • 刘易斯S.
      • Matese J.C.
      • Richardson J.E.
      • Ringwald M.
      • 鲁宾上午
      • Sherlock G.
      基因本体:生物学统一的工具。基因本体组织。
      ,

      基因本体,C.(2017)扩增基因本体学知识库和资源。核酸RES。 45,D331-D338。

      )。进一步的转入富集方法定义用户数据中的过度注释,提供对受影响的生物过程的一般性理解(
      • 伊甸园E.
      • Navon R.
      • Steinfeld I.
      • Lipson D.
      • Yakhini Z.
      大猩猩:在排名基因列表中发现和可视化富集的GO术语的工具。
      )。
      途径分析是一种不同的方法,集中在蛋白质特异性生化活性上。诸如IPA®,KEGG或反应型蛋白质(以分子途径)等工具(
      • 克拉默A.
      • 绿色J.
      • Pollard Jr,J.
      • Tugendreich S.
      思想途径分析中的因果分析方法。
      ,
      • ogata H.
      • goto s.
      • 佐藤K.
      • 富士井W.
      • Bono H.
      • Kanehisa M.
      Kegg:Kyoto Encyclopedia的基因和基因组。
      ,
      • Fabregat A.
      • Sidiropoulos K.
      • Garapati P.
      • Gillespie M.
      • Hausmann K.
      • haw
      • 亚马尔B.
      • 茱满
      • Korninger F.
      • McKay S.
      • 马修斯L.
      • 可能。
      • 米拉尼亚米
      • rothfels k。
      • Shamovsky V.
      • 韦伯M.
      • Weiser J.
      • 威廉姆斯米
      • 吴G.
      • Stein L.
      • Hermjakob H.
      • d'eustachio p.
      反应途径知识库。
      )和可视化过程,已知这些方法的基因产物。这种方法的清晰优势是途径数据库主要基于实验,手动策划数据,而大多数GO-ANNZATION来自于此 在Silico. 预测和文本挖掘(
      • Rhee S.Y.
      • 木头V.
      • Dolinski K.
      • Draghici S.
      使用和滥用基因本体注释。
      )。
      一种常用于研究的生物体研究的替代实践是蛋白质结构域和基序分析(
      • 施密特A.
      • 芬恩I.
      • imhof A.
      蛋白质组学数据的生物信息分析。
      )。该策略使用序列对准和二级结构预测工具,以在其他物种中的蛋白质和更好地注释的类似物之间找到相似性。特定序列基序的鉴定使得能够将功能分配给先前未描述的蛋白质。
      蛋白质 - 蛋白质相互作用(PPI)分析是一种互补方法,其通常与上述方法平行。字符串等平台(
      • Szklarczyk D.
      • 莫里斯J.H.
      • 煮熟
      • Kuhn M.
      • 蜡厂
      • Simonovic M.
      • Santos A.
      • Doncheva N.T.
      • 罗斯A.
      • Bork P.
      • Jensen L.J.
      • von mering c.
      2017年的字符串数据库:质量控制的蛋白质 - 蛋白质关联网络,广泛访问。
      )使用来自共表达研究,跨物种预测,实验证据和文献采矿的信息来构建蛋白质相互作用图,其中节点代表基因产物和边缘对应于相互作用。这些地图有助于鉴定相似过程中涉及的基因或受常见调节剂的影响。 PPI调查的平台提供有关蛋白质功能的全面信息,并参与各种生物过程。然而,这些平台的巨大知识库和从大型基因/蛋白质名单中汲取的相互作用的量通常很难处理和解释。
      蛋白质复合物是对细胞的许多关键生物化学活性进行的分子机器 例如 复制,转录,翻译,细胞信号传导,细胞周期调节和氧化磷酸化。它们在维持细胞稳态和参与疾病发展中的作用(
      • 大卫啊
      • 拉扎利R.
      • WASS M.N.
      • 斯得斯伯格M.J.
      蛋白质 - 蛋白质相互作用位点是疾病相关的非型SNP的热点。
      )证明蛋白质复杂表达的详细表征对于理解细胞中的通常高度交织的过程非常有帮助。
      在几项研究中进行了大规模蛋白质组学数据中已知蛋白质复合物组分的表达的询问(
      • ori a。
      • Iskar M.
      • Buczak K.
      • Kastritis P.
      • Parca L.
      • Andres-Pons A.
      • 歌手S.
      • Bork P.
      • 贝克米
      哺乳动物蛋白质复合体化学素的时空变异。
      ,
      • 大型师E.
      • 肉体A.
      • 加西亚 - 阿隆索L.
      • 克莱默T.
      • SAEZ-RODRIGUEZ J.
      • Beltrao P.
      癌症基因组拷贝数变异的广泛转录后转录衰减。
      ,
      • Chalabi M.H.
      • Tsiamis V.
      • KällL.
      • 瓦德林F.
      • SchwämmleV.
      CoExpresso:评估人细胞中蛋白质复合物的定量行为。
      )。现在清楚的是,许多已知的蛋白质复合物是翻译和翻译后调节的,因此在细胞类型和组织中比较时表现出共表达。然而,到目前为止,已经开发出了对新数据集中的复杂行为进行自动化和用户友好的方法。
      在本手稿中,我们呈现了复杂的推理器,其能够在蛋白质组学实验中实现蛋白质复合物的自动化和定量分析。软件询问珊瑚(
      • Ruepp A.
      • Waegele B.
      • Lechner M.
      • 祝福尔B.
      • Dunger-Kaltenbach I.
      • Fobo G.
      • 弗里什曼G.
      • 蒙特隆C.
      • Mewes H.W.
      珊瑚:哺乳动物蛋白质复合物的综合资源-2009。
      )和ebi复杂门户(
      • 莫尔平板
      • Forner-Martinez O.
      • Costanzo M.C.
      • 达娜J.
      • demeter J.
      • 杜马斯米
      • 德怀特S.S.
      • Gaulton A.
      • Licata L.
      • Melidoni A.N.
      • Ricard-Blum S.
      • Roechert B.
      • Skyzypek M.S.
      • Tiwari M.
      • Velankar S.
      • 黄娥。
      • Hermjakob H.
      • 果园S.
      复杂的门静脉 - 大分子复合物的一兆皮。
      )以查找给定的蛋白质清单中存在的已知蛋白质复合物的数据库,并使用定量蛋白质组学数据(基于无异质量标签的标记)和因子分析,以总结在研究的生物条件上每个复合物的总体表达趋势。重新分析两种,先前公布的大规模蛋白质组学数据集表明,对不同生物背景下蛋白质复合物调节的深入了解的方法的大潜力。

      实验步骤

       蛋白质复杂数据库

      呈现的软件依赖于来自两种成熟的手动策蛋白复杂数据库的信息:珊瑚(
      • Ruepp A.
      • Waegele B.
      • Lechner M.
      • 祝福尔B.
      • Dunger-Kaltenbach I.
      • Fobo G.
      • 弗里什曼G.
      • 蒙特隆C.
      • Mewes H.W.
      珊瑚:哺乳动物蛋白质复合物的综合资源-2009。
      )和ebi复杂门户(
      • 莫尔平板
      • Forner-Martinez O.
      • Costanzo M.C.
      • 达娜J.
      • demeter J.
      • 杜马斯米
      • 德怀特S.S.
      • Gaulton A.
      • Licata L.
      • Melidoni A.N.
      • Ricard-Blum S.
      • Roechert B.
      • Skyzypek M.S.
      • Tiwari M.
      • Velankar S.
      • 黄娥。
      • Hermjakob H.
      • 果园S.
      复杂的门静脉 - 大分子复合物的一兆皮。
      )分别在2693年和2454个条目中覆盖22种(州24.05.2018)。也可以上传用户定义的蛋白质复杂数据库;软件手册中提供了一个示例(补充文件S1)。

       软件设计

       数据输入

      ComplexBrowser接受.csv或.txt格式的数据表作为输入。该文件必须包含单个,唯一的UNIPROT(

      Uniprot,C.(2017)Uniprot:通用蛋白质知识库。核酸RES。 45,D158-D169。

      )在后续列中的第一列和定量信息中的应用。以形式标记免费定量数据 例如 LFQ. intensities (
      • Cox J.
      • 嘿m.y.
      • Luber C.a.
      • Paron I.
      • Nagaraj N.
      通过延迟标准化和最大肽比例提取的精确的蛋白质组无标记量化,称为MAXLFQ。
      )基于来自TMT或ITRAQ的每个分析的样品的总结报告器离子强度的等级标签(
      • rauniyar n。
      • YALES 3RD。,J.R.
      霰弹枪蛋白质组学中基于异的标记的相对量化。
      )可以使用实验。可选地,可以附加来自统计测试结果的置信度分数的列。必须根据输入文件中出现的第一个条件来计算这些值。如果用户不包括用户,则使用Limma包(
      • 里奇M.E.
      • Phipson B.
      • 吴D.
      • 胡Y.
      • 法律C.W.
      • 施W.
      • Smyth G.K.
      LiMMA为RNA测序和微阵列研究进行差异表达分析。
      )进行,以及使用QValue R包的FDR估计(
      • Storey J.D.
      一种直接的虚假发现率的方法。
      )。数据输入文件的示例 补充表S1和S2。此外,该软件还提供了一个选项,用于将T-Cell DataSet上载为测试数据集(请参阅“测试数据集中的数据源的详细描述”)。

       质量控制

      在分析蛋白质复合物之前,软件会为质量控制(QC)评估目的创建数据可视化。 QC可视化包括:
      • 对数转换强度的Boxplot控制,用于控制例如注射量不一致。
      • 通过总结每个定量列中缺失值的数量来生成的缺少值条图,以比较样本之间的蛋白质覆盖。
      • 成对散射绘制的所有蛋白质的映射强度在两个选定的条件下量化,显示样品以样本相关性(Pearson,Kendall,Spearman),以测试样品之间的相似性。
      • 每个实验条件如何评估复制变化的蛋白质绝对强度测量的变异系数(CV)的直方图。
      • Q值图表计算与设置阈值相关的差分表达的特征的数量。
      • 火山图描绘了折叠变化与差异调节特征的置信之间的关系。
      • PCA.导致所有样品的视觉比较。
      该软件还实现四种常见的,先前描述的归一化方法(
      • Chawade A.
      • Alexandersson E.
      • Levander F.
      Armaralyzer:一种用于迅速评估OMICS数据集的标准化方法的工具。
      )。

       复杂组件的识别和可视化

      要执行复杂的分析,必须设置附加参数:(1)q值阈值,该阈值将设置用于可视化目的所考虑的最小Q值,(2)折叠变化阈值和(3)用于可视化折叠变化的噪声阈值复杂的组件和生成摘要报告; (4)数据库的选择(Corum或Ebi Complex Portal); (5)物种的选择,样品是从的。在按下“运行分析”时,ComplexBrowser在用户数据中搜索相关的UNIPROT access,并显示所有在输入中发现的子单元的所有蛋白质复合物。对于至少3个定量亚基的复合物,计算复杂折叠变化(CFC)(请参阅下文)。使用星形图可视化复合物的组成和它们亚基表达的变化。节点(圆圈)表示复杂的亚基,节点的大小表示折叠变化程度,颜色表示调节的类型(红色 - 下调,绿色 - 上调,蓝色 - 不变化,灰色 - 未识别),厚边缘(线)表示差异调节的蛋白质。所识别的复合体或整个复数的所选组件可以在CoExpresso软件中提交进行分析(
      • Chalabi M.H.
      • Tsiamis V.
      • KällL.
      • 瓦德林F.
      • SchwämmleV.
      CoExpresso:评估人细胞中蛋白质复合物的定量行为。
      ),其评估了100多种人细胞类型中任意蛋白质基团的共调节行为。 CoExpresso仅与人类蛋白质兼容,因此只能为人类复合物启用复合刷子的共克雷斯的重定向。

       复杂表达分析

      ComplexBrowser采用快速农场算法总结蛋白质复合物的丰富以确定复杂折叠变化(CFC)。 Fast-Farms是一个修改的农场版本(
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      ),一种贝叶斯因子分析方法,假设最初为Affymetrix探测级数据摘要实现的高斯测量噪声。以前已经用于估计基于蛋白质摘要过程中的肽浓度的蛋白质丰度。它已证明可用于检测肽表达谱的异常值并限制其对蛋白质定量的影响(
      • 张B.
      • Pirmoradian M.
      • Zubarev R.
      • Kall L.
      肽丰收的共变量精确地反映蛋白质浓度差异。
      )。在ComplexBrowser中,我们创建了自己的快速场算法的实现,用于执行蛋白质复杂亚基的对数转化的表达变化的加权平均摘要。复杂架的快速农场假定复杂的亚基大量与蛋白质复合物浓度成比例。因此,亚基丰度可以用额外的高斯噪声进行线性建模,如: x =λ. z +ε,在哪里 x,λ∈ rn., xz 是亚基丰度和日志比例中真正的复杂浓度。 λ表示每个亚基的贡献 z ε描述了噪音。快车场通过最大限度地解决上述模型 一个后念 估计描述协变的λ x 在最小的噪声ε下最好的。复杂表达式分两步计算。首先,在快速场处处理相同复合物的所有亚基的日志缩放强度,其基于λ为每个子单元分配单个权重,并估计噪声ε。然后通过应用于亚基强度的每个条件过程的加权平均摘要来计算复杂的表达。两个给定条件之间的复杂表达的相对变化被定义为复杂折叠变化(CFC)。 ComplexBrowser还提供了一个摘要测量,描述了给定复合物的表达分布中的变化量。通过将λ与噪声ε进行比较,将其呈现为信噪比或短噪声。噪声为0表示完美的共表达,而噪声= 1表示相关性差。软件中设置的默认噪声阈值为0.5。

       复杂组件的线性共同表达

      建立利用亚基共同表达线性的思想作为数据质量的量度(
      • Rogowska-wrzesinska A.
      • Wrzesinski K.
      • Fey S.J.
      异标评分使用内部标准来评估蛋白质组学数据的质量。
      ),ComplexBrowser吸引了补充可视化以调查不同条件之间的共调节。对于选定的蛋白质复合物,它在两个条件下将其所有亚基的物质转化的丰度进行了日志转化的丰度,并在散点图上显示它们,其中每个点对应于一种蛋白质。正交距离回归(ODR)用于确定共表达相似性的质量,因为与普通最小二乘回归不同,ODR在X和Y值中考虑可变性,因此它适合最小化测量值的错误(
      • Boggs P.T.
      • Spiegelman C.H.
      • Donaldson J.R.
      • Schnabel R.B.
      对正交距离回归的计算检查。
      )。该过程返回一个r2 每对条件的每个复合物的值作为共表达的量度。

       Heatmaps和分层聚类

      结合由分层聚类算法产生的树枝图,HEATMAPS允许检测不遵循蛋白质复合物的共同趋势的蛋白质。这些可以是参与几种不同的复合物或与给定复杂的瞬时相互作用的亚基。 ComplexBrowser显示出两种不同的热散布表达和相关性(蛋白质表达)。表达式热图显示所有实验条件的所选复合物内的所有亚基的对数转换的平均归一化表达值。相同的数据输入用于计算所有复数亚单元的表达式配置文件之间的成对相关性。基于此信息,计算相关矩阵并将其显示为相关热图。两个图形都使用r在r的HCLUST功能中实现的聚合分层聚类来提供树木图。该函数使用用户在图形界面中选择的距离测量和链接功能。

       测试数据集

      ComplexBrowser的性能是使用来自两个先前公布的研究的蛋白质量化数据进行测试(
      • tan h.y.
      • 杨克。
      • 李y.x.
      • shaw t.i.
      • 王Y.Y.
      • 布兰科D.B.
      • 王X.S.
      • 町J.H.
      • 王H.
      • Rankin S.
      • GUY C.
      • 彭准。
      • Chi H.B.
      综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
      ,
      • wisniewski J.R.
      • ostasiewicz p.
      • DUS K.
      • Zielinska d.f.
      • GNAD F.
      正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
      )。进一步在手稿中,我们将研究称为 腺癌数据集 (
      • wisniewski J.R.
      • ostasiewicz p.
      • DUS K.
      • Zielinska d.f.
      • GNAD F.
      正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
      ) 和 T细胞数据集 (
      • tan h.y.
      • 杨克。
      • 李y.x.
      • shaw t.i.
      • 王Y.Y.
      • 布兰科D.B.
      • 王X.S.
      • 町J.H.
      • 王H.
      • Rankin S.
      • GUY C.
      • 彭准。
      • Chi H.B.
      综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
      )。
      与健康结肠粘膜和节点转移瘤相比,腺癌固定的石蜡嵌入式组织样品与使用基于LFQ强度的无标记定量的节点定量相比,腺癌固定的石蜡嵌入式组织样本之间的蛋白质表达差异。腺癌数据集的MS蛋白质组学数据是从出版商网站提供的原始出版物的补充表中获得的(
      • wisniewski J.R.
      • ostasiewicz p.
      • DUS K.
      • Zielinska d.f.
      • GNAD F.
      正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
      )。对于该分析,我们已经丢弃了样品,其表示为“CA2”和“NO2”,以确保每个条件中的相同数量的重复。我们过滤了蛋白质强度表以在每个条件下保留至少4个有效定量值的蛋白质。我们已从原始的加入号码中删除了异形型标识符,并删除了具有非唯一标识符的行。这导致包含来自3个条件的LFQ值的数据集,每个蛋白质有7个生物重复。使用的输入文件是本研究可以找到的 补充表S1.
      T细胞数据集在两个生物学复制中研究了四个时间点(0,2,8和16h)的静态小鼠T细胞的激活。使用串联质量标签(TMT)标记定量蛋白质,并在露天的ELITE MS仪器上进行分析。从自豪感数据库(登录号PXD004367和PXD005492)从原始出版物获得数据(
      • Perez-Riverol Y.
      • Csordas A.
      • 白j.
      • Bernal-Llinares M.
      • 赫瓦帕·纳拉纳S.
      • kundu d.j.
      • Inuganti A.
      • 怜悯J.
      • Mayer G.
      • 艾森凯母线
      • 佩雷斯E.
      • Uszkoreit J.
      • Pfreuffer J.
      • Sachsenberg T.
      • 伊利马萨斯。
      • Tiwary S.
      • Cox J.
      • 宣传E.
      • Walzer M.
      • Jarnuczak a.f.
      • Ternent T.
      • Brazma A.
      • VizCaino J.A.
      2019年的自豪数据库和相关工具和资源:提高对量化数据的支持。
      )。数据集包含8,431个蛋白质的标准化强度。使用的输入文件是本研究可以找到的 补充表S2.

       软件实现

      ComplexBrowser在R(

      团队,R. C.,(2018)R:统计计算的语言和环境。 R基金会统计计算,维也纳,奥地利。

      )。用户界面是使用闪亮,绘图的,NetworkD3,热克,DT和Data.Table库开发的,允许交互式和可调数据可视化。预处理核,STRINGR,Pracma,Doltr,Limma和QValue封装用于数据操纵和统计分析。

       软件可访问性

      该工具可以通过Web服务访问 http://computproteomics.bmb.sdu.dk/Apps/ComplexBrowser 或者可以在安装Rstudio和所需库后本地运行。
      全功能演示版复杂的灯罩版本可在线通过 http://computproteomics.bmb.sdu.dk/Apps/ComplexBrowser/.
      源代码可以从以下命令下载: //bitbucket.org/michalakw/complexbrowser.

      结果

      我们开发了ComplexBrowser,以在大规模蛋白质组学实验中识别和定量蛋白质复合物。该软件的独特特征是能够在实验的不同条件下量化蛋白质复合物丰富和它们组分的共表达的能力能力。在程序中实现的一般分析管道介绍 Fig. 1。简而言之,使用Web浏览器接口上传包含所识别的蛋白质的定量信息的表。定义分析的参数后(例如 条件数量和复制数量),进行数据质量的分析和可视化。在下列窗口中,进行了对蛋白质复合物丰富的存在和变化的分析。交互式表和图形允许用户方便地评估分析结果。包含结果的表和摘要报告可供下载。 ComplexBrowser生成的所有数据以及QC报告都可以导出为Vectored图形并在任何PDF编辑器或图形设计软件中编辑。可以在软件手册中找到广泛的复杂镜器程序和示例结果 补充文件S1.
      图缩略图GR1.
      Fig. 1ComplexBrowser分析工作流程。 识别的蛋白质列表以及定量信息上传到软件,并设置了分析参数(左侧面板)。这是评估所提供定量数据的质量(中间板)。最后,询问和可视化蛋白质复合物的存在和变化(右图)。
      要测试开发平台的性能,我们使用了两个出版的蛋白质组学研究:腺癌数据集(
      • wisniewski J.R.
      • ostasiewicz p.
      • DUS K.
      • Zielinska d.f.
      • GNAD F.
      正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
      )和T细胞数据集(
      • tan h.y.
      • 杨克。
      • 李y.x.
      • shaw t.i.
      • 王Y.Y.
      • 布兰科D.B.
      • 王X.S.
      • 町J.H.
      • 王H.
      • Rankin S.
      • GUY C.
      • 彭准。
      • Chi H.B.
      综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
      )。质量控制和蛋白质复杂分析步骤的结果如下。

       复杂枪械蛋白质组学数据的质量控制

      含有来自3个生物条件的定量蛋白质组学值的腺癌数据集每种重复于7个重复,按以下顺序上传到复合物:C1 - C2-转移,C3 - 癌症。提供了由ComplexBrowser生成的QC报告文件,总结了质量分析 补充文件S2.
      对数转换强度的Boxplot图分析, Fig. 2A据表明,归一化是为了降低强度分布之间的可变性,并确保样品采样可比度;因此,进行量化标准化。尽管正常化,但分别为正常,转移和癌症样本的平均CV值为65,78和77%, Fig. 2B,表明测量内的相对较大的可变性,最有可能是因为样品的临床特征。
      图缩略图GR2.
      Fig. 2数据质量分析可视化的示例 腺癌数据集 使用ComplexBrowser。 A,每个样品预(左侧面板)和(右侧面板)标准化的所有识别的蛋白质的箱子曲线图的对数转化的LFQ强度; B,在每种分析条件下的所有已识别的蛋白质的LFQ强度的CV分布; C,列图表示每个样本中观察到的缺失值的数量; D,基于所有鉴定和量化蛋白的主成分分析。组分1和2的方差解释; C1 - 正常,C2 - 癌症和C3 - 转移组织; C1_1,C1_2等描述了每个条件内的不同样本。
      标签免费实验可能含有在仅少量样品中并在其他样品中量化的蛋白质,其定量值缺失(称为“缺失值”)。少数样本中的许多缺失值可能表示缺乏所获得的数据的技术重现性和/或质量。在里面 腺癌数据集 每个样本的缺失值的数量从113到510各不相同,总共组成,总共只占所有有效测量的3.5%, Fig. 2C。它没有显示数据的任何持久偏见。
      使用inemma封装中包含的配对测试和fdr估计确定差异表达的特征, 补充表S3。考虑到测量和临床样本特征的大偏差,考虑了0.01fdr值的特征,导致802蛋白鉴定差异调节转移和813例癌症样本。 PCA分析显示出对照样品的良好分离,但癌和转移组织之间的重叠, Fig. 2D.
      随后应用了复杂的伯格数据质量分析 T细胞数据集,由四组(0,2,8和16小时)组成,具有两个重复,并使用基于TMT的定量生成。完整的报告可以找到 补充文件S3。 T细胞数据集结果的Boxplot图分布仅显示不同样本的中值值的非常小的变化,并且不需要进一步的正常化。没有观察到缺失的值。与腺癌实验相比,测量的可变性明显降低,腺癌实验与平均CV的所有条件为4.56%(相对 上一个数据集的73.51%), 补充文件S2和S3. Fig. 3A 说明了高水平的样品,以对所选样品之间的每个蛋白质的TMT强度进行样本。在FDR为0.05的FDR后,在2,4和16小时后检测越来越多的差异表达蛋白质(39,1869和5600)。 Fig. 3b介绍了由ComplexBrowser软件生成的Volcano图。从复杂枪车下载的统计分析结果 补充表S4.
      图缩略图GR3.
      Fig. 3ComplexBrowser示例产生了质量控制分析的可视化 T细胞数据集. A,Pearson与4个选定样品之间的TMT强度相关。左图 - C1_1 相对 C2_1;中间板 - C1_1 相对 C3_1;右侧面板 - C1_1 相对 C4_1; B,FDR的VOLCANO图0.05; C1,C2,C3和C4描绘了分别刺激2小时,8小时和16小时的非刺激的T细胞(0h)和T细胞; C1_1和C1_2等描述了每个条件内的不同复制。

       蛋白质复杂分析

      ComplexBrowser促进了大规模研究中蛋白质复杂表达的分析。该软件查询报告称为复杂成员的蛋白质的输入数据,根据指定的统计,噪声和表达式更改阈值调查它们的共表达模式并可视化结果。它通过计算复杂折叠变化因子(CFC)来定量复杂丰度的变化。结果图形和表允许使用交互式图进行数据探索。
      我们建议应根据质量分析模块获得的结果进行复杂分析的设置参数。腺癌数据集显示样品之间的相对高的变化,因此使用CFC≥1.5,复杂噪声≥0.5和蛋白质表达Q值≤0.05。 T细胞数据集显示测量变异性较低,生物重复之间的良好相关性因此将CFC设定为≥1.2,保持≥0.5和蛋白质表达Q值≤0.05的复杂噪声阈值。
      复杂分析模块的主要结果以表格输出的形式呈现,可以直接从复杂的折旋器下载。这种产出 腺癌数据集 对于Corum和EBI数据库,可以找到 补充表S5和S6 分别。在ComplexBrowser中,可以对表进行排序,过滤并搜索,以便轻松访问相关的复合体。它包含复杂的ID,复杂名称,分析的数据集中识别和量化的复数的蛋白质数(亚基),所有子单元的数量和%复覆盖的数量,允许用户识别分析的数据集中高度表示的复合物。 CFC - 复杂折叠变化与噪声系数一起用于分析的条件,提供评估复杂组分表达的协调变化的方法。表中还列出了所有已识别的复杂亚基和基因本体注释的所有已识别的复杂亚基和基因本体注释。

       在腺癌数据集中鉴定的蛋白质复合物反映了癌症和转移组织的生物学特征

      蛋白质复杂分析 腺癌 数据集鉴定了来自复杂门户的珊瑚和366的1519个蛋白质复合物, 表I.。典型的蛋白质复合物的可视化及其由复杂灯传递器产生的组件 Fig. 4。在基于CFC选择的癌症组织中最高5个最上调和前5个最下调的复合物 表二。线粒体呼吸链I(-4.368CFC)和F1F0-细胞色素C氧化酶(-4.188CFC)被鉴定为在转移和癌症样本中下调的关键复合物, 表二。该发现结合ATP合酶(-1.263CFC)的显着下调,表明癌细胞的代谢从氧化磷酸化到糖酵解途径的转变,这与原始出版物的结果一致(
      • wisniewski J.R.
      • ostasiewicz p.
      • DUS K.
      • Zielinska d.f.
      • GNAD F.
      正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
      )。
      表I.基于腺癌的蛋白质复合物的复合体分析概述(CFC≥1.5,复杂噪声≥0.5,蛋白质表达Q值≤0.05)和T细胞数据集(CFC设定为≥1.2,复杂噪声≥0.5,蛋白质表达Q值≤ 0.05)
      腺癌T细胞
      物种HOMO SAPIENS.亩肌肉
      定量方法免费标签TMT.
      平均简便73.51%4.56%
      缺失值总数(%)3.55%0%
      条件次数34
      重复的数量72
      数据集中的蛋白质数量68248431
      复合物数量(参与复合物的蛋白质数量)
      珊瑚酱1519(1687)332(565)
      复杂门户网站366(437)364(553)
      在珊瑚中受到监管
      状况癌症/正常Metastasis / Normal.2/0 h8/0 h16/0 h
      向上22821901033
      89139
      在ebi复杂门户中受到监管
      向上59521629
      115015
      图缩略图GR4.
      Fig. 4呼吸链复合物I(全酶)的可视化 腺癌数据集 使用ComplexBrowser; A,表示复杂组分的星形图及其转移和控制样品之间的变化;节点(圆圈)表示复合物的亚基;节点的大小表示折叠变化的程度;颜色表示调节类型(红色 - 下调,绿色上调,蓝色 - 不变化,灰色 - 未识别);厚边(线)表示差异调节的蛋白质; B,表达NADH-泛烯酮氧化还原酶链6(SWISSPROT:P03923)呼吸链复合物的亚基I显示癌症和转移组织的表达减少; C,在面板中呈现的呼吸链复合物的所有鉴定和量化亚基的表达谱 A,厚蓝线对应复杂表达; D,Pearson相关热图可视化对数转换的,平均归一化强度的呼吸链复合物的所有识别和量化的亚基的核发链复合体I A 在三个分析的条件下。 E,热图可视化对数转化的,平均归一化的三个分析条件中的呼吸链复合物的所有鉴定和量化亚基的常规强度; C1 - 正常,C2 - 癌症和C3 - 转移组织。
      表二基于Corum数据库的腺癌数据集中前5名和下调的蛋白质复合物; NQS - 量化亚基的数量; NUS - 独特亚基的数量; CFC在转移和对照样品之间进行/连续折叠变化; CFC癌症/续。 - 癌症和对照样品之间的复杂折叠变化
      复杂名称nqs / nusCFC符合/续。CFC癌症/续。
      RALBP1-CDC2-CCNB1复合物3/36.2497.420
      CDC2-CCNA2-CDK2复合物3/35.7596.031
      佩斯复合体3/35.0815.659
      DDX27-PEWOW复杂4/45.0175.614
      细胞周期激酶复合CDC23/64.4534.820
      GPR56-CD81-GALPHA(Q / 11)-GBETA复合物4/5−1.686−1.832
      ITGA5-ITGB3-COL6A3复杂3/3−1.522−2.788
      呼吸链复合物I(早期中间NDUFAF1组装),线粒体7/7−4.140−3.569
      细胞色素C氧化酶,线粒体13/14−3.020−4.188
      呼吸链复合物I(全酶),线粒体36/44−3.688−4.368
      在前5个受调节的复合物中,我们已经确定了与有丝分裂细胞周期进展和活化相关的3个复合物的过表达:RALBP1-CDC2-CCNB1复合物(7.420CFC),CDC2-CCNA2-CDK2复合物(6.031CFC)和细胞循环激酶复合CDC2( 4.820 CFC),有关详细信息,请参阅 表二补充表S4。这一点以增加细胞分裂和复制的激活,以及呼吸的减少,这是已知癌症的特征(
      • SOLAINI G.
      • SGARBI G.
      • Baracca A.
      癌细胞中的氧化磷酸化。
      ,
      • Casimiro M.C.
      • Crosariol M.
      • 洛罗E.
      • 李Z.
      • Pestell r.g.
      细胞周期和细胞周期控制在癌症和疾病中。
      )。
      除了先前描述的结果之外,复合体检测到在节点组织样品中涉及转移性肿瘤形成的MTA1复合物的3.58倍上调(
      • 姚明。
      • 杨下
      转移相关蛋白1和2形成具有组蛋白脱乙酰酶活性的不同蛋白质复合物。
      )。在主要肿瘤组织中相同的复合物在肿瘤组织中发生2.33倍, 补充表S4.

       小鼠T细胞的活化反映在蛋白质复合成分的协调变化中

      复合体用于分析鼠T细胞期间的蛋白质复合物。 DataSet由在激活后收集的4个连续时间点(0,2,8和16小时)组成。预计蛋白质复合物的协调变化的趋势将遵循激活事件的时间表,并将反映在CFC变化中。
      尽管T细胞数据集中存在的大量(8431)蛋白质,但复杂的分析分别在珊瑚和EBI复合物门户中鉴定了332和374个蛋白质复合物, 表二。这是最有可能的,因为这些数据库中存在少量的小鼠特异性蛋白质复合物。另外,用两个数据库鉴定的复合物非常不同,仅共享涉及的蛋白质的16%。
      尽管存在这些缺点,但两种数据库的使用确定了在T细胞激活的不同时间点上越来越大的复合物,反映了活性细胞蛋白质组的逐渐变化。例如,基于EBI复合物门户,在T细胞激活后,在8和16小时的时间点,7和34分别在2小时内显着调节2小时, 表二。在16小时后,最高5个最上调和前5个最下调的复合物的概要可以在T细胞活化后找到 表III.
      表III在基于珊瑚和EBI复合物数据库的激活后,T细胞实验中的前10位和下调的蛋白质复合物在激活后产生2小时和8小时,以进行比较以进行比较; NQS - 量化亚基的数量; NUS - 独特亚基的数量; CFC 2/0h,CFC 8/0 H和CFC 16/0 H-复杂倍数在激活和控制样品(0小时)后2,8和16小时之间的变化
      复杂名称nqs / nusCFC 2/0 H.CFC 8/0 H.CFC 16/0 H.
      珊瑚酱
      p19-cdk4-cyclind2复合物3/31.0743.1893.674
      Parvulin相关的预rRNP复合物49/62−1.0321.4402.810
      PCNA-DNA连接酶复合物4/41.1301.4362.197
      9S-细胞溶质芳基烃(AH)受体非配体活化复合物3/41.0471.3771.917
      BCL-XL-P53- PUMA复合物,DNA损伤诱导3/31.0521.4311.862
      G蛋白复合物(BTK,GNG2,GNB1)3/31.009−1.097−1.284
      STX7-UNC13D-VAMP8复合体3/3−1.086−1.144−1.33
      ITGAV-ITGB3-GSN复杂3/31.028−1.08−1.361
      CD3D-CD3G-CD3E-CD247复合物4/4−1.065−1.282−1.385
      CD3G-CD3E-CD247-CANX复合物4/4−1.097−1.280−1.414
      ebi复杂门户网站
      εDNA聚合酶复合物4/31.0241.3962.097
      核糖核苷 - 二磷酸还原酶RR1复合物,RRM2变体8/41.085−1.031.905
      B-WICH染色质改造复合物9/7−1.1041.2211.837
      MCRD-Poly(a) - 封面复合物5/5−1.1041.3051.77
      AP-1转录因子复杂FOS-JUN-NFATC23/31.942.251.701
      避难所复杂8/8−1.067−1.111−1.16
      rxralpha-raralpha-ncoa2视黄酸受体复合物4/31.027−1.033−1.175
      Smad3-Smad4复合物3/3−1.049−1.139−1.275
      Smarca3 - annexin a2 - s100-a10复合体6/6−1.016−1.162−1.275
      Ahnak - Annexin A2 - S100-A10复杂7/5−1.067−1.173−1.329
      最大的量化复合物是帕佛突相关的预rRNP复合物(珊瑚),其中62个亚基中的49个定量, Fig. 5A。其丰度高度相关(噪声= 0.001),并在实验时间过程中增加(分别在2,8和16小时后的-1.03,1.44,2.81CFC)。该蛋白质复合物参与核糖体生物发生并含有几个核糖体亚基(
      • Fujiyama S.
      • yanagida m.
      • 海安T.
      • Miura Y.
      • isobe t.
      • 富士岛F.
      • Uchida T.
      • Takahashi N.
      人剖视蛋白核糖核酸核蛋白复合物的分离和蛋白质组学特征。
      )。 BAT3复合物(EBI复合物门户),负责从核糖体朝向膜的含跨膜结构域的蛋白质的靶向,在最后一个条件下也调节(CFC 1.42), Fig. 5B,表明与蛋白质合成有关的过程的总体增加。
      图缩略图GR5.
      Fig. 5使用复合刷器在T细胞数据集中鉴定的所选蛋白质复合物的可视化。 插入包含表示复杂组件的星形图及其在T细胞分化期间的变化;节点(圆圈)表示复合物的亚基;节点的大小表示折叠变化的程度;颜色表示调节类型(红色 - 下调,绿色上调,蓝色 - 不变化,灰色 - 未识别);厚边(线)表示差异调节的蛋白质。图表是归一化的表达曲线可视化T细胞激活后2,8和16h在2,8和16h的表达式的表达,而复杂的表达用厚的蓝线示出。 C1,C2,C3和C4描绘了非刺激的T细胞(0H)和T细胞分别刺激2小时,8小时和16小时。 A,Parvulin相关的预rRNP复合物; B,BAT3复合物; C,AP-1转录因子复合FOS-JUN-NFATC2; C - CD3D-CD3G-CD3E-CD247复合物。
      来自Corum和Ebi复合物门户的组合数据显示激活后16小时诱导62个复合物,激活后8小时和16小时的大量增加大幅增加, 补充表S7和S8.
      发现P19-CDK4-Cyclind2(3.96CFC以后)和细胞周期蛋白D1相关(2.47CFC在16小时后)蛋白质复合物在激活后最上调的8和16小时。这两种复合物参与细胞周期的调节并通过G1相转变,并且它们的协调上调将T细胞转变为增殖状态。这些变化伴随着各种DNA聚合酶复合物表达的增加 例如 DNA合成(1.49CFC以后16小时后),DNA聚合酶α,δ和ε和ε-16小时后的1.45,1.25,2.09CFC)和端粒酶全酶复合物(16小时后1.40CFC)指向与DNA相关的方法的增加复制和细胞增殖。
      AP-1转录因子复合FOS-JUN-NFATC2(CORUM)(CFC 1.87在2小时,2.13,在10小时,1.62,16h)是对刺激的高度协调的早期反应的复合物的一个例子, Fig. 5C。棕褐色还报道了AP-1复合物中的类似模式 等等。 (
      • tan h.y.
      • 杨克。
      • 李y.x.
      • shaw t.i.
      • 王Y.Y.
      • 布兰科D.B.
      • 王X.S.
      • 町J.H.
      • 王H.
      • Rankin S.
      • GUY C.
      • 彭准。
      • Chi H.B.
      综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
      )。
      在CD3D-CD3G-CD3E-CD247复合物(1.07,-1.2,-1.36CFC)的表达中发现了下调的趋势,是作为T细胞共同受体的一部分的膜糖蛋白组件, Fig. 5D,在T细胞激活期间关闭(
      • tan h.y.
      • 杨克。
      • 李y.x.
      • shaw t.i.
      • 王Y.Y.
      • 布兰科D.B.
      • 王X.S.
      • 町J.H.
      • 王H.
      • Rankin S.
      • GUY C.
      • 彭准。
      • Chi H.B.
      综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
      )。
      此外,我们鉴定了各种综合性涉及组蛋白和染色质重塑的翻译后修饰,其中大多数显示出在8和16小时的T细胞活化时表达增加, 表IV.。在原始研究中,这些复合物和表观遗传过程的调节在T细胞的成熟中已经很大程度上被忽视。通过翻译后修饰和染色质重塑进行转录的调节需要它们在这种情况下未完成的定量。需要进行广泛的后续分析来解释这些结果。
      表IV.染色质重塑和组蛋白修饰在活化后16小时内鉴定在T细胞中的相关蛋白质复合物; NQS - 量化亚基的数量; NUS - 独特亚基的数量; CFC 2/0H,CFC 8/0 H,CFC 16/0 H-复杂倍数在激活和控制样品(0小时)后2,8和16小时之间变化
      复杂名称nqs / nusCFC 2/0 H.CFC 8/0 H.CFC 16/0 H.
      B-WICH染色质改造复合物9/7−1.1041.2211.837
      甲基化体3/31.0161.1851.689
      染色质组装因子1复合物3/31.03−1.0311.635
      Chrac染色质改造复合物4/4−1.0321.1381.52
      Enosc复杂3/3−1.0751.0461.371
      BAT3 Complex3/31.0091.0911.36
      Nua4组氨酸乙酰转移酶复合物19/19−1.0021.1081.321
      PPP4C-PPP4R2-PPP4R3B蛋白磷酸酶4复合物3/31.0581.151.268
      MBD3 / NURD核心重塑和脱乙酰酶复合物12/12−1.1351.041.261
      SRCAP组蛋白交换复合体9/8−1.0011.0731.252
      在里面 T细胞 DataSet ComplexBrowser分析鉴定了DNA复制和染色质重塑,蛋白质合成起始和细胞周期进展中涉及的上调复合物,这使我们得出结论,T细胞在刺激后经历显着的细胞重编程并在刺激后离开静止状态8至16小时。此外,从实验的第一次点开始,T细胞信号传导受体表达的降低。

      讨论

      他们的知识是我们所知的第一种自动化工具,可以在蛋白质组学实验中进行蛋白质复合物的定量分析。它可通过Web浏览器获得,不需要任何安装或编程体验。因此,它具有高潜力,以集成到科学界常用的数据分析工作流程中。
      基于本手稿中分析的数据集,我们已经表明它与标签免费和基于TMT的定量实验兼容。并且没有技术限制,防止其与任何其他基于MS的蛋白质定量方法甚至基因表达数据一起使用。 ComplexBrowser可以处理具有超过8000种量化蛋白质的大蛋白质组学研究,并且能够在1分钟内显示总结结果。交互式可视化提供了一种直观的探索性分析和数据解释工具,使用户能够调查整个复合物的行为以及单个亚基。
      CFC有效地有助于以同步方式发现在表达式中改变的复合物,并且是复杂行为的量度。使用软件中实现的广泛可视化工具,还可以容易地识别出不连贯的趋势的亚基。
      在两个测试数据集中,复合物识别已知在癌症中和T细胞活化中被调节的关键蛋白质复合物。蛋白质复合物询问的生物解释与基于原始研究中的Go-Annotations绘制的结论同意。该工具还根据在分析中之前未考虑的注释蛋白质复合物的调查增加了新的见解。
      在复杂讲板中呈现的方法的新颖性是,与GO注释和富集分析复合物识别来自手动策划数据库的蛋白质复合物的组分 例如 Corum,Complex Portal或用户定义的复合体列表。一个完全新的功能,不适用于任何其他软件,促进蛋白质组学数据的定量分析是快速农场算法的应用(
      • Perez-Alvarez S.
      • 戈麦斯G.
      • 兰德德C.
      农场:一种用于变量选择的新算法。
      )为了提供复杂组分的变化的定量测量,以CFC因子的形式和评估噪声形式的复杂亚基的协调表达。因此,复杂讲机提供了一种互补方法,例如串或转向富集工具。更多的研究,包括在复杂的枪车中需要分析不同的生物扰动,以获得其实用程序的完整图像。
      ComplexBrowser依赖于存储在Corum中的信息(
      • Ruepp A.
      • Waegele B.
      • Lechner M.
      • 祝福尔B.
      • Dunger-Kaltenbach I.
      • Fobo G.
      • 弗里什曼G.
      • 蒙特隆C.
      • Mewes H.W.
      珊瑚:哺乳动物蛋白质复合物的综合资源-2009。
      )和复杂的门户网站数据库(
      • 莫尔平板
      • Forner-Martinez O.
      • Costanzo M.C.
      • 达娜J.
      • demeter J.
      • 杜马斯米
      • 德怀特S.S.
      • Gaulton A.
      • Licata L.
      • Melidoni A.N.
      • Ricard-Blum S.
      • Roechert B.
      • Skyzypek M.S.
      • Tiwari M.
      • Velankar S.
      • 黄娥。
      • Hermjakob H.
      • 果园S.
      复杂的门静脉 - 大分子复合物的一兆皮。
      因此,因此取决于他们的管理人员的努力。这些资源的组成在分析中引入了偏差,因为两种数据库中描述的最大比例的复合物是人类来源的(66.36%的哥伦士冠军和25.79%的复杂门户网站)。因此,目前,复杂讲器最适合分析人类蛋白质。在比较发现腺癌(人)和T细胞(鼠标)数据集的蛋白质数量的蛋白质数量时可见,这是可见的 表I.。此外,数据库包含未完全注释的条目。数据库的进一步发展将改善软件提供的结果。

      数据可用性

      源代码可以从以下命令下载: //bitbucket.org/michalakw/complexbrowser.

      致谢

      我们感谢OLE N. Jensen和Lauren Elizabeth Smith为项目和稿件进行了批判性评论。

      补充材料

      参考

        • Bekker -Jensen D.B.
        • Kelstrup C.D.
        • Batth T.S.
        • Larsen S.C.
        • 脱落C.
        • Bramsen J.B.
        • SørensenK.D.
        • Høyers.
        • Ørntoftt.f.
        • 安德森C.L.
        • Nielsen M.L.
        • 奥尔森J.V.
        综合人类蛋白质群快速产生的优化霰弹枪战略。
        细胞系统。 2017; 4: 587-599.E584
        • Kelstrup C.D.
        • Bekker -Jensen D.B.
        • arrey t.n.
        • 何格尔贝阿
        • 更难A.
        • 奥尔森J.V.
        昆育蛋白质组学Q辐射HF-X的性能评价。
        J.蛋白质组。 2018; 17: 727-738
        • ashburner m.
        • 球C.A.
        • 布莱克J.A.
        • Botstein D.
        • 巴特勒H.
        • 樱桃准晚
        • 戴维斯A.P.
        • Dolinski K.
        • 德怀特S.S.
        • EPPIG J.T.
        • 哈里斯M.A.
        • 山D.P.
        • ISSEL-TARVER L.
        • Kasarskis A.
        • 刘易斯S.
        • Matese J.C.
        • Richardson J.E.
        • Ringwald M.
        • 鲁宾上午
        • Sherlock G.
        基因本体:生物学统一的工具。基因本体组织。
        NAT。遗传。 2000; 25: 25-29
      1. 基因本体,C.(2017)扩增基因本体学知识库和资源。核酸RES。 45,D331-D338。

        • 伊甸园E.
        • Navon R.
        • Steinfeld I.
        • Lipson D.
        • Yakhini Z.
        大猩猩:在排名基因列表中发现和可视化富集的GO术语的工具。
        BMC生物信息学。 2009; 10: 48
        • 克拉默A.
        • 绿色J.
        • Pollard Jr,J.
        • Tugendreich S.
        思想途径分析中的因果分析方法。
        生物信息学。 2014; 30: 523-530
        • ogata H.
        • goto s.
        • 佐藤K.
        • 富士井W.
        • Bono H.
        • Kanehisa M.
        Kegg:Kyoto Encyclopedia的基因和基因组。
        核酸RES。 1999; 27: 29-34
        • Fabregat A.
        • Sidiropoulos K.
        • Garapati P.
        • Gillespie M.
        • Hausmann K.
        • haw
        • 亚马尔B.
        • 茱满
        • Korninger F.
        • McKay S.
        • 马修斯L.
        • 可能。
        • 米拉尼亚米
        • rothfels k。
        • Shamovsky V.
        • 韦伯M.
        • Weiser J.
        • 威廉姆斯米
        • 吴G.
        • Stein L.
        • Hermjakob H.
        • d'eustachio p.
        反应途径知识库。
        核酸RES。 2016; 44: D481-D487
        • Rhee S.Y.
        • 木头V.
        • Dolinski K.
        • Draghici S.
        使用和滥用基因本体注释。
        NAT。 Rev. Genet。 2008; 9: 509-515
        • 施密特A.
        • 芬恩I.
        • imhof A.
        蛋白质组学数据的生物信息分析。
        BMC系统。 BIOL。 2014; 8: S3
        • Szklarczyk D.
        • 莫里斯J.H.
        • 煮熟
        • Kuhn M.
        • 蜡厂
        • Simonovic M.
        • Santos A.
        • Doncheva N.T.
        • 罗斯A.
        • Bork P.
        • Jensen L.J.
        • von mering c.
        2017年的字符串数据库:质量控制的蛋白质 - 蛋白质关联网络,广泛访问。
        核酸RES。 2017; 45: D362-D368
        • 大卫啊
        • 拉扎利R.
        • WASS M.N.
        • 斯得斯伯格M.J.
        蛋白质 - 蛋白质相互作用位点是疾病相关的非型SNP的热点。
        哼。 mutat。 2012; 33: 359-363
        • ori a。
        • Iskar M.
        • Buczak K.
        • Kastritis P.
        • Parca L.
        • Andres-Pons A.
        • 歌手S.
        • Bork P.
        • 贝克米
        哺乳动物蛋白质复合体化学素的时空变异。
        基因组Biol。 2016; 17: 47
        • 大型师E.
        • 肉体A.
        • 加西亚 - 阿隆索L.
        • 克莱默T.
        • SAEZ-RODRIGUEZ J.
        • Beltrao P.
        癌症基因组拷贝数变异的广泛转录后转录衰减。
        细胞系统。 2017; 5386-398.E384
        • Chalabi M.H.
        • Tsiamis V.
        • KällL.
        • 瓦德林F.
        • SchwämmleV.
        CoExpresso:评估人细胞中蛋白质复合物的定量行为。
        BMC生物信息学。 2019; 20: 17
        • Ruepp A.
        • Waegele B.
        • Lechner M.
        • 祝福尔B.
        • Dunger-Kaltenbach I.
        • Fobo G.
        • 弗里什曼G.
        • 蒙特隆C.
        • Mewes H.W.
        珊瑚:哺乳动物蛋白质复合物的综合资源-2009。
        核酸RES。 2010; 38: D497-D501.
        • 莫尔平板
        • Forner-Martinez O.
        • Costanzo M.C.
        • 达娜J.
        • demeter J.
        • 杜马斯米
        • 德怀特S.S.
        • Gaulton A.
        • Licata L.
        • Melidoni A.N.
        • Ricard-Blum S.
        • Roechert B.
        • Skyzypek M.S.
        • Tiwari M.
        • Velankar S.
        • 黄娥。
        • Hermjakob H.
        • 果园S.
        复杂的门静脉 - 大分子复合物的一兆皮。
        核酸RES。 2015; 43: D479-D484
      2. Uniprot,C.(2017)Uniprot:通用蛋白质知识库。核酸RES。 45,D158-D169。

        • Cox J.
        • 嘿m.y.
        • Luber C.a.
        • Paron I.
        • Nagaraj N.
        通过延迟标准化和最大肽比例提取的精确的蛋白质组无标记量化,称为MAXLFQ。
        摩尔。细胞蛋白质组学。 2014; 13: 2513-2526
        • rauniyar n。
        • YALES 3RD。,J.R.
        霰弹枪蛋白质组学中基于异的标记的相对量化。
        J.蛋白质组。 2014; 13: 5293-5309
        • 里奇M.E.
        • Phipson B.
        • 吴D.
        • 胡Y.
        • 法律C.W.
        • 施W.
        • Smyth G.K.
        LiMMA为RNA测序和微阵列研究进行差异表达分析。
        核酸RES。 2015; 43: e47
        • Storey J.D.
        一种直接的虚假发现率的方法。
        J. Roy。统计。 SOC。 B. 2002; 64: 479-498
        • Chawade A.
        • Alexandersson E.
        • Levander F.
        Armaralyzer:一种用于迅速评估OMICS数据集的标准化方法的工具。
        J.蛋白质组。 2014; 13: 3114-3120
        • Hochreiter S.
        • 聪明D.A.
        • obermayer k。
        Affymetrix探针级数据的新摘要方法。
        生物信息学。 2006; 22: 943-949
        • 张B.
        • Pirmoradian M.
        • Zubarev R.
        • Kall L.
        肽丰收的共变量精确地反映蛋白质浓度差异。
        摩尔。细胞蛋白质组学。 2017; 16: 936-948
        • Rogowska-wrzesinska A.
        • Wrzesinski K.
        • Fey S.J.
        异标评分使用内部标准来评估蛋白质组学数据的质量。
        蛋白质组学。 2014; 14: 1042-1047
        • Boggs P.T.
        • Spiegelman C.H.
        • Donaldson J.R.
        • Schnabel R.B.
        对正交距离回归的计算检查。
        J.Ouformetics。 1988; 38: 169-201
        • tan h.y.
        • 杨克。
        • 李y.x.
        • shaw t.i.
        • 王Y.Y.
        • 布兰科D.B.
        • 王X.S.
        • 町J.H.
        • 王H.
        • Rankin S.
        • GUY C.
        • 彭准。
        • Chi H.B.
        综合蛋白质组学和磷蛋白质分析揭示了动态信号网络和生物共生途径潜在的T细胞活化。
        免疫。 2017; 46: 488-503
        • wisniewski J.R.
        • ostasiewicz p.
        • DUS K.
        • Zielinska d.f.
        • GNAD F.
        正常结肠组织与腺癌之间蛋白质组的广泛定量重塑。
        摩尔。系统。 BIOL。 2012; 8: 611
        • Perez-Riverol Y.
        • Csordas A.
        • 白j.
        • Bernal-Llinares M.
        • 赫瓦帕·纳拉纳S.
        • kundu d.j.
        • Inuganti A.
        • 怜悯J.
        • Mayer G.
        • 艾森凯母线
        • 佩雷斯E.
        • Uszkoreit J.
        • Pfreuffer J.
        • Sachsenberg T.
        • 伊利马萨斯。
        • Tiwary S.
        • Cox J.
        • 宣传E.
        • Walzer M.
        • Jarnuczak a.f.
        • Ternent T.
        • Brazma A.
        • VizCaino J.A.
        2019年的自豪数据库和相关工具和资源:提高对量化数据的支持。
        核酸RES。 2019; 47: D442-D450.
      3. 团队,R. C.,(2018)R:统计计算的语言和环境。 R基金会统计计算,维也纳,奥地利。

        • SOLAINI G.
        • SGARBI G.
        • Baracca A.
        癌细胞中的氧化磷酸化。
        BBA-Bioenergetics。 2011; 1807: 534-542
        • Casimiro M.C.
        • Crosariol M.
        • 洛罗E.
        • 李Z.
        • Pestell r.g.
        细胞周期和细胞周期控制在癌症和疾病中。
        基因癌症。 2012; 3: 649-657
        • 姚明。
        • 杨下
        转移相关蛋白1和2形成具有组蛋白脱乙酰酶活性的不同蛋白质复合物。
        J. Biol。化学。 2003; 278: 42560-42568
        • Fujiyama S.
        • yanagida m.
        • 海安T.
        • Miura Y.
        • isobe t.
        • 富士岛F.
        • Uchida T.
        • Takahashi N.
        人剖视蛋白核糖核酸核蛋白复合物的分离和蛋白质组学特征。
        J. Biol。化学。 2002; 277: 23773-23780
        • Perez-Alvarez S.
        • 戈麦斯G.
        • 兰德德C.
        农场:一种用于变量选择的新算法。
        生物化。 res。 int。 2015; 2015: 319797