广告

肽丰富的协变度精确反映彩易福彩浓度差异*

  • 博张
    隶属关系
    从医学生物化学和生物物理学系,Karolinska Institutet,ScheelesVäg2,SE-17177 SOLNA,瑞典;
    搜索本作者的文章
  • 穆罕默德·皮尔戈拉尼亚
    隶属关系
    从医学生物化学和生物物理学系,Karolinska Institutet,ScheelesVäg2,SE-17177 SOLNA,瑞典;

    实验室医学系,Karolinska大学医院Huddinge,Se-14186 Huddene,瑞典;
    搜索本作者的文章
  • 罗马Zubarev.
    一致
    应当解决谁的通信:肯王莹,皇家理工学院,生物技术学院的生命实验室科学,瑞典的盒子1031,171 65 Solna。电话:++46-76-9425179;传真:46-8-999999;
    隶属关系
    从医学生物化学和生物物理学系,Karolinska Institutet,ScheelesVäg2,SE-17177 SOLNA,瑞典;
    搜索本作者的文章
  • 卢卡斯凯尔斯
    一致
    应当解决谁的通信:肯王莹,皇家理工学院,生物技术学院的生命实验室科学,瑞典的盒子1031,171 65 Solna。电话:++46-76-9425179;传真:46-8-999999;
    隶属关系
    科学生命实验室,生物技术学院,皇家理工学院 - 瑞典皇家科技局 - 17165索尔纳
    搜索本作者的文章
  • 作者脚注
    *该研究得到了KUT和ALICE WALLENBERG基金会(Grant Kaw 2010.0022至R.Z.)的支持。我们宣布没有竞争的金融利益。
    本文含有补充材料。
      大多数基于质谱的彩易福彩组学的实施涉及酶促消化彩易福彩,将分析扩展到每种彩易福彩的多个蛋白水解肽。目前,如何总结肽的共识'对彩易福彩浓度的丰富,并且这种努力使得误差控制通常适用于识别过程,并且不直接控制将肽丰度措施连接到彩易福彩浓度的误差。由次优消化或部分修饰产生的肽不是代表彩易福彩浓度的代表性。没有一种方法去除这种优势肽,它们的丰度对其彩易福彩的估计产生不利影响'S浓度。在这里,我们提出了一种相对量化的方法,DIFFRO,适用因子分析提取肽的变焦'丰富的。该方法使得能够加权几何平均概括和自动消除不连贯的肽。我们基于使用彩易福彩的标准混合物的一组无控制的标记实验证明,通过因子分析提取的调节结构精确地反映彩易福彩浓度。在1%肽谱匹配水平FDR数据集中,多达11%的肽具有丰富的差异,与归因于相同彩易福彩的其他肽。如果不控制,这种矛盾的肽丰度对彩易福彩量化具有严重影响。添加每种彩易福彩的量'S三种最丰富的肽,我们注意到多达14%的彩易福彩被估计与样品之间的实际浓度差异的负相关。 DIFFFOF将如此明显错误定量的彩易福彩的量降低至1.6%。此外,通过分析来自两个乳腺癌研究的临床数据集,我们的方法揭示了与乳腺癌三个亚型相关的持续彩易福彩组学签名。我们得出结论,Diffacto可以促进解释和增强大多数类型的彩易福彩组学数据的效用。
      基于质谱的彩易福彩组学是复杂生物混合物中彩易福彩的定量和综合分析的优选技术(
      • ong s.e.
      基于质谱的彩易福彩组学转变定量。
      )。因为典型的实验涉及蛋白水解消化,所以通过液相色谱 - 串联质谱(LC-MS / MS)测量的实际分析物
      所用的缩写是:LC-MS / MS,液相色谱偶联至串联质谱; ANOVA,方差分析; CV,变异系数; CPTAC,临床彩易福彩组学肿瘤分析联盟; DDA,数据依赖性采集; ERPR,雌激素或孕酮受体;农场,鲁棒微阵列摘要的因子分析; FDR,虚假发现率; FQR,假量化率; HER2,人体表皮生长因子受体2; ITRAQ,相对定量的ISObaric标签; LFQ,无标签量化; LOQ,量化限制; MC,Monte Carlo方法; FDR马克,基于顺序蒙特卡罗模拟的虚假发现率; MPIB,MAX Planck生物化学​​研究所; PECA,探测水平表达变化平均; PQPQ,彩易福彩通过肽质量控制量化; PSM,肽光谱匹配; RT,保留时间; SILAC,细胞培养中的氨基酸稳定同位素标记; S / N,信噪比; SPC,光谱计数; TN,三重阴性; XIC,提取离子色谱。
      1所用的缩写是:LC-MS / MS,液相色谱偶联至串联质谱; ANOVA,方差分析; CV,变异系数; CPTAC,临床彩易福彩组学肿瘤分析联盟; DDA,数据依赖性采集; ERPR,雌激素或孕酮受体;农场,鲁棒微阵列摘要的因子分析; FDR,虚假发现率; FQR,假量化率; HER2,人体表皮生长因子受体2; ITRAQ,相对定量的ISObaric标签; LFQ,无标签量化; LOQ,量化限制; MC,Monte Carlo方法; FDR马克,基于顺序蒙特卡罗模拟的虚假发现率; MPIB,MAX Planck生物化学​​研究所; PECA,探测水平表达变化平均; PQPQ,彩易福彩通过肽质量控制量化; PSM,肽光谱匹配; RT,保留时间; SILAC,细胞培养中的氨基酸稳定同位素标记; S / N,信噪比; SPC,光谱计数; TN,三重阴性; XIC,提取离子色谱。
      是分析的彩易福彩的蛋白水解肽。在消化之前推断出在原始混合物中存在的彩易福彩的身份是有问题的,特别是当彩易福彩是同源物时。通过提高测量肽分子和片段离子的质量准确度来解决这不能解决(
      • Zubarev R.A.
      • 哈基森P.
      • Sundqvist B.
      肽的准确单同话题质量测量:高分辨率飞行时间粒子解吸质谱法的可能性和限制。
      )。目前,没有关于如何执行此类彩易福彩推理的达成共识(
      • Senang O.
      • 贵族W.
      串联质谱法综述彩易福彩鉴定统计方法。
      ,
      • Savitski m.m.
      • Wilhelm M.
      • Hahne H.
      • Kuster B.
      • Bantscheff M.
      大彩易福彩组学集中的彩易福彩假发现速率估计的可扩展方法。
      ,
      • 宁Z.
      • 张X.
      • Mayne J.
      • FIGEYS D.
      以肽为中心的方法提供了重新检查定量彩易福彩组学数据的替代方面。
      )。
      当估计来自多重肽的多测量的相对彩易福彩浓度时出现进一步的并发症。常见的假设是肽丰度与它们的源蛋白浓度成比例(
      • Walther T.C.
      基于质谱的细胞生物学彩易福彩组学。
      )。因此,常见的做法是通过其组成肽丰富的平均值或聚集体估计彩易福彩的浓度(
      • Ishihama Y.
      • 奥达Y.
      • Tabata T.
      • 撒托T.
      • nagasu t.
      • Rappsilber J.
      指数改性彩易福彩丰度指数(EMPAA),用于通过每种彩易福彩的测序肽数估计彩易福彩组学中的绝对彩易福彩量。
      ,
      • Silva J.C.
      • Gorenstein M.v.
      • 李G.Z.
      • vissers J.P.
      • Geromanos S.J.
      LCMSE绝对定量彩易福彩:平行MS采集的德形。
      ,
      • 格里芬N.M.
      • yu J.
      • 长f。
      • 岸边S.
      • 李Y.
      • Koziol J.A.
      • 斯科尼策J.E.
      无标记,标准化的复合质谱数据进行彩易福彩组学分析的量化。
      )。从理论上讲,从单个彩易福彩中获得的肽混合物是等摩尔的;然而,实际上,测量的肽丰富量跨越几个数量级。此外,许多因素可以违反比例的假设。例如,个体肽可能受到酶促切割不足或效率低密度;落在仪器的检测范围之外;携带意外的序列变体和修改;与来自其他彩易福彩的肽分享序列;或者可能无法在一些实验中衡量(
      • Bantscheff M.
      • Lemeer S.
      • Savitski m.m.
      • Kuster B.
      彩易福彩组学中的定量质谱:2007年至今的批判性评论更新。
      )。因此,对于许多彩易福彩,组分肽的定量数据是不完全的,有时是不连贯的。要解决这个问题,一些研究提出了采用强大统计方法的先进算法(
      • 克劳T.
      • Thaminy S.
      • ragg s.
      • Aeberberold R.
      • Vitek O.
      复杂设计的无标记LC-MS实验中的统计彩易福彩定量和显着分析。
      ,
      • Cox J.
      • 嘿m.y.
      • Luber C.A.
      • Paron I.
      • Nagaraj N.
      通过延迟标准化和最大肽比例提取的精确的彩易福彩组无标记量化,称为MAXLFQ。
      ,
      • 崔m.
      • chang c.y.
      • 克劳T.
      • Broudy D.
      • Killeen T.
      • 麦克莱恩B.
      • Vitek O.
      MSSTATS:用于定量质谱型彩易福彩组学实验统计分析的R包。
      )或进行肽为中心的分析以避免推理问题(
      • 宁Z.
      • 张X.
      • Mayne J.
      • FIGEYS D.
      以肽为中心的方法提供了重新检查定量彩易福彩组学数据的替代方面。
      ,
      • 婷婷。
      • Egertson J.D.
      • Payne S.H.
      • 金斯。
      • 麦克莱恩B.
      • KällL.
      • Aeberberold R.
      • 史密斯r.d.
      • 贵族W.S.
      • maccoss m.j.
      以肽为中心的彩易福彩组分析:分析串联质谱数据的替代策略。
      ,
      • Suomi T.
      • Corthals G.L.
      • 涅瓦莱根O.S.
      • elo l.l.
      使用肽水平彩易福彩组学数据来检测差异表达彩易福彩。
      )。
      尽管如此,大多数传统方法都不会利用在不同条件下测量的肽丰度的协变量。通过对与来自同一彩易福彩的其他肽具有更强的相变的肽来说,可以更好地利用比例原理。利用关于协变的这种信息,已显示其他方法来提高彩易福彩推论和信号集成的有效性(
      • Webb-Robertson B.J.
      • matzke m.m.
      • Datta S.
      • Payne S.H.
      • 康J.
      • 布拉姆L.M.
      • Nicora C.D.
      • Shukla A.K.
      • Metz T.O.
      • 罗德兰K.D.
      • 史密斯r.d.
      • Tardiff M.F.
      • McDermott J.E.
      • 磅数J.G.
      • 水壶
      贝叶斯彩易福彩模型改善了全球彩易福彩组学测量的彩易福彩量化。
      ,
      • lukasse p.n.j.
      • 美国A.H.P.
      使用肽量化模式的彩易福彩推断。
      ,
      • goeminne l.j.
      • Gevaert K.
      • Clement L.
      肽级鲁棒脊回归提高了数据依赖性定量标记霰弹枪彩易福彩组学中的估算,敏感性和特异性。
      )或为选择肽进行定量分析(
      • 伪装J.
      • 约翰逊H.J.
      • Pernemalm M.
      • Branca r.m.
      • Sandberg A.
      • Lehtio J.
      通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
      ,
      • 朱y
      • Hultin-Rosenberg L.
      • 伪装J.
      • Branca r.m.
      • 奥尔l.m.
      • Lehtio J.
      SpliceVista,霰弹枪彩易福彩组学数据的剪接变体识别和可视化工具。
      )。然而,这些方法在对特定量化技术的依赖性方面具有缺点或处理缺失值的难度;并且在总结每个单独的LC-MS / MS实验时通常错误地将所有肽视为独立变量。
      在彩易福彩组学中遇到的,肽信号集成的问题实际上是转录组织中的类似物。特别是,在基因表达微阵列中,感兴趣的生物分子是完整的转录物,而该技术衡量转录物的多个部分, IE。 probes (
      • 克劳T.
      • Thaminy S.
      • ragg s.
      • Aeberberold R.
      • Vitek O.
      复杂设计的无标记LC-MS实验中的统计彩易福彩定量和显着分析。
      ,
      • 洛克哈特D.J.
      • 董河
      • Byrne M.C.
      • Follettie M.T.
      • Gallo M.V.
      • Chee M.S.
      • Mittmann M.
      • 王C.
      • Kobayashi M.
      • Horton H.
      • 棕色E.L.
      用杂交对高密度寡核苷酸阵列的表达监测。
      ,
      • Pavelka N.
      • 四分之四的M.L.
      • Swanson S.K.
      • Pelizzola M.
      • Ricciardi-Castagnoli P.
      • Florens L.
      • Washburn M.P.
      转录组织与定量霰弹枪彩易福彩组学数据之间的统计相似性。
      )。 LC-MS / MS的最近技术进步使彩易福彩组学纳入其彩易福彩组覆盖与微阵列相当的状态(
      • Walther T.C.
      基于质谱的细胞生物学彩易福彩组学。
      ,
      • Cox J.
      素传是新的基因组学?
      ,
      • Pirmoradian M.
      • Budamgunta H.
      • Chingin K.
      • 张B.
      • 阿斯托加井J.
      • Zubarev R.A.
      单维霰弹枪彩易福彩组学的快速和深层人类彩易福彩组分析。
      )。虽然微阵列实验中所选择的探针可能表现出不同的亲和力和基因组的特异性(
      • 吴Z.J.
      • Irtizarry R.A.
      • 绅士R.
      • Martinez-Murillo F.
      • 斯宾塞F.
      寡核苷酸表达阵列的基于模型的背景调整。
      ),目标成绩单的真实性很少受到质疑。然后,人们可以询问为什么对每个靶蛋白的多次测量的原因彩易福彩组学需要每种报告肽唯一唯一地归因于源蛋白,并且由MS / MS正确鉴定,优选在每个样品中。这种严格的要求可能提供虚假的安全感,因为很容易相信正确的识别非常适合量化。然而,肽鉴定和量化之间的实际关系可能非常逆转:如我们以前的研究中发现(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      ),表征良好的色谱特征具有更好的机会与正确的肽标识相关。在任何情况下,肽身份和肽数量之间的错误关联率尚未完全调查,并且通常完全忽略这个问题。随着彩易福彩组学研究中的样本尺寸的增加,假量化的影响可能会聚集成不可止血分魄的数量,这可能影响研究结果。
      幸运的是,在微阵列分析数十年中,在微阵列分析中彻底调整了多个记者将多个记者聚集成单个读数的问题,并且已经开发了一组特征的程序(
      • 吴Z.J.
      • Irtizarry R.A.
      • 绅士R.
      • Martinez-Murillo F.
      • 斯宾塞F.
      寡核苷酸表达阵列的基于模型的背景调整。
      ,
      • Smyth G.K.
      • michaud J.
      • 斯科特H.S.
      用于评估微阵列实验中的差异表达的阵列内复制斑点的使用。
      ,
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      )。我们认为,微阵列分析的那些艰难的见解也可以应用于彩易福彩组学,以提高其量化精度。特别是,我们提出了一种差异分析方法,我们称之为diffacto。一种受欢迎的贝叶斯因子分析算法(
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      ,
      • 塔卢恩W.
      • 聪明D.A.
      • Hochreiter S.
      • Amaratunga D.
      • Bijnens L.
      • 卡斯S.
      • Gohlmann H.W.
      I / NI呼叫排除非信息基因:用于微阵列数据的高效过滤工具。
      )已以这种方法实施,以处理非连锁人的报告行为。因子分析通过利用多个关于暂定与显性彩易福彩组合的相关肽的丰富的丰度对多个实验的调节来提取差分信号。
      与流行的主成分分析相反,因子分析致力于解释可观察到之间的协方差而不是可观察到的方差,因为后者主要由随机噪声引起。在这方面,因子分析明确地假设存在噪声,因此比原理分析更详细。信号(因子)表示从多个条件的测量的相关性提取的彩易福彩浓度变化。然后估计归因于单一彩易福彩的每组肽的信噪比(S / N),以确定该组是否是信息性的,或者太矛盾以可靠地量化。肽的信息群体仍可含有不连贯的肽,其信号与其他肽的信号矛盾。在估计彩易福彩浓度的相对差异作为肽的丰度差异的加权几何平均值之前,从该组中除去这些肽。通过消除无关基团和不连贯的肽数据,DIFFROCO降低了噪声,同时保持定量信号在很大程度上完好无损,从而允许一个从相同的彩易福彩组学数据集中提取更多有用的生物信息。我们证明DIFFRO是一种稳健,灵敏和灵活的差分彩易福彩组学分析方法,适用于以定量为中心的彩易福彩组学(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      )。

      实验步骤

       无标签LC-MS / MS的实验设置

      Arbitrap Q-Exactive Plus质谱仪连接到超高性能LC系统(由Easy-NLC 1000泵驱动的50厘米易喷雾柱),所有由Thermo Fisher Scientific(Bremen,Germany)生产的仪器。将每个样品注入三次并用80分钟的LC梯度进行单次实验分析,其中主要全范围(m/z 375至1400℃)以高分辨率(140,000)获得MS光谱。在每个主要MS频谱之后,在收缩中获取一个次要的MS频谱(分辨率17,500) m/z 范围(375-481,479-601,或599-1400),用于触发数据依赖的采集(Top-10 DDA,动态排除15 S)的串联质谱(第17,500分)。这种分段的DDA方法(
      • 文森特C.E.
      • Potts G.K.
      • Ulbrich A.
      • Westphall M.S.
      • 阿特伍德3号,J.A.
      • Coon J.J.
      • 天气D.B.
      使用“平铺”方法的前体质量范围的分割增加了基于MS1的无标记量化的肽鉴定。
      )最小化三个LC-MS / MS之间的MS / MS光谱的冗余。通过复用Cofragmenting肽的MS / MS光谱来增加肽鉴定效率(
      • 张B.
      • Pirmoradian M.
      • Chernobrovkin A.
      • Zubarev R.A.
      DEMIX工作流程,以便在高分辨率数据依赖性串联质谱中有效鉴定Cofragmented Peptides。
      ),三个运行中的前体隔离窗口分别设定为2.0,4.0和6.0 th;对于更高能量碰撞解离(HCD)的归一化碰撞能量(NCE)分别设定为29eV,30eV和31eV。窗口宽度和能量的选择是基于关于最佳仪器设置的经验知识(
      • Pirmoradian M.
      • Budamgunta H.
      • Chingin K.
      • 张B.
      • 阿斯托加井J.
      • Zubarev R.A.
      单维霰弹枪彩易福彩组学的快速和深层人类彩易福彩组分析。
      ),并考虑相应的前体密度 m/z ranges.

       标准混合基准数据集和无标签数据处理

      人细胞裂解物,酵母细胞裂解物和牛血清白蛋白(BSA)的标准摘要(从Promega,麦迪逊,Wi)以20种不同的比例混合(补充表S1)。人肽的比例线性降低,而BSA肽的级分呈指数增加,并且酵母肽的份额增加非线性,使得所有样品的肽的总量相等。在每个样品中,将5.0μg的肽混合物溶于30μl溶液中,其中在LC-MS / MS实验中注射6μL三次(IE。 每次注射1.0μg肽)。原始和转换数据被夸大(MSV000079811)和ProteomeXchange(PXD004308)。

       肽鉴定

      我们使用DEMIX工作流程识别肽(
      • 张B.
      • Pirmoradian M.
      • Chernobrovkin A.
      • Zubarev R.A.
      DEMIX工作流程,以便在高分辨率数据依赖性串联质谱中有效鉴定Cofragmented Peptides。
      ),其中通过使用Openms FeatherFinderCentroided(Ver.2.0)使用使用全范围(测量)MS Spectra生成的色谱特征映射,通过匹配隔离窗口来解除MS / MS光谱。
      • Kohlbacher O.
      • Reinert K.
      • 格拉普C.
      • Lange E.
      • pfeifer n。
      • Schulz-Trieglacaff O.
      • STURM M.
      TOPP- OpenMS彩易福彩组学管道。
      )。具有原始和扩展前体信息的MS / MS光谱在连接的UniProt中独立搜索(
      • Uniprot C.
      UNIPROT:用于彩易福彩信息的集线器。
      )参考蛋蛋白酶数据库(6720酵母蛋白序列2015_12,91618,91618释放2015_07的人蛋白序列,以及使用Morpheus搜索引擎的BSA UniProt_id P02769的序列)(Ver.165)(
      • 温格C.D.
      • Coon J.J.
      专为高分辨率串联质谱而设计的彩易福彩组学搜索算法。
      )。将半胱氨酸的氨基甲酰甲酰化被设定为固定改性,并将蛋氨酸的氧化视为可变改性。施用目标诱饵方法,允许一个错过的胰蛋白酶切割(没有脯氨酸统治)。前体和产品质量公差分别设定为6ppm和18ppm。得到的肽光谱匹配(psms)通过q值过滤(<每个人都有1%的人。

       肽量化

      通过Demix-Q工作流程整合肽级识别和定量(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      ),其中肽色谱特征是从全范围(初级)MS光谱拾取的峰值,并且使用OpenMS IDMapper(Ver.2.0)暂时与可用PSM相关联(
      • Kohlbacher O.
      • Reinert K.
      • 格拉普C.
      • Lange E.
      • pfeifer n。
      • Schulz-Trieglacaff O.
      • STURM M.
      TOPP- OpenMS彩易福彩组学管道。
      )。此后,施加MapalignerPoseClustering(Ver。2.0)(最大180个RT差和5ppm前体质量差异),将所有特征图对齐至参考运行(具有最大数量的肽色谱特征)和校准RT到类似的比例。随后,FeatureLinkerunlabeledQt(ve​​r。2.0)用于链接不同LC-MS / MS的色谱特征,并生成共识特征图。共识映射提供了后续身份传播的基础,其中肽标识从运行转移到使用PSM信息的运行以运行MS / MS信息。为了进一步增加定量信息的覆盖,通过eicextractor(Ver.2.0)施加更敏感的(提取的离子色谱,XIC基)信号提取。来自XIC的量被传播到运行,其中不最初被共识映射地图未覆盖,但在给定的保留时间和围绕共有特征(60s和5ppm)的M / Z窗口的前体质量峰。估计的5%特征级FDR被应用为此过程的质量阈值(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      )。如果与不同序列的PSM相关联的共识特征,则仅保持最常见的序列。肽丰富被报告为各种序列的所有充电状态和修饰形式的特征丰度的总和,并通过每个单独运行的肽丰富的有效测量的平均值标准化。

       临床乳腺癌彩易福彩组学数据集

      肽鉴定和定量结果是从两种临床研究的补充材料获得的,而无需重新加工质谱数据。 (1) CPTAC乳腺癌 数据集是从CPTAC研究中获得的(Mertins 等等。 2016) (
      • Mertins P.
      • MANI D.R.
      • Ruggles K.v.
      • Gillette M.A.
      • 克劳瑟K.R.
      • 王P.
      • 王X.
      • 乔J.W.
      • Cao S.
      • Petralia F.
      • Kawaler E.
      • Mundt F.
      • 克鲁格克。
      • 涂Z.
      • 雷J.T.
      • Gatza M.L.
      • Wilkerson M.
      • perou c.m.
      • Yellapantula V.
      • 黄克。
      • 林C.
      • McLellan M.D.
      • 闫诗
      • 戴维斯S.R.
      • Townsend R.R.
      • 冰鞋S.J.
      • 王J.
      • 张B.
      • kinsinger c.r.
      • Mesri M.
      • Rodriguez H.
      • 丁L.
      • Paulovich A.G.
      • Fenyo D.
      • 埃利斯M.J.
      • carr s.a.
      • NCI C.
      彩易福彩组织将体细胞突变与乳腺癌中的信号传导连接。
      )。该组以与原始研究相似的方法标准化。肽ITRAQ对数值(与内部参考文献)的80(77个样品和3次复制测量)乳腺癌样品(质量控制通过)被双组分高斯混合模型的核密度估计标准化,零居中通过减去主要高斯分布的平均对比。丢弃在不超过30个样品中量化的肽。 (2) mpib乳腺癌 数据集是从德国Max Planck生物化学​​研究所进行的原始研究中获取(Tyanova 等等。 2016) (
      • Tyanova S.
      • Albrechtsen R.
      • Kronqvist P.
      • Cox J.
      • 盖尔特T.
      乳腺癌亚型的彩易福彩组学地图。
      )。肽比例为40乳腺癌样品(Light,L),与脂癌细胞培养物(重H)的硅酸标记的混合物标准相比,对数转化,然后通过核密度标准化和零中心双组分高斯混合模型的估计。由于原始数据包含H / L比率(IE。 参考样本比率),我们通过在对数转换后取得负值来颠倒比较顺序。因此,采样对比较符合CPTAC数据。弃去在少于12个样品中量化的肽。

       相对彩易福彩量化的线性模型

      由于蛋白水解消化和电喷雾电离(ESI)的效率有限,LC-MS / MS测量的彩易福彩组成肽离子的离子丰度与原始彩易福彩分子的实际量直接比例比率。然而,如果我们被赋予肽固定电离效率,肽离子的丰富应与彩易福彩浓度成比例。肽对彩易福彩浓度差异的彩易福彩反应的线性动态范围(ESI),而不考虑到复合样品中的电荷竞争的效果,估计超过四个数量级(
      • 唐克。
      • Page J.S.
      • 史密斯r.d.
      电气喷雾电离质谱中电荷竞争和线性动态检测线性动态。
      )。因此,在线性动态范围和检测极限内,蛋白水解肽的定量测量应产生读数 y 由电离效率α,彩易福彩浓度Z和测量误差决定 e.
      y=αz+e
      (eq.1)


      通常,具有最高电离效率的肽被称为“最佳的飞行物”,并且通常用于近似样品中的彩易福彩浓度(
      • 格尔特S.
      • kwon t.
      • Ludwig C.
      • Matondo M.
      • Vogel C.
      • Marcotte e.m.
      • Aeberberold R.
      • Buhlmann P.
      彩易福彩量化的统计方法。
      )。只有当α接近1.0时,才能合理地准确。 e 与浓度无关 z 对于(或至少大部分)肽中的每一个。但实际上,不同肽的电离效率大大变化,并且测量误差取决于大多数深彩易福彩组学研究中的肽浓度。
      最常见的是,比较彩易福彩组学的目标是检测生物条件之间的彩易福彩浓度的相对变化。在这种情况下,样品之间的比率(代替实际彩易福彩浓度)是真正的兴趣。因此,线性模型可以形成为两次测量的比较, yy'.
      yy=αz+eαz+ezz
      (eq。2)


      对数转换可以在错误项时稳定估计 e 很大但电离因子α相对较小:
      日志(y)日志(y)=日志(αz+e)日志(αz+e)=日志(z)日志(z)+日志(αz+ez)日志(αz+ez)=日志(z)日志(z)+日志(yzzy)
      (eq。3)


      错误项日志(y'z / zy'假设是零居中的高斯分布,满足因子分析和ANOVA的假设。因此,在这项研究中,所有肽丰富(y通过比较共同参考来重新扫视(y')。对于LFQ数据,将来自额外混合物的肽丰度作为参考; CPTAC数据提供了用于缩放的内部参考(汇集样品); MPIB数据中的肽丰富最初以相对规模记录(IE。 H/L ratios).

       无监督因子分析

      广泛使用的贝叶斯因子分析算法,来自生物导体的农场(
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      ),被重新实现为Python函数。因子分析中的主要假设是消化后的肽浓度与未消化样品中的彩易福彩浓度成比例。基于线性模型,用于给定的相对彩易福彩浓度 z 在日志规模中,零意味着丰富的日志比率的归一化观察 x = log(y) - 日志(y')以后称为丰度,从组成肽可以被描述为 x = λz + ε。根据农场的定义,载体λ描述了个体肽信号的贡献和载体 ε 代表测量误差引起的噪音。假设这一点 zε 是独立的,可以使用因子分析,与 z 作为一个因子和λ作为装载。此外,观察 x 应遵循高斯分布: x(0, λλ.T + Ψ)。这里, λλ.T 代表肽的信号协方差矩阵,而我Ψ 表示对角噪声协方差矩阵。我们的目标是找到非负面的 最大封面 估计载荷 λ 最能描述丰富的协变量 x,并通过比较信号来估计每个彩易福彩S / N λ 和噪音 ε 用于拨出肽的集合信息或非信息(
      • 塔卢恩W.
      • 聪明D.A.
      • Hochreiter S.
      • Amaratunga D.
      • Bijnens L.
      • 卡斯S.
      • Gohlmann H.W.
      I / NI呼叫排除非信息基因:用于微阵列数据的高效过滤工具。
      )。算法详细信息可以在参考Hochreiter中找到 等等。 (
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      )和塔卢恩 等等。 (
      • 塔卢恩W.
      • 聪明D.A.
      • Hochreiter S.
      • Amaratunga D.
      • Bijnens L.
      • 卡斯S.
      • Gohlmann H.W.
      I / NI呼叫排除非信息基因:用于微阵列数据的高效过滤工具。
      )。
      因子装载机 λ 可以被认为是肽对彩易福彩浓度变化的反应性,并用作重量因子以及信号集成中的质量控制指标。认为肽重量低于最大重量的一半被认为是错误的识别或不可达到的量化,因此从信号集成中取消了资格。这种质量阈值使能够自动排除不可靠的肽,然后增加彩易福彩量化的整体鲁棒性。

       相对彩易福彩量化

      鉴于样品标记,彩易福彩的相对丰度计算为加权几何平均值(IE。 成分肽丰富的对数标准的加权算术平均值(W>0.5)对于整个实验组(样品)。
      日志(z/z)=i=1nwi(日志(yi)日志(yi))i=1nwi
      (eq。4)


      每种肽的重量(WI. )由以前无监督分析的因子加载给出。这种方法还通过简单地省略这些肽对几何平均值的贡献来解决缺失的值问题。然而,在某些情况下,缺失值的指示低于检测限度,并且可以在特定样本组中经常观察时携带信息。因此,对于LFQ数据,当大部分(>从一个样品中缺少70%)肽测量。在这种情况下,缺少该样本的值填充了该组肽的最低注册丰度的一半。

       差异分析(ANOVA)

      建立在不监督因子分析中的相同假设:线性信号加高斯噪声。鉴于彩易福彩 I 条件有 J 实验和 K 由因子分析的组成肽(w >0.5),我们表示每组估计的相对丰富 xi. 平均丰富 X 对于肽(所有在数级)。可以表示为占地面积(TSS)的总和(TSS),正方形的残差和方块(ESS)的总和(ESS)
      TSS=i=1Ij=1JkK(xijkx¯)RSS=i=1Ij=1Jk=1K(xijkx^i)ESS=TSSRSS
      (eq.5)


      ess有 I - 1度自由;原则上,RSS已经拥有 IJK.I 自由程度。但是,应从计算中排除缺失值,因此降低了 m (缺失值次数)RSS的自由度程度。因此,这是 F - 可以制定标志物
      F=ESSI1RSSIJKIm
      (eq。6)


      原则上,这种表达式应该遵循 F - 与(I − 1, IJK.Im) 自由程度。一种 p 然后可以计算值以测试空假设(H0:所有具有相同均值的样本组 丰富)。遗憾的是,尽管这种肽级别统计方法非常敏感,但由于肽的共变量,定量误差的分布可能是非高斯,这可能违反ANOVA的假设。典型的例子是由异常样本引起的批量效应。在这种情况下,拒绝h0 在肽水平上可能在彩易福彩水平上没有相同的含义(补充讨论)。为了控制在彩易福彩水平膨胀膨胀的风险,在不重新引入样本明智彩易福彩定量的情况下,应用了两种类型的试验来估计差异表达彩易福彩的意义:FDR马克 approach (
      • 桑德G.K.
      • Ferkingstad E.
      • Nygard S.
      序贯蒙特卡罗多次测试。
      )和PECA方法(
      • Suomi T.
      • Corthals G.L.
      • 涅瓦莱根O.S.
      • elo l.l.
      使用肽水平彩易福彩组学数据来检测差异表达彩易福彩。
      )。
      序贯蒙特卡罗多次测试(FDRMC) (
      • 桑德G.K.
      • Ferkingstad E.
      • Nygard S.
      序贯蒙特卡罗多次测试。
      )当样本大小足够大以产生数十万个排列序列时应用。为蒙特卡罗(MC)模拟的每次迭代产生了样品标签的随机洗涤的批次(100次)。每个信息蛋白的ESS(或F统计)(S / N>基于随机样品标签的分组计算-20 dB)。表示 T 作为产生的仿真数量,其ESS比用真品标签和估计的每组丰富获得 xi. 从加权平均值;和 N 作为给定彩易福彩的MC模拟总数,MC p 值可以计算如下:
      Pmc=T+1N+1
      (eq。7)


      每批MC模拟后,基于升序估计一组Q值 PMC π的值和保守估计0 (真正的null假设的比例)(
      • 磅S.
      • 郑c
      鲁棒估计假发现率。
      )。
      π^0=(1,2mi=1mPmc(i))
      (eq。8)


      q(i)=ijm(m·π^0·Pmc(i)j)
      (eq.9)


      马克模拟停止时 T 给定彩易福彩≥200,或所有剩余彩易福彩的Q值低于0.05 fdr阈值。
      适应PECA方法 (
      • Suomi T.
      • Corthals G.L.
      • 涅瓦莱根O.S.
      • elo l.l.
      使用肽水平彩易福彩组学数据来检测差异表达彩易福彩。
      另一方面,对彩易福彩的每个组成肽单独测试零假设。基于符号,设置 xi. = X̄ik.,f-statictic为 k-Th肽等于:
      Fk=i=1IjJ(xijkx¯ik)I1i=1Ij=1J(xijkx¯k)i=1Ij=1J(xijkx¯ik)IJ1mk
      (eq.10)


      肽水平 p 值可以通过F分布的累积分布函数来计算(fCDF.)。
      Pk=1fcdf(Fk,I1,IJ1mk)
      (eq.11)


      在零假设下,制服分布的中位数 p 值应使用测试版分布形成订单统计(α=β=(k + 1)/ 2)。因此,彩易福彩水平的意义由肽水平的中位确定 p values (PK.*)和β发行的累积分布函数(BCDF.)。
      P=Bcdf(Pk*,K+12,K+12)
      (12)


      类似地,使用与FDR中的相同的公式估计PECA方法的Q值马克 方法。然而,我们发现肽水平统计学可能无法充分校准,仍然倾向于高估彩易福彩水平的重要性,因此必须注意(补充讨论)。

       与传统的每样量化方法进行比较

      (a)前3种方法通过服用其三种最丰富的肽的算术平均值(当少于三个肽时,所有肽)来总结了每种彩易福彩。这种方法通常被应用于“黄金标准”,假设“最佳传单”肽给予更好的MS响应(
      • 格尔特S.
      • kwon t.
      • Ludwig C.
      • Matondo M.
      • Vogel C.
      • Marcotte e.m.
      • Aeberberold R.
      • Buhlmann P.
      彩易福彩量化的统计方法。
      )。 (b)中值方法使用非诱导肽测量的中值值来进行彩易福彩丰富的每实验估计,这通常在配对样品和使用同位素标记定量的研究中应用。 (c)PQPQ方法从简化版本调整(
      • 朱y
      • Hultin-Rosenberg L.
      • 伪装J.
      • Branca r.m.
      • 奥尔l.m.
      • Lehtio J.
      SpliceVista,霰弹枪彩易福彩组学数据的剪接变体识别和可视化工具。
      )由朱写 等等。 肽丰富是对数转换,然后用贫洛斯填充贫毒值。对于每种彩易福彩,使用具有距离计算方法的默认设置(“完整”),度量('相关')和阈值(0.4),基于样品跨样品的相关模式聚类肽。从PQPQ中最大的聚类被选为彩易福彩的代表,并通过占平均丰度来组合。 (d)MaxLFQ算法在MaxQuant中实现(
      • Cox J.
      • 嘿m.y.
      • Luber C.A.
      • Paron I.
      • Nagaraj N.
      通过延迟标准化和最大肽比例提取的精确的彩易福彩组无标记量化,称为MAXLFQ。
      ,
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和彩易福彩组含彩易福彩定量。
      )将Thermo.Raw文件作为输入进行了处理,通过Andromeda搜索引擎处理数据,并通过“运行之间的匹配”选项传播肽识别;允许1%FDR的PSM和5%FDR的彩易福彩。通过平均来自三个LC-MS / MS实验的报告的非零丰度给出每个样品的彩易福彩丰度。弃去在少于五个样品中量化的彩易福彩。

       LFQ中的虚假量化率

      为了测试彩易福彩水平对彩易福彩水平聚集的假肽量化的影响,测量已知浓度与彩易福彩水平定量之间的相关性。对于每种彩易福彩,通过参考浓度与彩易福彩定量结果之间的Spearman的秩相关来比较190成对丰度比(由20个混合物形成)的等级。涉及缺失值的对比被排除在外。具有负相关的彩易福彩(低于阈值 r = 0)被认为是假量化。

       使用Peptide de Novo分析Abrf-IPRG-2015数据集 测序

      从FTP服务器下载了来自IPRG-2015研究的12 LC-MS / MS实验的原始数据(ftp:// iprg_study:[电子邮件 protected])如参考文献所述处理(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      )。我们使用denovogui(ver.114.5)而不是执行传统的MS / MS数据库搜索,而不是执行传统的MS / MS数据库搜索。
      • muth t.
      • WeilnböckL.
      • RAPP E.
      • HUBER C.G.
      • 玛特L.
      • Vaudel M.
      • Barsnes H.
      Denovogui:用于DE Novo测序的开源图形用户界面,用于串联质谱。
      )包含的 德诺维 测序软件NOVOR(
      NOVOR:实时肽DE Novo测序软件。
      )直接从MS / MS光谱产生全长肽序列,具有10ppm前体质量耐受性和15ppm片段质量容差。将半胱氨酸的氨基甲酰甲酰化被设定为固定改性,并将蛋氨酸的氧化视为可变改性。通用Swissprot数据库(含有546,000蛋白序列的2014_07释放)(
      • Uniprot C.
      UNIPROT:用于彩易福彩信息的集线器。
      )被搜查了 德诺维 使用彩易福彩爆炸的肽(Ver。2.2.28,参数:-Task Blastp-Short)。使用任意资格标准,通过序列覆盖和身份过滤前10名爆炸点击,其中至少7个相同的残留物涵盖至少80%的残留物 德诺维 肽序列,整体同一性高于80%。质量控制后, 德诺维 肽被认为是MS / MS识别,并通过Demix-Q工作流分配给色谱特征映射。允许多种肽与相同的特征相关,因为不确定 德诺维 序列。此外,每个 德诺维 序列被序列与来自不同生物的同源物的彩易福彩具有多种爆炸匹配。因此,除去来自匹配彩易福彩的Swissprot入口名称的物种鉴定码。例如,Oval_chick和Oval_melga被认为是具有椭圆形识别码的相同源蛋白。结果,定量表含有拟建于概念源蛋白的肽序列,并在12个实验中的至少4个中定量。最后,基于所得的肽量化进行DIFFRO分析,基于500,000 ranton Monte Carlo置换计算的阈值FDR。

       代码可用性

      源代码(Python 3.x)和diffacto的示例可自由获取 //github.com/statisticalbiotechnology/diffacto 在Apache 2.0许可证下。包依赖性:Scipy,Numpy,Pandas(http://pandas.pydata.org),NetworkX,Pyteomics(
      • Goloborodko A.
      • Levitsky L.I.
      • Ivanov M.V.
      • 戈尔茨赫科夫M.V.
      Pyteomics - 一种探索性数据分析和彩易福彩组学中快速软件原型的Python框架。
      )和巩膜学习(
      • Pedregosa F.
      • varoquaux g。
      • Gramfort A.
      • Michel V.
      • 硫叶B.
      • Grisel O.
      • Blondel M.
      • Prettenhofer P.
      • Weiss R.
      • Dubourg V.
      • vanderplas j.
      • Passos A.
      • Cournapeau D.
      • 布鲁克米
      • Perrot M.
      • Duchesnay E.
      Scikit-Learn:Python的机器学习。
      )。

      结果

       DIFFRETO的软件实现

      DIFFFORO的目的是检测样品之间具有不同浓度的彩易福彩并量化这些差异。通过将每个样本与共同参考进行比较,肽丰富的输入列表(x)首先转变为相对规模(IE。 日志比率)。尽管在LC-MS / MS实验中观察到了众异,但是,丰度规模的转化平衡了每种彩易福彩对每种彩易福彩的贡献。因此,基于比例原理,每种观察到的肽丰度应该是两部分的组合:响应彩易福彩浓度相对变化的信号(z),加上噪音(ε)主要由测量误差引起。鉴于彩易福彩的多个肽观察,每个单独的肽可以由参数加权(λ),取决于彼此肽之间的协变量和估计的噪声 ε。因此,线性模型被描述为: x = λz + ε。假设之间的统计独立性 zε,可以使用因子分析 z 作为一个因素和 λ 作为负载,后者提供了评估每种肽的可靠性并最大化彩易福彩浓度变化的信号的提取。
      我们重新实施了贝叶斯因子分析方法,农场(
      • Hochreiter S.
      • 聪明D.A.
      • obermayer k。
      Affymetrix探针级数据的新摘要方法。
      ),作为一个Python函数。该方法最初用于分析基因表达微阵列,但是纠正了该方法以确定暂时连接到一种彩易福彩常规的一组肽的丰度变化的共同组分。因子分析解释了测量肽丰富的协方差 X, Cov(X,X.)纳入对彩易福彩浓度的响应(IE。 信号协方差矩阵 λλ.T)和测量误差(IE。 对角线噪声协方差矩阵 Ψ)假设高斯分布: x(0, λλ.T + Ψ)。这种方法呈现了一个 最大封面 非负因子载荷λ最能描述肽信号的协方差的估计;与此同时,通过将信号与剩余噪声比较,还给出了每组肽的S / N。我们选择了-20 dB的适度S / N阈值(IE。 1%)将肽集分为两组:信息和非信息(最初称为I / Ni-Calles)(
      • 塔卢恩W.
      • 聪明D.A.
      • Hochreiter S.
      • Amaratunga D.
      • Bijnens L.
      • 卡斯S.
      • Gohlmann H.W.
      I / NI呼叫排除非信息基因:用于微阵列数据的高效过滤工具。
      )。从差异蛋白的分析中排除了非信息集。
      我们调查了因子装载 λ 对于肽的信息套,观察到0和1之间的双峰分布。因此,我们施加了0.5的任意选择的加载阈值,用于筛选单个肽和除去对估计的协方差结构的肽。该过程无监督,因此不需要有关样品标签或研究设计的信息(例如 成对或多组比较),一种使其适用于复杂设计的大规模研究的性质。此后,使用 λ 作为重量,我们通过相对肽丰富的加权几何装置计算了每个样品组的相对彩易福彩丰度(代替每个单独的实验)。

       对受控实验的准确彩易福彩量化

      为了彻底研究彩易福彩浓度变化的抗肽行为的程度,我们对不同的比例组合了一组用20种人,酵母和BSA标准消化物进行了一组单一的无标记LC-MS / MS实验。补充表S1)。我们量化了38,794份肽( 补充表S5)归因于4804蛋白(不包括单肽鉴定的2318个彩易福彩)(补充表S2)。在Demix-Q中施用肽同一性传播(
      • 张B.
      • KällL.
      • Zubarev R.A.
      Demix-Q:定量为中心的数据处理工作流程。
      )总量化率为87.9%(IE。 12.1%缺失值)。三种复制实验中肽定量的中位数CV为12.4%。作为比较,我们还使用MaxQuant(MAXLFQ)处理了数据集,其产生了38,738个肽和3650个彩易福彩,其通过样品覆盖的阈值(在至少15种肽或5种彩易福彩的样品中定量)。 MaxQuant衍生的肽量化表包含36.6%的缺失值,其在Demix-Q输出中的频率超过三倍。
      我们基于衍生自BSA的肽的丰富来评估实验条件中的线性范围,这些肽在20个混合物中跨越四个数量级(补充表S1)。我们观察到即使对于最高量的BSA Spike-In(补充图S1,补充说明S1)。从大多数BSA衍生的肽观察到的线性,表明样品过载不是问题。然而,对于具有低BSA浓度的样品(相对丰度小于总量的0.5%),我们观察到较低的LOQ(补充图。S1)确定,测量的线性范围最多覆盖彩易福彩浓度差异的30倍。
      对于每种彩易福彩,我们研究了其成分肽丰富的协变结构,并将91%(4804中4804中)的含有信息肽的彩易福彩(Fig. 1)。放心地,概述彩易福彩的S / NS表现出对组成肽的数量的强烈依赖性,这意味着改善的彩易福彩覆盖率增加了彩易福彩聚集中定量的确定性。实际上,在439个非信息蛋白中,346(79%)只有两种肽,而70蛋白(16%)有三种肽(补充表S2)。
      图缩略图GR1.
      Fig. 1信噪比的分布。 贝叶斯因子分析估计,S / N值越高,反映了量化肽集的更强的丰富共变量。彩易福彩(作为肽组)具有相互矛盾的肽反应(主要是仅具有两种或三种组分肽)被认为是非信息(S / N.< −20 dB).
      在肽的信息组中,因子分析提取的调节结构用作质量控制,其取消了所鉴定的肽的10%,因为它们的不连贯的信号(Fig. 2)。 diffacto中的量化模式, IE。 加权几何手段,通过仅集成有效测量,解决了无标签量化(LFQ)中的缺失值问题。与算术装置不同,几何手段受到异常值的影响较小,因此对量化误差更加稳健。结果,我们在20个混合物中的信息彩易福彩的估计丰度与人或酵母细胞裂解物的已知实际浓度之间获得了线性相关性(Fig. 3补充表S2)。但是,对于大部分肽浓度低于检测水平的样本,忽略缺失值的隐藏信号可能会扩大量化误差的比例(补充图S3)。对于这种情况,它仍然需要赋予缺失的值。如果缺失值的分数超过70%,则通过任意分配对给定的样本的缺失测量的最低丰度的一半进行了完成的,这是一个分数比整体缺失值率大超过五倍一组样品。当使用MaxLFQ衍生的肽丰富时,该归档的阈值增加到95%,以更好地适应最大导出的输出中的大部分缺失值。即使在这些条件下,DIFFRECO推断了3955个信息蛋白,并且再次回收了总结大量和实际浓度之间的线性,尽管缺失的缺失值越来越多。
      图缩略图GR2.
      Fig. 2基于肽丰度(示例)的彩易福彩摘要。 与彩易福彩clcb_human(Uniport ID)匹配的五个肽显示出不同的电离效率,但大多数肽对实际的彩易福彩浓度作出反应,这被认为与分析的混合物中的人彩易福彩含量的分数成比例。浓度单位:每6μlNg。具有整体最高丰度(红色虚线)的肽显示出与其他肽的反形状。偏离行为可能是肽识别过程或离子色谱萃取中误差的结果。 DIFFFORO将重量为零至该特定肽,并从信号积分排除它。与异常值(紫色线的两个尖峰)的存在相比,Diffacto(绿色带)给出的加权几何平均值也似乎更稳定(红色频带)。
      图缩略图GR3.
      Fig. 3通过加权几何肽丰度的彩易福彩LFQ。 在20个混合物中2800个信息蛋白(左面板)和1564酵e蛋白(右侧面板)的相互定量范围(盒子)和90%百分位数(晶须)的相对定量的相对量化。浓度单位:每6μlNg。使用加权几何平均值的相对量化显示与混合物中的实际彩易福彩浓度紧密的线性关系。与酵母蛋白的那些相比,人蛋白似乎具有较小的定量误差,因为每种彩易福彩的平均成分肽的平均成分肽。提出了另外三种方法的结果 .
      由于人彩易福彩组和酵母彩易福彩组是20个混合物中的两个独立组分,所以两个背景彩易福彩彩易福彩提供了一种碱,用于研究假量化率(FQR)。我们定义了FQR,作为与实际浓度负相关的彩易福彩量化的分数(方法和 补充说明S2)。结果表明是毁灭性的所谓 一击奇迹, IE。 仅由一种肽鉴定的彩易福彩。对于这种彩易福彩,FQR估计在29%的水平,而不是比平均为50%FQR的随机噪声更好。对于通过两种肽量化的彩易福彩,在S / N过滤后,FQR为19%,但下降至低于6%(IE。 不包括非信息蛋白)。对于具有三种肽的“黄金标准”蛋白,我们发现在S / N过滤之前的FQR为6%,过滤后3%。我们比较了DIFFacto对其他量化方法的整体性能(Fig. 4):MaxLFQ;平均前3个最丰富(或所谓的最佳传单)肽;所有量化肽的中位数;和pqpq(
      • 伪装J.
      • 约翰逊H.J.
      • Pernemalm M.
      • Branca r.m.
      • Sandberg A.
      • Lehtio J.
      通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
      ),利用肽相关用于聚类和质量阈值的方法。
      图缩略图GR4.
      Fig. 4评价彩易福彩定量结果的精度。 虚线:基于MaxQuant(M)肽丰富的定量。实线:基于DEMIX-Q(D)肽丰富的定量。不同技术总结的信息彩易福彩的丰富与实际彩易福彩浓度相关。量化蛋白的比例(y 轴)在相关阈值(r = 0)用于估计假量化率:TOP3(D),中值(D),PQPQ(D),DIFFRETO(D)分别在TOP3(D),中位数(D),PQPQ(D),DIFFRETO(D)中分别为假量化率:14.3%,9.6%,4.3%,1.6%,0.68%和0.13%,(D)(D) ),maxlfq(m)和diffacto(m)结果。消除矛盾肽,DIFFFFO和PQPQ都减少了虚假量化。然而,DIFFREO总结的加权几何手段提供了比其他方法更高的精度。由于存在矛盾的肽,TOP3似乎是最脆弱的方法,其比通过其肽与中值丰度总结彩易福彩浓度更差。
      MaxLFQ根据其肽的线性回归量化彩易福彩对成对测量比率,在某种程度上对量化误差是鲁棒的度量。结果,对于3650蛋白,MAXLFQ显示出令人印象深刻的总体FQR为0.68%。然而,使用相同的肽丰富,DIFFFORO不仅总结了300种彩易福彩,而且还实现了FQR(0.13%)的五倍(0.13%),缺失值较少,更好的精度(Fig. 4)。另一方面,通过Demix-Q肽丰富,PQPQ聚集肽通过直线相关的任意阈值进入子组(IE。 不通过测量误差估计误差确定的阈值,其与前3和中值相比,减少了FQR,特别是当具有大量相关肽时。但是,可接受的FQR<仅针对具有超过六种肽的彩易福彩实现5%,其包括仅量化彩易福彩组的三分之一。对比度鲜明(补充图。S2B和S2C),diffacto删除了虚假量化的主要来源(IE。 通过S / N过滤具有低覆盖的彩易福彩。定量的4361信息蛋白显示总体FQR为1.6%。该结果证实了测量每种彩易福彩多种肽丰度的至关重要。

       乳腺癌三种亚型的彩易福彩组学肖像

      为了证明大规模比较彩易福彩组学的DIFFRECO的性能,我们从临床彩易福彩组学肿瘤分析联盟(CPTAC,MERTINS)进行的临床乳腺癌研究中重新分析了两组基准数据集。(CPTAC,Mertins 等等。) (
      • Mertins P.
      • MANI D.R.
      • Ruggles K.v.
      • Gillette M.A.
      • 克劳瑟K.R.
      • 王P.
      • 王X.
      • 乔J.W.
      • Cao S.
      • Petralia F.
      • Kawaler E.
      • Mundt F.
      • 克鲁格克。
      • 涂Z.
      • 雷J.T.
      • Gatza M.L.
      • Wilkerson M.
      • perou c.m.
      • Yellapantula V.
      • 黄克。
      • 林C.
      • McLellan M.D.
      • 闫诗
      • 戴维斯S.R.
      • Townsend R.R.
      • 冰鞋S.J.
      • 王J.
      • 张B.
      • kinsinger c.r.
      • Mesri M.
      • Rodriguez H.
      • 丁L.
      • Paulovich A.G.
      • Fenyo D.
      • 埃利斯M.J.
      • carr s.a.
      • NCI C.
      彩易福彩组织将体细胞突变与乳腺癌中的信号传导连接。
      )另一个由Max Planck生物化学​​研究所(MPIB,Tyanova 等等。) (
      • Tyanova S.
      • Albrechtsen R.
      • Kronqvist P.
      • Cox J.
      • 盖尔特T.
      乳腺癌亚型的彩易福彩组学地图。
      )。 CPTAC研究可以被视为比较彩易福彩组学的近乎理想情况,其具有内部参考(汇集样品),相当大的样品大小(77个临床样本)和优异的序列覆盖(平均每种彩易福彩24种肽)。另一方面,MPIB研究代表了彩易福彩组学中的理想情况,其中使用超级硅胶方法将40种组织样品与稳定同位素标记的乳腺癌细胞系的标准混合物进行比较。为了一致性,我们遵循与Tyanova相同的方法 等等。 将样品分为三组:雌激素或孕酮受体阳性(ERPR +),表皮生长因子受体阳性(HER2 +)和ER / PR / HER2三重阴性(TN)。我们还通过源基因代替彩易福彩序列分组定量的肽。
      我们在CPTAC数据中分类为7879(92%)彩易福彩,作为-20dB的S / N截止,估计1470个彩易福彩浓度(19%的信息彩易福彩组)具有显着差异(FDR<0.05)癌症亚型(Fig. 5补充表S3)。该数量略微(2%)小于Acova使用中值比率估计的1506蛋白,表明蒙特卡罗随机排列的FDR控制是保守的。在列表中,我们发现PAM50标记基因(46)的25个蛋白,其验证了其作用作为彩易福彩标志物。这可以与我们在MPIB数据中发现的3889(67%)的信息蛋白进行比较(补充表S4)。其中,只有115个彩易福彩(3%的信息彩易福彩组)具有显着不同的浓度(Q< 0.05, Fig. 5补充表S4),尽管在CPTAC数据中观察到的癌症亚型之间存在根本差异。然而,在相同的水平为5%FDR,DIFFFORO检测到85%的显着差异彩易福彩,而不是Tyanova最初报道的62个彩易福彩 等; 这也是通过将ANOVA施加到中值概述的彩易福彩浓度比检测到的常规方法的两倍多。有趣的是,我们发现Diffeto报告了一组非常不同的彩易福彩,而不是原始报告:62个原始蛋白中的24只算是差异表达的。我们调查了这种差异,并在Tyanova研究中的彩易福彩中发现,DIFFFFO没有报道,这是由于太多缺失的值,6种彩易福彩(包括由Tyanova选择的标记之一被拒绝) 等等。)被认为是非信息,并且估计31种彩易福彩没有显着不同,因为通过DIFFFOTO可能更严格的误差控制估计。
      图缩略图GR5.
      Fig. 5来自CPTAC和MPIB彩易福彩组学数据的乳腺癌亚型的三元比较。 DIFFRO总结CPTAC(蓝色)和MPIB(红色)数据集的差分蛋白。差异表达的彩易福彩在前者数据集中更加全面,亚型特异性,因为其样本尺寸较大,序列覆盖率较高。特别是,对于三阴性亚型,其特征在于基础细胞角蛋白的高丰度(
      • Lehmann B.D.
      • Bauer J.A.
      • 陈X.
      • 桑德斯M.E.
      • chakravarthy a.b.
      • 谢尔。
      • Pietenpol J.A.
      人三阴性乳腺癌亚型的鉴定和选择靶向疗法的临床前模型。
      )SMOC1,S100B,GSTA1,SFRP1,S100A1,PTX3,SOX10,ANGPT2,CO,以及许多其他已知标记,例如SYNM1(
      • noetzel E.
      • 玫瑰m.
      • 塞六。
      • Hilgers R.D.
      • 哈特曼A.
      • 纳米A.
      • Knuchel R.
      • DAHL E.
      中间灯丝动力学和乳腺癌:同步基因的异常启动子甲基化与早期肿瘤复发有关。
      ),MFI2(
      • Pavlou M.P.
      • Dimitromanolakis A.
      • Diamandis E.P.
      乳腺癌亚型特异性彩易福彩偶联彩易福彩组学和转录组织。
      ),NDRG2(
      • kloten五。
      • Schlensog M.
      • Eschenbruch J.
      • Gasthaus J.
      • Tiedemann J.
      • Mijnes J.
      • 海德T.
      • Braunschweig T.
      • Knuchel R.
      • DAHL E.
      丰富的NDRG2表达与基础乳腺癌的侵略性和不利的患者的结果有关。
      ),cryab(
      • Bertucci F.
      • Finetti P.
      • Cervera N.
      • Esterni B.
      • Hermitte F.
      • Viens P.
      • Birnbaum D.
      基础是三重阴性乳腺癌的癌症如何?
      )和PLA2G4A(
      • 穆斯特S.A.
      • Borgan E.
      • Huuse e.m.
      • Lindholm e.m.
      • 保姆B.
      • Borresen-Dale A.L.
      • eNgebraaten O.
      • 玛兰伊娃省
      • Gribbestad I.S.
      不同的胆碱代谢谱与基础样和腔状乳腺癌异种移植模型的基因表达的差异有关。
      )在CPTAC数据中的差分调节蛋白列表之上()。标记位于散点图上,基于折叠相对于日志级别的三个子类型(轴)而变化。标记半径成比例 q value (FDR马克)以否定对数刻度。
      为了证明DIFFRO的改进量化,我们研究了CPTAC和MPIB集之间的总结彩易福彩丰富的一致性。通过比较DIFFFORO报道的差分彩易福彩列表,我们发现共同的46个彩易福彩( Fig. 6),并且其中,DIFFRO专门检测到22中。在CPTAC和MPIB数据集之间观察到彩易福彩比(0.88)的强线性相关性(补充图S5)。相反,对于排他性MPIB报告的12个蛋白,中值彩易福彩比率的相关性仅在数据集之间仅为0.7。重要的是,Diffacto-独家彩易福彩在生物学上是相关的。我们在其中找到了三个已知的标记,NAT1(
      • Parker J.s.
      • Mullins M.
      • Cheang M.C.
      • 梁S.
      • Voduc D.
      • vickery t.
      • 戴维斯S.
      • Fauron C.
      • 他X.
      • 胡Z.
      • Quackenbush J.f.
      • Stijleman i.j.
      • Palazzo J.
      • Marron J.s.
      • 诺贝尔A.B.
      • Mardis E.
      • nielsen t.o.
      • 埃利斯M.J.
      • perou c.m.
      • Bernard P.S.
      基于内在亚型的乳腺癌风险预测因子。
      ),PPP1R1B(
      • Mertins P.
      • MANI D.R.
      • Ruggles K.v.
      • Gillette M.A.
      • 克劳瑟K.R.
      • 王P.
      • 王X.
      • 乔J.W.
      • Cao S.
      • Petralia F.
      • Kawaler E.
      • Mundt F.
      • 克鲁格克。
      • 涂Z.
      • 雷J.T.
      • Gatza M.L.
      • Wilkerson M.
      • perou c.m.
      • Yellapantula V.
      • 黄克。
      • 林C.
      • McLellan M.D.
      • 闫诗
      • 戴维斯S.R.
      • Townsend R.R.
      • 冰鞋S.J.
      • 王J.
      • 张B.
      • kinsinger c.r.
      • Mesri M.
      • Rodriguez H.
      • 丁L.
      • Paulovich A.G.
      • Fenyo D.
      • 埃利斯M.J.
      • carr s.a.
      • NCI C.
      彩易福彩组织将体细胞突变与乳腺癌中的信号传导连接。
      )和ITGB4(
      • 林S.W.
      • JIMENEZ C.R.
      • 博泽E.
      彩易福彩组学技术乳腺癌分类:当前的知识状态。
      )分别与ERPR +,HER2 +和TN亚型相关联;并且其余的特征通过CD3EAP,FSCN1,ICAM1,MCM4,MCM7,PDIA6和SLC2A1(也称为GLUT1)的特定上调,清楚地表征了TN亚型。Fig. 6, 补充说明S3)。
      图缩略图GR6.
      Fig. 6CPTAC和MPIB数据常见的46个差分蛋白的相对丰度。 彩易福彩折叠变化由diffacto(加权几何手段)估计,不仅在调节方向上显示出良好的协议,而且还显示出在变化的大小之间( )。这种彩易福彩表达模式清楚地聚集成三组,其代表乳腺癌三个亚型的最持久性彩易福彩组学特征。

       使用肽DE Novo测序分析IPRG-2015数据

      为了证明可以获得可靠的彩易福彩量化即使具有壮观的次优识别程序,我们也从IPRG-2015研究中获取了数据(
      • 崔m.
      • eren-dogu z.f.
      • Colangelo C.
      • Cottrell J.
      • Hooopmann M.R.
      • kapp e.a.
      • 金斯。
      • 林H.
      • neubert t.a.
      • Palmblad M.
      • Phinney B.S.
      • Weintraub S.T.
      • 麦克莱恩B.
      • Vitek O.
      ABRF彩易福彩组信息研究组(IPRG)2015年研究:检测无标记的定量LC-MS / MS实验中的差异丰富的彩易福彩。
      )为了插图。在IPRG研究中,将六种标记彩易福彩掺入不同浓度的与200ng酵母蛋白的四个样品中,随后通过三份LC-MS / MS实验测量。我们没有关于尖刺彩易福彩或背景彩易福彩的假设。相反,我们使用过 德诺维 肽测序随后用彩易福彩爆炸对抗Universal Swissprot数据库。该协议将15,927个色谱特征中的每一个,具有多个 德诺维 序列,并将后者分组为1852个抽象源彩易福彩(补充表S6)。甚至使用这种不知情的鉴定过程,DIFFRFO检测到并适当地量化所有六个穗蛋白(表I.)。只有两对低浓度差异(65:55,11:10 fmol)在相对规模中没有正确地定量,但理论彩易福彩比率和定量结果的比较显示出高度的线性相关性(补充表S6)。六种标记蛋白的独特信噪比证实了基于肽信号的底层调节的定量方法的有用性。
      表I.IPRG-2015数据中的10个最差异的彩易福彩。对于彩易福彩鉴定,我们使用肽De Novo测序,然后用彩易福彩BLAST搜索全瑞士数据库。尽管存在相对不知情的识别程序,但DIFFROCO用于过滤滤除错误鉴定的序列并获得代表性彩易福彩浓度估计
      彩易福彩不。佩斯w>0.5S / N(DB)
      a 家庭明智的错误率(PECA的Bonferroni校正 p values).
      佩奇
      FDR.马克
      b DIFFFFO总结了相对彩易福彩丰度,由标志物蛋白的平均参考峰值进行重新分配,或通过背景蛋白的中值肽丰度。
      S1
      S2S3S4
      c 在样品中掺入的彩易福彩的参考量(Fmol),在样品中不刻心地掺入彩易福彩的彩易福彩由零参考浓度“ - ”表示。
      REF1
      REF2REF3REF4
      椭圆形2218.1400.0364.4657.3810.542.626555152
      BGAL.331714.3700.030.4473.9654.847.762655515
      侏儒321512.6700.0312.680.2164.0460.071526555
      CAH21586.2300.0313.80495.8711.390.5310500110.6
      4324.5828.80.0371.548.470.00256.985515265
      ppid.86-3.6158.060.031.871.751.650.19----
      阿尔布351912.9200.134.820.024.64512.12110.610500
      TRM622-8.49134.660.231.101.190.761.02----
      ATG2732-16.04184.920.230.990.991.180.87----
      SKI252-2.5110.030.261.181.170.970.75----
      a 家庭明智的错误率(PECA的Bonferroni校正 p values).
      b DIFFFFO总结了相对彩易福彩丰度,由标志物蛋白的平均参考峰值进行重新分配,或通过背景蛋白的中值肽丰度。
      c 在样品中掺入的彩易福彩的参考量(Fmol),在样品中不刻心地掺入彩易福彩的彩易福彩由零参考浓度“ - ”表示。

      讨论

      与前几代设备相比,高分辨率质谱通过提供更多数量的蛋白水解肽的鉴定和更可靠的定量测量来转化彩易福彩组学。目前,它似乎是由质谱数据识别过程受限的彩易福彩量化,因此提高定量精度的最佳方法是改善识别过程。但是,当我们增加LC-MS / MS实验中的样本大小时,这可能不是最佳前进的方向。样品数量的扩展不一定使传统的识别过程有益(
      • Senang O.
      • KällL.
      彩易福彩组学中的统计挑战的解决方案更具统计数据,而不是较少。
      );但肯定会积累更多的量化信息。此外,由于DDA的随机性质和低平均肽计数,基于识别的定量方法,例如MS / MS光谱计数(SPC),其精度与其精度有一定限制。虽然我们不会反对这种方法的有用性,但我们不建议使用Diffact与SPC数据。与基于XIC的方法不同,在目前研究中的分段DDA策略的应用使传统的识别方法不切实际。
      正如我们在本研究中所证明的那样,肽丰富提供了改善鉴定的手段。因子分析方法捕获的肽丰富的协变量不仅提供了质量控制,而且提供了加权总结模式。肽加权的其他方法(
      • goeminne l.j.
      • Gevaert K.
      • Clement L.
      肽级鲁棒脊回归提高了数据依赖性定量标记霰弹枪彩易福彩组学中的估算,敏感性和特异性。
      ,
      • Lyutvinskiy Y.
      • 杨H.
      • Rutishauser D.
      • Zubarev R.A.
      在Silico乐器响应校正中提高了无标签彩易福彩组学的精度和基于彩易福彩组学的预测模型的准确性。
      )使用肽特性的不同方面也可以在该模式中一起应用,以改善彩易福彩量化精度。该模式具有鲁棒性的特征,使肽的分组更加灵活,从而降低了彩易福彩推理的负担。一个有趣的延伸将使DIFFFOR概述基于任意规则来概括彩易福彩浓度变化,该规则是假设肽的协变量,例如源基因(如乳腺癌分析中应用),彩易福彩复合物,细胞器,相互作用,法规和途径。根据我们以前的研究,我们做出了大胆的尝试(
      • Lundströms.l.
      • 张B.
      • Rutishauser D.
      • 艾萨斯兰D.
      • Zubarev R.A.
      聚光灯彩易福彩组学:揭示隐藏的血液彩易福彩组改善了彩易福彩组学的诊断力。
      ),测试使用的可行性 德诺维 肽测序和序列同源性搜索,分析IPRG-2015 Spike-in数据集。虽然数据集不够大,但才能得出全面的结论,但我们为所有尖刺标记蛋白获得了高特异性和定量准确度(表I.补充表S6)。在目前的方法中,彩易福彩丰度差异的统计显着性来自ANOVA,其可能由样品与最鲜明的量确定。在这种情况下,未给出成对比较的统计显着性。无论如此的限制,该结果提供了彩易福彩组学和彩易福彩组织中的情况的替代方法,用于缺席“参考基因组/彩易福彩组”。
      报告受彩易福彩组学研究中的彩易福彩组学研究中的差异彩易福彩清单并不罕见 p 成对t检验的值。未经纠正 p 值可能导致彩易福彩组分析中的许多假阳性结果(
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )(补充讨论)。相反,fdr或 q 值已成为MS / MS的识别结果的默认值(
      • Savitski m.m.
      • Wilhelm M.
      • Hahne H.
      • Kuster B.
      • Bantscheff M.
      大彩易福彩组学集中的彩易福彩假发现速率估计的可扩展方法。
      ,
      • Senang O.
      • KällL.
      彩易福彩组学中的统计挑战的解决方案更具统计数据,而不是较少。
      ,
      • 他们。
      • Tasnim A.
      • KällL.
      如何谈论霰弹枪彩易福彩组学中的彩易福彩水平假发现率。
      )。彩易福彩组学中的许多研究都受到样本大小的限制,因此缺乏统计能力来克服多种测试更正的负担(
      • Pascovici D.
      • 处理程序D.C.
      • 吴j.x.
      • Haynes P.A.
      定量彩易福彩组学中的多种测试校正:一种有用但钝的工具。
      ),经常导致研究报告 p 值而不是fdrs。我们采取了一套临床数据膀胱癌(
      • Latosinska A.
      • vougas k。
      • Makridakis M.
      • Klein J.
      • Mullen W.
      • ABBAS M.
      • stravodimos k。
      • Katafigiotis I.
      • Merseburger A.。
      • Zoidakis J.
      • Mischak H.
      • Vlahou A.
      • jankowski v.
      无标记和8-PLEX ITRAQ方法的比较分析,用于定量组织彩易福彩组学分析。
      )例如:肌肉侵入性膀胱癌的许多签名蛋白可以通过LFQ和ITRAQ数据的DIFFFFO始终如一地检测(补充说明S4 补充图S6)。但是,由于样本大小相对较小(4 + 4),我们无法计算强大的FDR马克 指标。这提出了一个问题,以便使用适当的FDR控制执行合理的DIFFacto分析来进行多少实验。理论上,三个实验是测量协变的最低要求; T检验需要六个样品(3 + 3); 10个样品(5 + 5)是合理MC随机排列测试的最小值。虽然彩易福彩组学中的样本尺寸越来越多,但我们很快就会接近点 p 值应在报告量化结果中由FDR替换。也许是时候认识到我们应该花更多的时间考虑如何正确量化彩易福彩蛋白,而不是继续强调肽和彩易福彩的错误鉴定。先进的彩易福彩量化方法,例如在本研究中建议的方法,可以通过更好地利用霰弹枪彩易福彩组学中的多维信息来解决FDR和FQR的问题。

      数据可用性

      原始和转换数据被夸大(MSV000079811)和Proteomexchange(PXD004308)。 diffacto的源代码可自由获取 //github.com/statisticalbiotechnology/diffacto 在Apache 2.0许可证下。

      致谢

      我们感谢华盛顿大学William S. Noble教授,他就本手稿的早期版本提供了评论。我们感谢Matthew The Biotechnology,Kth学院,了解他对统计数据的评论。

      补充材料

      作者简介

      参考

        • ong s.e.
        基于质谱的彩易福彩组学转变定量。
        NAT。化学。 BIOL。 2005; 1: 252-262
        • Zubarev R.A.
        • 哈基森P.
        • Sundqvist B.
        肽的准确单同话题质量测量:高分辨率飞行时间粒子解吸质谱法的可能性和限制。
        迅速交流。质谱。 1996; 10: 1386-1392
        • Senang O.
        • 贵族W.
        串联质谱法综述彩易福彩鉴定统计方法。
        统计界面。 2012; 5: 3-20
        • Savitski m.m.
        • Wilhelm M.
        • Hahne H.
        • Kuster B.
        • Bantscheff M.
        大彩易福彩组学集中的彩易福彩假发现速率估计的可扩展方法。
        摩尔。细胞。彩易福彩组学。 2015; 14: 2394-2404
        • 宁Z.
        • 张X.
        • Mayne J.
        • FIGEYS D.
        以肽为中心的方法提供了重新检查定量彩易福彩组学数据的替代方面。
        肛门。化学。 2016; 88: 1973-1978
        • Walther T.C.
        基于质谱的细胞生物学彩易福彩组学。
        J.细胞Biol。 2010; 190: 491-500
        • Ishihama Y.
        • 奥达Y.
        • Tabata T.
        • 撒托T.
        • nagasu t.
        • Rappsilber J.
        指数改性彩易福彩丰度指数(EMPAA),用于通过每种彩易福彩的测序肽数估计彩易福彩组学中的绝对彩易福彩量。
        摩尔。细胞。彩易福彩组学。 2005; 4: 1265-1272
        • Silva J.C.
        • Gorenstein M.v.
        • 李G.Z.
        • vissers J.P.
        • Geromanos S.J.
        LCMSE绝对定量彩易福彩:平行MS采集的德形。
        摩尔。细胞。彩易福彩组学。 2006; 5: 144-156
        • 格里芬N.M.
        • yu J.
        • 长f。
        • 岸边S.
        • 李Y.
        • Koziol J.A.
        • 斯科尼策J.E.
        无标记,标准化的复合质谱数据进行彩易福彩组学分析的量化。
        NAT。 Biotechnol。 2010; 28: 83-89
        • Bantscheff M.
        • Lemeer S.
        • Savitski m.m.
        • Kuster B.
        彩易福彩组学中的定量质谱:2007年至今的批判性评论更新。
        肛门。生物丹纳尔。化学。 2012; 404: 939-965
        • 克劳T.
        • Thaminy S.
        • ragg s.
        • Aeberberold R.
        • Vitek O.
        复杂设计的无标记LC-MS实验中的统计彩易福彩定量和显着分析。
        BMC生物信息学。 2012; 13: S6
        • Cox J.
        • 嘿m.y.
        • Luber C.A.
        • Paron I.
        • Nagaraj N.
        通过延迟标准化和最大肽比例提取的精确的彩易福彩组无标记量化,称为MAXLFQ。
        摩尔。细胞。彩易福彩组学。 2014; 13: 2513-2526
        • 崔m.
        • chang c.y.
        • 克劳T.
        • Broudy D.
        • Killeen T.
        • 麦克莱恩B.
        • Vitek O.
        MSSTATS:用于定量质谱型彩易福彩组学实验统计分析的R包。
        生物信息学。 2014; 30: 2524-2526
        • 婷婷。
        • Egertson J.D.
        • Payne S.H.
        • 金斯。
        • 麦克莱恩B.
        • KällL.
        • Aeberberold R.
        • 史密斯r.d.
        • 贵族W.S.
        • maccoss m.j.
        以肽为中心的彩易福彩组分析:分析串联质谱数据的替代策略。
        摩尔。细胞。彩易福彩组学。 2015; 14: 2301-2307
        • Suomi T.
        • Corthals G.L.
        • 涅瓦莱根O.S.
        • elo l.l.
        使用肽水平彩易福彩组学数据来检测差异表达彩易福彩。
        J.彩易福彩组。 2015; 14: 4564-4570
        • Webb-Robertson B.J.
        • matzke m.m.
        • Datta S.
        • Payne S.H.
        • 康J.
        • 布拉姆L.M.
        • Nicora C.D.
        • Shukla A.K.
        • Metz T.O.
        • 罗德兰K.D.
        • 史密斯r.d.
        • Tardiff M.F.
        • McDermott J.E.
        • 磅数J.G.
        • 水壶
        贝叶斯彩易福彩模型改善了全球彩易福彩组学测量的彩易福彩量化。
        摩尔。细胞。彩易福彩组学。 2014; (10.1074 / mcp.o113.030932)
        • lukasse p.n.j.
        • 美国A.H.P.
        使用肽量化模式的彩易福彩推断。
        J.彩易福彩组。 2014; 13: 3191-3199
        • goeminne l.j.
        • Gevaert K.
        • Clement L.
        肽级鲁棒脊回归提高了数据依赖性定量标记霰弹枪彩易福彩组学中的估算,敏感性和特异性。
        摩尔。细胞。彩易福彩组学。 2016; 15: 657-668
        • 伪装J.
        • 约翰逊H.J.
        • Pernemalm M.
        • Branca r.m.
        • Sandberg A.
        • Lehtio J.
        通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
        摩尔。细胞。彩易福彩组学。 2011; 10
        • 朱y
        • Hultin-Rosenberg L.
        • 伪装J.
        • Branca r.m.
        • 奥尔l.m.
        • Lehtio J.
        SpliceVista,霰弹枪彩易福彩组学数据的剪接变体识别和可视化工具。
        摩尔。细胞。彩易福彩组学。 2014; 13: 1552-1562
        • 洛克哈特D.J.
        • 董河
        • Byrne M.C.
        • Follettie M.T.
        • Gallo M.V.
        • Chee M.S.
        • Mittmann M.
        • 王C.
        • Kobayashi M.
        • Horton H.
        • 棕色E.L.
        用杂交对高密度寡核苷酸阵列的表达监测。
        NAT。 Biotechnol。 1996; 14: 1675-1680
        • Pavelka N.
        • 四分之四的M.L.
        • Swanson S.K.
        • Pelizzola M.
        • Ricciardi-Castagnoli P.
        • Florens L.
        • Washburn M.P.
        转录组织与定量霰弹枪彩易福彩组学数据之间的统计相似性。
        摩尔。细胞。彩易福彩组学。 2008; 7: 631-644
        • Cox J.
        素传是新的基因组学?
        细胞。 2007; 130: 395-398
        • Pirmoradian M.
        • Budamgunta H.
        • Chingin K.
        • 张B.
        • 阿斯托加井J.
        • Zubarev R.A.
        单维霰弹枪彩易福彩组学的快速和深层人类彩易福彩组分析。
        摩尔。细胞。彩易福彩组学。 2013; 12: 3330-3338
        • 吴Z.J.
        • Irtizarry R.A.
        • 绅士R.
        • Martinez-Murillo F.
        • 斯宾塞F.
        寡核苷酸表达阵列的基于模型的背景调整。
        J.IM。统计协助。 2004; 99: 909-917
        • 张B.
        • KällL.
        • Zubarev R.A.
        Demix-Q:定量为中心的数据处理工作流程。
        摩尔。细胞。彩易福彩组学。 2016; 15: 1467-1478
        • Smyth G.K.
        • michaud J.
        • 斯科特H.S.
        用于评估微阵列实验中的差异表达的阵列内复制斑点的使用。
        生物信息学。 2005; 21: 2067-2075
        • Hochreiter S.
        • 聪明D.A.
        • obermayer k。
        Affymetrix探针级数据的新摘要方法。
        生物信息学。 2006; 22: 943-949
        • 塔卢恩W.
        • 聪明D.A.
        • Hochreiter S.
        • Amaratunga D.
        • Bijnens L.
        • 卡斯S.
        • Gohlmann H.W.
        I / NI呼叫排除非信息基因:用于微阵列数据的高效过滤工具。
        生物信息学。 2007; 23: 2897-2902
        • 文森特C.E.
        • Potts G.K.
        • Ulbrich A.
        • Westphall M.S.
        • 阿特伍德3号,J.A.
        • Coon J.J.
        • 天气D.B.
        使用“平铺”方法的前体质量范围的分割增加了基于MS1的无标记量化的肽鉴定。
        肛门。化学。 2013; 85: 2825-2832
        • 张B.
        • Pirmoradian M.
        • Chernobrovkin A.
        • Zubarev R.A.
        DEMIX工作流程,以便在高分辨率数据依赖性串联质谱中有效鉴定Cofragmented Peptides。
        摩尔。细胞。彩易福彩组学。 2014; 13: 3211-3223
        • Kohlbacher O.
        • Reinert K.
        • 格拉普C.
        • Lange E.
        • pfeifer n。
        • Schulz-Trieglacaff O.
        • STURM M.
        TOPP- OpenMS彩易福彩组学管道。
        生物信息学。 2007; 23: E191-E197.
        • Uniprot C.
        UNIPROT:用于彩易福彩信息的集线器。
        核酸RES。 2015; 43: D204-D212
        • 温格C.D.
        • Coon J.J.
        专为高分辨率串联质谱而设计的彩易福彩组学搜索算法。
        J.彩易福彩组。 2013; 12: 1377-1386
        • Mertins P.
        • MANI D.R.
        • Ruggles K.v.
        • Gillette M.A.
        • 克劳瑟K.R.
        • 王P.
        • 王X.
        • 乔J.W.
        • Cao S.
        • Petralia F.
        • Kawaler E.
        • Mundt F.
        • 克鲁格克。
        • 涂Z.
        • 雷J.T.
        • Gatza M.L.
        • Wilkerson M.
        • perou c.m.
        • Yellapantula V.
        • 黄克。
        • 林C.
        • McLellan M.D.
        • 闫诗
        • 戴维斯S.R.
        • Townsend R.R.
        • 冰鞋S.J.
        • 王J.
        • 张B.
        • kinsinger c.r.
        • Mesri M.
        • Rodriguez H.
        • 丁L.
        • Paulovich A.G.
        • Fenyo D.
        • 埃利斯M.J.
        • carr s.a.
        • NCI C.
        彩易福彩组织将体细胞突变与乳腺癌中的信号传导连接。
        自然。 2016; 534: 55-62
        • Tyanova S.
        • Albrechtsen R.
        • Kronqvist P.
        • Cox J.
        • 盖尔特T.
        乳腺癌亚型的彩易福彩组学地图。
        NAT。安排。 2016; 7: 10259
        • 唐克。
        • Page J.S.
        • 史密斯r.d.
        电气喷雾电离质谱中电荷竞争和线性动态检测线性动态。
        J.IM。 SOC。质谱。 2004; 15: 1416-1423
        • 格尔特S.
        • kwon t.
        • Ludwig C.
        • Matondo M.
        • Vogel C.
        • Marcotte e.m.
        • Aeberberold R.
        • Buhlmann P.
        彩易福彩量化的统计方法。
        摩尔。细胞。彩易福彩组学。 2014; 13: 666-677
        • 桑德G.K.
        • Ferkingstad E.
        • Nygard S.
        序贯蒙特卡罗多次测试。
        生物信息学。 2011; 27: 3235-3241
        • 磅S.
        • 郑c
        鲁棒估计假发现率。
        生物信息学。 2006; 22: 1979-1987
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和彩易福彩组含彩易福彩定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • muth t.
        • WeilnböckL.
        • RAPP E.
        • HUBER C.G.
        • 玛特L.
        • Vaudel M.
        • Barsnes H.
        Denovogui:用于DE Novo测序的开源图形用户界面,用于串联质谱。
        J.彩易福彩组。 2014; 13: 1143-1146
        NOVOR:实时肽DE Novo测序软件。
        J.IM。 SOC。质谱。 2015; 26: 1885-1894
        • Goloborodko A.
        • Levitsky L.I.
        • Ivanov M.V.
        • 戈尔茨赫科夫M.V.
        Pyteomics - 一种探索性数据分析和彩易福彩组学中快速软件原型的Python框架。
        J.IM。 SOC。质谱。 2013; 24: 301-304
        • Pedregosa F.
        • varoquaux g。
        • Gramfort A.
        • Michel V.
        • 硫叶B.
        • Grisel O.
        • Blondel M.
        • Prettenhofer P.
        • Weiss R.
        • Dubourg V.
        • vanderplas j.
        • Passos A.
        • Cournapeau D.
        • 布鲁克米
        • Perrot M.
        • Duchesnay E.
        Scikit-Learn:Python的机器学习。
        J. Mach。学。 res。 2011; 12: 2825-2830
        • Parker J.s.
        • Mullins M.
        • Cheang M.C.
        • 梁S.
        • Voduc D.
        • vickery t.
        • 戴维斯S.
        • Fauron C.
        • 他X.
        • 胡Z.
        • Quackenbush J.f.
        • Stijleman i.j.
        • Palazzo J.
        • Marron J.s.
        • 诺贝尔A.B.
        • Mardis E.
        • nielsen t.o.
        • 埃利斯M.J.
        • perou c.m.
        • Bernard P.S.
        基于内在亚型的乳腺癌风险预测因子。
        J. Clin。 oncol。 2009; 27: 1160-1167
        • 林S.W.
        • JIMENEZ C.R.
        • 博泽E.
        彩易福彩组学技术乳腺癌分类:当前的知识状态。
        癌症治疗。录 2014; 40: 129-138
        • 崔m.
        • eren-dogu z.f.
        • Colangelo C.
        • Cottrell J.
        • Hooopmann M.R.
        • kapp e.a.
        • 金斯。
        • 林H.
        • neubert t.a.
        • Palmblad M.
        • Phinney B.S.
        • Weintraub S.T.
        • 麦克莱恩B.
        • Vitek O.
        ABRF彩易福彩组信息研究组(IPRG)2015年研究:检测无标记的定量LC-MS / MS实验中的差异丰富的彩易福彩。
        J.彩易福彩组。 2017; 16: 945-957
        • Senang O.
        • KällL.
        彩易福彩组学中的统计挑战的解决方案更具统计数据,而不是较少。
        J.彩易福彩组。 2015; 14: 4099-4103
        • Lyutvinskiy Y.
        • 杨H.
        • Rutishauser D.
        • Zubarev R.A.
        在Silico乐器响应校正中提高了无标签彩易福彩组学的精度和基于彩易福彩组学的预测模型的准确性。
        摩尔。细胞。彩易福彩组学。 2013; 12: 2324-2331
        • Lundströms.l.
        • 张B.
        • Rutishauser D.
        • 艾萨斯兰D.
        • Zubarev R.A.
        聚光灯彩易福彩组学:揭示隐藏的血液彩易福彩组改善了彩易福彩组学的诊断力。
        SCI。报告。 2017; 7: 41929
        • Storey J.D.
        • Tibshirani R.
        基因组研究的统计学意义。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 9440-9445
        • 他们。
        • Tasnim A.
        • KällL.
        如何谈论霰弹枪彩易福彩组学中的彩易福彩水平假发现率。
        彩易福彩组学。 2016; 16: 2461-2469
        • Pascovici D.
        • 处理程序D.C.
        • 吴j.x.
        • Haynes P.A.
        定量彩易福彩组学中的多种测试校正:一种有用但钝的工具。
        彩易福彩组学。 2016; 16: 2448-2453
        • Latosinska A.
        • vougas k。
        • Makridakis M.
        • Klein J.
        • Mullen W.
        • ABBAS M.
        • stravodimos k。
        • Katafigiotis I.
        • Merseburger A.。
        • Zoidakis J.
        • Mischak H.
        • Vlahou A.
        • jankowski v.
        无标记和8-PLEX ITRAQ方法的比较分析,用于定量组织彩易福彩组学分析。
        Plos一个。 2015; 10: E0137048
        • Lehmann B.D.
        • Bauer J.A.
        • 陈X.
        • 桑德斯M.E.
        • chakravarthy a.b.
        • 谢尔。
        • Pietenpol J.A.
        人三阴性乳腺癌亚型的鉴定和选择靶向疗法的临床前模型。
        J. Clin。投资。 2011; 121: 2750-2767
        • noetzel E.
        • 玫瑰m.
        • 塞六。
        • Hilgers R.D.
        • 哈特曼A.
        • 纳米A.
        • Knuchel R.
        • DAHL E.
        中间灯丝动力学和乳腺癌:同步基因的异常启动子甲基化与早期肿瘤复发有关。
        oncogene。 2010; 29: 4814-4825
        • Pavlou M.P.
        • Dimitromanolakis A.
        • Diamandis E.P.
        乳腺癌亚型特异性彩易福彩偶联彩易福彩组学和转录组织。
        彩易福彩组学。 2013; 13: 1083-1095
        • kloten五。
        • Schlensog M.
        • Eschenbruch J.
        • Gasthaus J.
        • Tiedemann J.
        • Mijnes J.
        • 海德T.
        • Braunschweig T.
        • Knuchel R.
        • DAHL E.
        丰富的NDRG2表达与基础乳腺癌的侵略性和不利的患者的结果有关。
        Plos一个。 2016; 11: E0159073.
        • Bertucci F.
        • Finetti P.
        • Cervera N.
        • Esterni B.
        • Hermitte F.
        • Viens P.
        • Birnbaum D.
        基础是三重阴性乳腺癌的癌症如何?
        int。 J.癌症。 2008; 123: 236-240
        • 穆斯特S.A.
        • Borgan E.
        • Huuse e.m.
        • Lindholm e.m.
        • 保姆B.
        • Borresen-Dale A.L.
        • eNgebraaten O.
        • 玛兰伊娃省
        • Gribbestad I.S.
        不同的胆碱代谢谱与基础样和腔状乳腺癌异种移植模型的基因表达的差异有关。
        BMC癌症。 2010; 10: 433