辣椒,实验蛋白质组学模式识别的平台* s

      定量蛋白质组学对阐明基本生物学和临床生物标志物发现具有相当大的承诺。然而,由于过度依赖于基于识别的定量方法和与色谱分离再现性相关的问题,难以实现这一承诺。在这里,我们描述了新的算法被称为“Landmark Matching” and “Peak Matching”大大减少了这些问题。地标匹配执行肽标识的时间基础 - 独立于肽标识的传播,以便利用不同数据采集策略的历史数据的方式进行准确的质量LC-MS特征。峰值匹配通过通过聚类通过识别独立于独立的方式识别跨多个LC-MS实验的相同分子种来构建地标匹配。我们将这些算法与其他算法一起捆绑在一起,数据采集策略和实验设计,以创建实验蛋白质组学模式识别(Pepper)的平台。这些发展使得能够使用先前限于微阵列分析以治疗蛋白质组学数据的统计工具。我们证明所提出的平台可以校准2.5级数量级,并且可以在简单和复杂的混合物中进行稳健量化,在多个样品制剂上具有良好的精度和误差特性。我们也证明了德诺维基于两个混合物之间改变的未识别的精确质量成分的统计显着性的标记发现。随后通过精确的质量驱动的MS / MS采集鉴定这些标志物,并证明是与已知蛋白质相关的污染物蛋白,其浓度被设计成在两个混合物之间改变。这些结果提供了对标记发现平台的真实世界验证。
      对使用质谱作为定量技术有巨大的兴趣,以测量综合,系统范围的生物研究肽和蛋白质丰富(
      • maccoss m.j.
      • 马修D.E.
      蛋白质组学的定量女士:教授一只新的狗旧技巧。
      ,
      • ong s.e.
      基于质谱的蛋白质组学转变定量。
      )。定量蛋白质组学可用于系统地鉴定和定量蛋白质和它们作为细胞周期,分化或化学处理的函数的修饰,以获得对基本细胞生物学的新洞察力。蛋白质组学还具有发现在易于易于获得的生物流体中发现蛋白质的承诺,这些生物流体在诊断或预后的疾病状况。这种蛋白质被称为“生物标志物”。
      在基于蛋白质组学的生物标志物发现中,对获得相对定量的鲁棒方法的需求特别急性急性急性,其中应该获得多个患者样品的比较数据(
      • Gillette M.A.
      • MANI D.R.
      • carr s.a.
      蛋白质组学生物标志物发现的模式地。
      )。生物标志物发现通常使用生物流体,由于蛋白质丰度的高动态范围,大大增加了定量蛋白质组学挑战的大小(≈1012 对于血液)和这些样品中存在的蛋白质的巨大多样性(
      • 安德森N.L.
      • 安德森N.G.
      人血浆蛋白质组:历史,性格和诊断前景。
      )。
      目前可用的定量蛋白质组学的MS平台大致分为三类:1) 基于身份的方法 通过LC-MS / MS分析(
      • 沉Y.
      • 摩尔r.j.
      • 赵立
      • Blonder J.
      • Auberry D.L.
      • 马萨隆C.
      • PASA-TOLIC L.
      • 赫克森k.k.
      • Auberry K.J.
      • 史密斯r.d.
      高效在线固相提取耦合到15-150-μm-i.d。柱液相色谱法用于蛋白质组学分析。
      ,
      • Adkins J.N.
      • varnum s.m.
      • Auberry K.J.
      • 摩尔r.j.
      • 安妮尔N.H.
      • 史密斯r.d.
      • Springer D.L.
      • 磅数J.G.
      朝向人血清血清蛋白质组:通过与质谱分离的多维分离分析。
      ,
      • Tirumalai R.S.
      • Chan K.C.
      • 普里欧D.A.
      • isaaq h.j.
      • Conrads T.P.
      • veenstra t.d.
      低分子量人血清蛋白质的表征。
      ,
      • 沉Y.
      • Jacobs J.M.
      • 营地II,D.G.
      • 方罗。
      • 摩尔r.j.
      • 史密斯r.d.
      • 小W.
      • 戴维斯R.W.
      • tompkins r.g.
      超高效强阳离子交换LC / RPLC / MS / MS,用于高动态范围的人血浆蛋白质组。
      ), 2) 仅模式方法 重点关注生产比蛋白质量化更有用的MS衍生蛋白质模式(
      • 百素e.f.
      • 阿尔德卡尼上午
      • Hitt B.A.
      • Levine P.J.
      • Fusaro V.A.
      • Steinberg S.M.
      • 磨坊G.B.
      • Simone C.
      • Fishman D.A.
      • kohn e.c.
      • Liotta L.A.
      在血清中使用蛋白质组学模式以鉴定卵巢癌。
      ,
      • 百素e.f.
      • ZOON K.C.
      • kohn e.c.
      • 巴雷特J.C.
      • Liotta L.A.
      临床蛋白质组学:将台边承诺转化为床边现实。
      ,
      • Villanueva J.
      • 菲利普J.
      • Entenberg D.
      • chaparro c.a.
      • Tanwar M.K.
      • 荷兰e.c..
      • Tempst P.
      通过磁性颗粒辅助,自动化样品加工和MALDI-TOF质谱法的血清肽分析。
      ,
      • 王W.
      • 周H.
      • 林H.
      • 罗伊斯。
      • shaler t.a.
      • 山L.R.
      • 诺顿S.
      • Kumar P.
      • 安德雷姆。
      • Becker C.H.
      通过具有同位素标记或掺入标准的质谱法通过质谱法定量蛋白质和代谢物。
      )和3) 混合身份/基于模式的方法 使用来自FTMS的肽衍生的LC-MS数据,具有非常高分辨率和质量精度(
      • Zimmer J.s.
      • Monroe M.E.
      • 钱W.J.
      • 史密斯r.d.
      蛋白质组学数据分析和显示使用精确质量和时间标签方法的进步。
      ,
      • Page J.S.
      • 马克伦C.D.
      • 史密斯r.d.
      FTICR质谱法定义和定量生物丹腔。
      )。
      基于身份的方法依赖于数据依赖的LC-MS / MS测序肽,并通过数据库搜索识别蛋白质(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      ,
      • Schutz F.
      • kapp e.a.
      • SIMPSON R.J.
      • 速度t.p.
      用于预测肽串联MS产品离子强度的统计模型。
      ,
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      ,
      • nesvizhskii a.i.
      • 凯勒阿。
      • Kolker E.
      • Aeberberold R.
      用串联质谱法鉴定蛋白质的统计模型。
      ,
      • ulintz p.j.
      • 朱茹
      • 秦Z.S.
      • 安德鲁斯P.C.
      使用较新的机器学习方法改进了质谱数据库搜索结果的分类。
      )。用于差异标记肽的各种化学标记和代谢标记方法,含有稳定的同位素标记,如ICAT,Silac,
      使用的缩写是:硅胶,稳定同位素标记用细胞培养物中的氨基酸; Pepper,实验蛋白质组学模式识别的平台; Rt,保留时间; IQR,句子范围; BIC,贝叶斯信息标准。
      1使用的缩写是:硅胶,稳定同位素标记用细胞培养物中的氨基酸; Pepper,实验蛋白质组学模式识别的平台; Rt,保留时间; IQR,句子范围; BIC,贝叶斯信息标准。
      和iTRAQ (isobaric tags for relative and absolute quantitation) have been developed to facilitate obtaining relative quantitative data from a limited number of samples in LC-MS/MS experiments (
      • maccoss m.j.
      • 马修D.E.
      蛋白质组学的定量女士:教授一只新的狗旧技巧。
      ,
      • ong s.e.
      基于质谱的蛋白质组学转变定量。
      )。这些方法使用所鉴定的肽的提取的离子电流,以计算MS或MS / MS水平的色谱丰度。或者,可以通过频谱计数直接从MS / MS数据直接获得半定量数据(
      • venable J.D.
      • 董M.Q.
      • Wohlschlegel J.
      • 迪林A.
      • yates j.r.
      串联质谱法定量分析复合肽混合物的自动化方法。
      )。
      然而,基于该身份的方法的显着问题是用于在色谱时间尺度上肽测序的MS / MS采样的有限和随机性质。这在复杂的样品中加剧,其中MS / MS采样过程有利于获取仅代表可检测的一部分的最高丰度的肽的光谱 m/z 质谱中的峰值。这意味着数据依赖性实验丢弃了相当大量的可用数据,并且在这些实验中只有最丰富的肽(以及因此蛋白质)将可靠地定量。较低丰度蛋白将以较低频率对MS / MS进行采样,导致样品的再现性差(
      • Washburn M.P.
      • Ulaszek r.r.
      • YALES III,J.R.
      多维蛋白质识别技术复杂生物混合物定量蛋白质组学分析的再现性。
      )。研究人员通过分析多次相同的样本来对抗这种效果(
      • Washburn M.P.
      • Ulaszek r.r.
      • YALES III,J.R.
      多维蛋白质识别技术复杂生物混合物定量蛋白质组学分析的再现性。
      )或通过在最终LC-MS / MS分析之前在蛋白质和肽水平处进行高度复杂的样品(
      • 汤。
      • Ali-Khan N.
      • 核刀L.A.
      • Levenkova N.
      • Rux J.J.
      • Speicher D.W.
      结合蛋白质和肽分离方法的新型四维策略能够检测人血浆和血清蛋白质中的低丰度蛋白质。
      )。虽然这些方法通常会改善较低丰度分量的检测,但它们也大大降低了吞吐量。
      仅模式接近直接使用原始 m/z 值或澄清的峰值以及强度信息,以定义来自MALDI或电喷雾数据的质谱模式。在LC-MS中,保留时间也用作唯一定位峰的坐标,以消除在不同时间在不同时间的蛋白质洗脱的蛋白质,尽管该尺寸引入了高度可再现的色谱或复杂方法来解释保留时间变化的严格要求。基于模式的研究中使用的样品分级的程度通常非常有限(
      • 王W.
      • 周H.
      • 林H.
      • 罗伊斯。
      • shaler t.a.
      • 山L.R.
      • 诺顿S.
      • Kumar P.
      • 安德雷姆。
      • Becker C.H.
      通过具有同位素标记或掺入标准的质谱法通过质谱法定量蛋白质和代谢物。
      ,
      • Zimmer J.s.
      • Monroe M.E.
      • 钱W.J.
      • 史密斯r.d.
      蛋白质组学数据分析和显示使用精确质量和时间标签方法的进步。
      )。结果,基于模式的方法可以实现比基于身份的方法更高的样本吞吐量,从而能够分析给定研究的更多患者样品。此外,基于模式的生物标志物发现通常利用强大的多变量模式识别方法(
      • Listgarten J.
      • Emili A.
      使用液相色谱 - 串联质谱法对比较蛋白质组学分析的统计和计算方法。
      ,
      • Hilario M.
      • Kalousis A.
      • Pellegrini C.
      • Muller M.
      蛋白质质谱的加工和分类。
      )。然而,鉴定构成该模式的肽和蛋白质仍然是必需的,但使用这些方法通常难以或不可能。了解构成该模式的肽和蛋白质的身份提高了对测定的稳健性的置信度,为疾病发病机制提供生物学洞察,提出了治疗目标,并创造了将测定转移到替代技术平台的机会(例如 ELISAS)。后者尤为重要,因为在基于MS模式的诊断中利用MS平台的能力仍未存在(
      • Gillette M.A.
      • MANI D.R.
      • carr s.a.
      蛋白质组学生物标志物发现的模式地。
      )。
      哈德史密斯集团介绍了混合身份/模式方法(最近审查,见参考。
      • Zimmer J.s.
      • Monroe M.E.
      • 钱W.J.
      • 史密斯r.d.
      蛋白质组学数据分析和显示使用精确质量和时间标签方法的进步。
      )。该组展示了使用来自FTICR-MS的高质量精度数据的功率,以获得基于高吞吐量的模式的分析(
      • strittmatter e.f.
      • Rodriguez N.
      • 史密斯r.d.
      使用多元回归配件的蛋白质组学的高质量测量精度测定:应用于电喷雾电离飞行时间质谱法。
      ,
      • Lipton M.S.
      • PASA-TOLIC L.
      • 安德森G.A.
      • 安德森D.J.
      • Auberry D.L.
      • Battista J.R.
      • 戴利姆。
      • Fredrickson J.
      • 赫克森k.k.
      • Kostandarithes H.
      • 马萨隆C.
      • Markillie L.M.
      • 摩尔r.j.
      • romine m.f.
      • 沉Y.
      • stritmatter e。
      • tolic n.
      • UDSeth H.R.
      • Venkateswaran A.
      • 黄酸。
      • 赵立
      • 史密斯r.d.
      通过使用精确的质量标签全局分析Deinococcus radiodurans蛋白质组。
      )。由该组开发的精确质量和时间标签(AMT)策略利用多种肽物种高度不可能具有相同的质量(在少量PPM)和LC保留时间(特别是在相对简单的基因组中)。使用它们的方法,肽序列,质量和保留时间的数据库可以由多个实验构建并搜索 事后 基于这些参数分配对色谱LC-MS峰的标识。峰的丰度能够在样品组中大规模相对定量肽。这反过来可以实现生物学特征或生物标志物发现的统计分析。最近描述了利用高分辨率模式的其他方法(
      • Prakash A.
      • Mallick P.
      • Whiteaker J.
      • 张H.
      • Paulovich A.
      • fl
      • 李H.
      • Aeberberold R.
      • Schwikowski B.
      基于质谱的比较蛋白质组学的信号图。
      ,
      • Radulovic D.
      • jelveh s.
      • ryu s.
      • 汉密尔顿
      • FOSS E.
      • 毛泽东。
      • Emili A.
      使用液相色谱 - 串联质谱法全球蛋白质组学分析和生物标志物发现信息平台。
      ,
      • 史密斯C.A.
      • 想要e.j.
      • O'Maille G.
      • Abagyan R.
      • Siuzdak G.
      XCMS:使用非线性峰对准,匹配和识别处理用于代谢物分析的质谱数据。
      ),包括Silva开发的混合MS,MS / MS Deconvolution方法 等等。 (
      • Silva J.C.
      • 丹尼R.
      • dorschel c.a.
      • Gorenstein M.
      • kass i.j.
      • 李G.Z.
      • McKenna T.
      • nold m.j.
      • 理查森克。
      • 年轻的P.
      • Geromanos S.
      通过精确质量保留时间对定量蛋白质组学分析。
      ,
      • Silva J.C.
      • Gorenstein M.v.
      • 李G.Z.
      • vissers J.P.
      • Geromanos S.J.
      LCMSE绝对定量蛋白质:平行MS采集的德形。
      )。
      几个关键问题面临定量蛋白质组学的实践者。无标签的方法,如史密斯的不一定依赖于直接MS / MS测序进行量化,但随后色谱再现性和对准的问题变得显现。由于这些问题的可能补救措施,已经提出了许多诸如动态时间翘曲的方法,但没有人获得广泛的验收(
      • 王W.
      • 周H.
      • 林H.
      • 罗伊斯。
      • shaler t.a.
      • 山L.R.
      • 诺顿S.
      • Kumar P.
      • 安德雷姆。
      • Becker C.H.
      通过具有同位素标记或掺入标准的质谱法通过质谱法定量蛋白质和代谢物。
      ,
      • AACH J.
      • 教堂。
      将基因表达时间序列与时间翘曲算法对齐。
      )。最后,在不依赖于定量测序的方法中,在多个实验中的特征定义和一致识别变得具有挑战性。功能通常根据参数定义,例如 m/z和retention time, but being able to match peaks with the same identity in large data sets of many LC-MS runs is difficult even when chromatography is highly reproducible.
      在这里,我们描述了一种新型的基于模式的生物标志物发现系统(Pepper),其中肽标识用于引导MS模式的对准和分析。该方法利用Hybrid,UltraHigh Performsure FTICR或Orbitrap质谱仪产生的高质量准确度,高分辨率LC-MS(和MS / MS)数据以及智能数据采集策略和新开发的算法来解决量化高百分比的问题样品中存在的分子种类,而不严格考虑其身份。我们在量化实验期间利用有限的MS / MS测序来建立色谱标志性,随后可以用于时间基础依赖性肽同一性对准。这种方法允许(但不需要)在发现相位实验期间完成的肽鉴定的大型历史数据库被映射到更高的产量量化实验。这些地标还用于通过高斯混合模型进行校准峰匹配,该模型允许一致地识别在多个LC-MS实验中的先前所识别和新的未识别特征。我们表明,使用我们的平台,在简单和复杂的混合物中,无标签量化在简单和复杂的混合物中,可以使用我们的平台进行校准测量和计算比率。随后用于识别指示生物态变化的新型肽,也就是说生物标志物。重要的是,我们开发的方法不依赖于肽的高度可重复或可预测的LC保留时间。 Pepper可以在从这些仪器获得的MS数据中恢复大量目前未解除的定量信息,同时大大提高了获得甚至次要的序列标识的准确性和效率 m/z 发现峰值跨样品改变。最后,它将允许在蛋白质组学数据上使用建立的统计工具,用于生物标志物发现,并通过精确的质量驱动,靶向MS / MS实验提供明确的反向路径,用于鉴定未知的分子物种(
      • 卡尔沃S.
      • jain m.
      • 谢X.
      • sheth s.a.
      • 昌B.
      • Goldberger O.A.
      • Spinazzola A.
      • Zeviani M.
      • carr s.a.
      • Mootha V.K.
      通过整合基因组学系统鉴定人体线粒体疾病基因。
      )。

      实验步骤

       试剂和化学品

      从σ中获得蛋白质。广泛研究所的Vamsi Mootha博士,MitoCoCondrial提取物是剑桥,马的博士。所有其他试剂(包括水)都是HPLC或蛋白质组学等级。

       蛋白质混合物的制备和消化

      通过在水中的1个Nmol /μl股中的水分稀释来制备两组蛋白质混合物(“刻度混合物”和“变异混合物”)制备(表I.)形成新的替代品。用6次稀释每种替代物1:1 m urea, 50 mm TRIS,pH 8.0,并减少10米m DTT在37°C时30分钟。随后用50米烷基化半胱氨酸m 碘乙酰胺在黑暗中在37℃下达30分钟。将每种替代液进一步用水稀释10倍。胰蛋白酶(Roche应用科学蛋白质组学等级)以1:50胰蛋白酶的质量比加入到总蛋白质中。消化在37℃下进行18小时,摇动为600rpm。加入10μL甲酸以终止消化,随后在-80℃下冷冻置换。在可变性混合物的情况下,将α和β的等分试样分布到我们实验室的五个不同成员以进行独立的消化制剂。这是为了提供摘要变异性的量度。
      T有能力的 I蛋白质混合物分析浓度
      比例混合变异混合
      ABCDEFGHIαβ
      抑肽蛋白1231020301002003001005
      Ribonuclease A.300123102030100200100100
      myoglobin.200300123102030100100100
      β-乳酰脱蛋白100200300123102030501
      α-酪蛋白30100200300123102010010
      碳酸酐酶203010020030012310100100
      卵蛋白102030100200300123510
      纤维蛋白原3102030100200300122525
      BSA.231020301002003001200200
      转铁素100100100100100100100100100105
      纤溶酶原3030303030303030302.525
      β-半乳糖苷酶101010101010101010110
      用Seppak 100-mg Tc脱盐液18 固体相萃取盒(水)使用以下步骤:用2×1ml ACN湿,平衡2×1ml 0.1%甲酸,负荷1ml替代,洗涤3×1ml 0.1%甲酸,洗脱1.5mL 70%ACN,0.1%甲酸。将洗脱液在-80℃下冷冻,用真空浓缩器冻干至干,随后以比所述浓度高100倍的浓度重新悬浮 表I..

       线粒体蛋白提取物的制备

      从2或6周龄的C57BL6 / J小鼠的制备如前所述(
      • Mootha V.K.
      • Bunkenborg J.
      • 奥尔森J.V.
      • Hjerrild M.
      • wisniewski J.R.
      • 斯赫尔e.
      • Bolouri M.S.
      • 雷H.N.
      • Sihag S.
      • Kamal M.
      • 帕特森N.
      • 着陆器E.S.
      小鼠线粒体中蛋白质组成,组织多样性和基因调控的综合分析。
      )。用可变性混合物α掺入2周提取物,并在消化之前用可变性混合物β掺入6周提取物,使得分析的样品中的最终浓度与所示的相同 表I.。消化如上所述,虽然在这种情况下使用绿洲HLB 10-Mg盒脱谷物脱盐。

       胡椒管道

      完整的胡椒管道由实验设计考虑,数据采集策略和计算分析组成。示出了示出管道的流程图 Fig. 1。下面详细讨论工作流程的组件。资本化术语是定义的 Box 1.
      图缩略图GR1.
      图。1。辣椒过程的原理图。 该平台允许独立的深度发现实验(鉴定实验),可以增加蛋白质水平生物标志物发现和高通量量化实验的覆盖深度。但是,专用识别实验完全是可选的。肽序列信息可以从选择的搜索引擎中包含,而特征检测是用MapQuant完成的(
      • Leptos K.C.
      • Sarracino D.A.
      • Jaffe J.D.
      • 克拉斯汀B.
      • 教堂。
      MapQuant:用于大规模蛋白质量化的开源软件。
      )。并行信息流的纳入由地标匹配完成。峰匹配识别多个实验中的相同分子物种。具有相关丰富的参数化峰值允许标记发现的统计方法,并且精确的质量驱动,目标后续实验使得能够快速回路闭合用于标记识别。 红色圈子MapQuant检测的LC-MS特征; 绿色旗帜,具有里程碑意义匹配的肽; 橙色的明星,匹配的山峰。

       LC-MS程序

      对样品进行两种类型的LC-MS分析,以目的不同。通过使用相对较高数量的数据相关的MS / MS扫描来全面地识别尽可能多的独特肽,用于每个前体MS扫描(“识别实验”)。对于该策略,在分析之前将每种替换10倍稀释。另一策略是通过增加前体MS扫描的频率和执行更复制的分析(“量化实验”)来优化定量信息。为此目的稀释100倍(最终浓度 表I.)。
      LC参数对两种策略都是常见的。使用Agilent 1100纳米流色谱仪(Agilent,Palo Alto)和缓冲液A(0.1%甲酸)和缓冲液B(90%AcN,0.1%甲酸)进行色谱法。 Picofrit柱(75μm内径,15nm尖端开口;新目标;摇摆,mA)用12.5厘米的Reprosil-pur c包装18-AQ 3-μm树脂(MAISCH GmbH博士)并直接接地到LTQ-FT质谱仪,该LTQ-FT质谱仪配有纳米电子涂布电离源(热电子,沃尔瑟姆,MA)。注入每次分析1μL样品,使用以下梯度:0-20min 3%B,600 nL / min,20-30分钟3-15%B,200nl / min,30-80分钟15 -45%B在200nl / min,200-85分钟45-90%b,200nl / min,然后进行正常再生和重新平衡程序。
      用于识别实验的MS分析参数如下。一个前体MS扫描(FTMS;分辨率,100,000)之后是以反向顺序(离子阱MS)执行的前10个最丰富离子的数据相关的MS / MS扫描。通过重复计数为1的动态排除,并排除持续时间为40秒,最大可能列表尺寸和±25ppm拒绝窗口。充电状态筛选和单向异位前体选择都是启用。纳米ESI电压为2.1 kV,前体MS扫描目标值设定为5×105 离子最小化谐波噪声(目标值升至1×106 对于线粒体样本)。分量实验采集策略的参数是相同的,不同之处在于选择前三个最丰富的离子而不是10。对于鉴定实验,对每个样品进行一次LC-MS分析一次。对于定量实验,分析每个样品,用五种技术复制进行分析。

       肽谱解释

      MS / MS光谱从原始数据中提取并使用频谱数据提取器和MS / MS搜索修订版B.03.02.059(安捷伦)解释。可以在附带的补充信息中看到用于提取,搜索和自验证的光谱参数。从刻度混合和可变性混合物的数据被搜索到仅由那些组成的蛋白质组成的小蛋白质数据库(52个蛋白质)。随后通过目标手段获取的新颖特征谱也被搜查了2005年8月1日的国家生物技术信息(NCBI)非冗余蛋白数据库中的国家中心,并含有2,724,841个条目。从国际蛋白质指数(IPI)鼠标数据库版本3.01中搜查了线粒体准备的数据(
      • kersey p.j.
      • Duarte J.
      • 威廉姆斯A.
      • 卡拉维多奥鲁Y.
      • Birney E.
      • APWEILER R.
      国际蛋白质指数:蛋白质组学实验的集成数据库。
      )和上面提到的小型数据库。

       肽LC-MS特征检测

      使用MapQuant从原始数据中提取并解剖肽特征,该程序使用图像处理技术来识别和量化LC-MS运行中存在的有机物种(
      • Leptos K.C.
      • Sarracino D.A.
      • Jaffe J.D.
      • 克拉斯汀B.
      • 教堂。
      MapQuant:用于大规模蛋白质量化的开源软件。
      )。使用的MapQuant处理脚本被提供为补充信息。 MapQuant处理和下面描述的后续算法步骤在464处理器Beowulf Linux集群上执行,以利用并行处理机会。使用我们的硬件配置的所有算法的典型组合运行时间少于1天。

       在多个LC-MS实验中吞噬肽同一性(地标匹配)

      地标匹配尝试在多个LC-MS上传播肽标识,使用精确的质量测量和相对保留时间信息的组合运行。本节中使用的术语是定义的
      • maccoss m.j.
      • 马修D.E.
      蛋白质组学的定量女士:教授一只新的狗旧技巧。
      和capitalized for easy reference. The computer programs that implement landmark matching are written in Perl and are available as a module of GenePattern at www.broad.mit.edu/tools/software.html..
      从相关LC-MS实验中测序的肽成为B的一部分ASIS. SET.。关于隐约鉴定的肽的信息保留在b中ASIS. SET.,即肽序列,观察到的肽序列,观察到的实验,并扫描组成MS / MS扫描的扫描边界用于序列识别。这些扫描边界成为后来地标匹配中绝对或相对保留时间比较的基础。此信息从频谱提取器输出的频谱文件名中容易剔除,该输出遵循与提取物(热电子)的相同文件命名约定。在我们的实验的情况下,示例文件名Varmix_A_01.3645.3675.2.pkl将转换为实验Varmix_A_01,扫描边界3645-3675,充电状态 z = 2.如果从该频谱上自信地识别肽,其序列和频谱名称将成为B的一部分ASIS. SET.。在需要绝对保留时间的情况下,可以使用仪器制造商提供的软件库或在XR200R数据提取期间由MapQuant生成的保留时间(RT)标尺“查找”中的软件库转换为时间单位。
      • Leptos K.C.
      • Sarracino D.A.
      • Jaffe J.D.
      • 克拉斯汀B.
      • 教堂。
      MapQuant:用于大规模蛋白质量化的开源软件。
      )。这些数据存储在简单的文本文件中,该文件可以由管道中的后续程序解析。在补充信息中描述了这种格式(“救援”),提供了用于光谱结果的示例解析器。将来将提供XML(可扩展标记语言)格式。
      地标匹配是一个顺序过程。 LC-MS实验期间的有限MS / MS数据采集用于自信地鉴定可以用作其他实验的配准分数的肽。首先,在C期间测序的肽尿尿 EXperimentime. 映射到MapQuant在该实验中识别的特征,使用松散 m/z matching TOlerance. (±25 ppm)和绝对保留时间radius. (通常为0.3分钟)。第二,A. m/z 根据这些初步匹配,使用最小二乘法计算重新校准,以及更严格的tOlerance. 基于残差的分布计算 m/z 重新校准后的错误(±3σ,通常<5 ppm)。第三,使用新的实验重新捕获肽上的特征 m/z 校准和严格 m/z TOlerance.。这些变成了l安徽 对于单一的实验。最后在任何相关实验中观察到的肽在使用相对保留时间启发式的实验中映射到实验中的特征上,L安徽 S。显示了每种匹配锻炼的算法 Box 2.
      沿着河流安徽 List. 选择和评分显示在 Fig. 2。一个L.安徽 List. 通过在c中观察到的肽之间的常见重叠选择尿尿 EXperimentime. (the L安徽B)和B中的一些其他实验ASIS. SET. (the C同族 EXperimentime.)要求p序列ut A批准 被审查的特征是在c中自信地识别同族 EXperimentime.。通过这种方式,每个put A批准 has its own unique L安徽 List.和多个l安徽 List.s. 可能是可能的,但“最好的”l安徽 List. 来自单个c同族 EXperimentime.。目前C.同族 EXperimentime. is selected where (a)封面扫描的标准偏差导致自信地识别put A批准 in the C同族 EXperimentime. 小于常数κ(通常κ= 200扫描表明我们的采集方法的急剧洗脱峰值)(b)在观察P的两次和之后,在两个实验之间存在至少一个自信鉴定的肽。ut A批准,(c)封面扫描的标准偏差导致P肽的自信鉴定P ut A批准 in the C同族 EXperimentime. 小于恒定ω(通常ω= 500扫描导致可接受的性能),和(d)两项实验份数是自信鉴定的肽的最大常见重叠。使用这些标准c同族 EXperimentime. 将在所示的示例中选择 Fig. 2, 左侧面板.
      图缩略图GR2.
      图2。L.的例子安徽 List. 选择和得分。旗帜,通过直接MS / MS测序识别的峰值。 椭圆形,精确的序列标识的质量特征。 左侧面板 ,L.安徽 List. 选择。考虑选择l安徽 List. 询问X.实验 与c份额识别峰值尿尿 EXperimentime.和contain a peptide that satisfies the m/z 峰值X的要求;实验 含有满足肽的肽 m/z 峰值X的要求,但没有其他峰。所以, cannot be a valid C同族 EXperimentime.。实验 与c分享更多序列的肽尿尿 EXperimentime. than, 所以 is selected as the C同族 EXperimentime.. 右侧小组,地标评分。根据P的替代评估奖金和罚款积分ut A批准 对于未知的峰值和相对洗脱顺序的比较。 粗线 表明p替换put A批准. 细线 表示与等式1中描述的启发式刻度的地标对准。
      最好的c之后同族 EXperimentime. is selected, the L安徽 S 根据以下启发式计算。
      • λ是在c中观察到的肽列表同族 EXperimentime. 由洗脱时间命令。这里洗脱时间由所有MS / MS扫描的质心定义,导致肽的鉴定。 λ.0 被定义为p的位置ut A批准 in Λ.
      • μ(x)是肽洗脱时间的质心 x in the C同族 EXperimentime. (in scans).
      • σ(x)是肽洗脱时间的标准偏差 x in the C同族 EXperimentime. (in scans).
      • τ(x)是肽洗脱时间的质心 x in the C尿尿 EXperimentime. (in seconds).
      • △是平均保留时间峰宽,使得在δ秒内洗脱的肽被认为是共洗脱(通常δ= 30秒)。
      • w,P肽的数量在p之前和之后考虑ut A批准 on the L安徽 List. (通常 w = 3).
      然后是L.安徽 S S (range, −W.W.)定义如下。
      S=i=1w(ξ(Λi,Λ0)+ξ(Λ0,Λi))ξ(m,n)={1 if τ(m)<τ(n) if τ(m)>τ(n){0.5 if τ(n)τ(m)<δ and μ(m)+σ(m)>μ(n)σ(n)1 if else 0 if else 
      (eq.1)


      通过得分(tHreshold.)可以通过评估匹配概率(见下文)来凭经验设置。我们当前的T.Hreshold. 设定为 S = 2.我们也支持的替代回归的地标匹配系统也支持这些阈值。评分系统的示例如图所示 Fig. 2, 右侧面板.
      所有P.ut ASSignments. 通过地标测试tHreshold. 然后报道。将匹配作为肽序列报告为具有相应的肽序列 m/z,保留时间和来自相应MapPuant特征的丰富信息。处理整个实验导致这种比赛的列表。该实验的任何直接测序功能(L安徽)未包含在最终匹配列表中的数据集被合并到数据集中。该最终过程还提供了具有地标匹配的假负率的估计。

       概率评估地标匹配通过自动启动

      给定匹配偶然偶然的可能性可以使用该组合概率来评估 m/z 借调是偶然的,并且通过了地标阈值过滤器是偶然的。这两种概率都取决于B中标识的假设ASIS. SET. 是正确的,bASIS. SET. 已经完成。一种 p 值可以计算如下。
       poverall=pm/zp(landmark|m/z)
      (eq。2)


      PM / Z. 可以通过计算B的总数来分析计算ASIS. SET. 落在匹配的容差内的肽 m/z 在指定的费用(z)除以b的总数ASIS. SET. 肽。 p(标志性| M / Z) 可以根据贝叶斯的规则计算。
      P(landmark|m/z)=P(m/z|landmark)P(landmark)P(m/z|landmark)P(landmark)+(P(m/z|landmark)(1P(landmark)
      (eq。3)


      因为这些概率无法统一地计算,所以它们由B分配ootstrapped. (100 Boootstraps.)。 P(地标)通过选择100 f来估计eat 随机,将保留时间分配给put A批准,并确定使用相同的l通过地标测试的部分通过了什么安徽 List. 选择了put A批准. P(m/z|地标) 和 P(m/z|〜地标通过确定这些随机性F的几部分来计算eat 落在 m/z TOlerance. of the Put A批准。通过乘以B中的肽数来校正多个假设检测的总概率ASIS. SET. 落在了 m/z TOlerance. 推定任务。

       跨多个LC-MS实验的LC-MS特征的全局峰值匹配

       粗m / z和rt校正 -

      一旦在实验集中的所有运行都执行了地标匹配,我们使用这些产生的地标肽来确定粗质质量和保留时间校正。在准备峰值匹配和图案识别时,质量和保留时间校正被应用于MAPPUANT输出中的所有电荷识别的峰值,而不管峰值是否是地标。如上所述,使用最小二乘法如上所述校正质量。
      因为绝对保留时间难以再现,所以我们在聚类之前应用于所有运行的粗糙度保留时间校正。目的不是实现完美的色谱对准,而是仅提高聚类效率并导出适当的RT容差。我们首先选择任意运行作为参考。对于每个剩余的运行,我们纠正保留时间如下:确定参考运行中的常见地标和正在考虑的运行。使用这些地标,所有(地标或未识别)肽的校正保留时间计算为RT纠正 = a0 + a1 ×RT + a2 × RT2 通过将常见地标在参考中的保留时间的常见地标的保留时间进行比较来估计常数。
      在质量和保留时间校正中,可能存在分别具有异常差的质量或保留时间的地标。质量异常值可能是由于潜在不正确的肽鉴定,由MapQuant峰值检测,错误的地标匹配或随机MS变异引起的伪影。保留时间异常值可能是由色谱变异引起的,偶尔在多个时间点上偶尔洗脱肽,或在很长一段时间内逐渐洗脱肽(IE。 非常宽的色谱基峰)。因为这种变化是例外而不是规则,所以我们设计了我们的质量和保留时间校正算法,以通过排除异常标准来对这种变化具有鲁棒性。异常值被定义为这些标志标志,其质量或保留时间(分别为质量或保留时间校正)更大 Q3 + 1.5×IQR或小于 Q1 - 1.5×IQR在哪里 Q1 是较低的四分位数, Q3 是上四分位数,而狭隘的范围IQR = Q3Q1.

       具有高斯混合模型的功能集群 -

      具有质量和保留时间纠正的数据,其中包括所有由MapQuant检测到的所有运行中的所有电荷识别的峰值,我们现在解决了峰值匹配和对准问题。这里的挑战是匹配多个样本运行的相同的LC-MS功能,考虑到 m/z和retention time variation. Given the high performance MS instrumentation we are using, m/z 变异很小,但仍需要解决,因为复杂的蛋白质混合物可以产生非常相似的肽 m/z 价值观。然而,保留时间可以从运行以用于给定肽的运行显着变化,但保留时间校正将这种变化偏移到程度。
      峰值匹配过程从正在考虑的所有LC-MS运行的所有电荷识别的峰的联合开始。每个峰值由其定义 m/z,rt,和 z。每个峰值在其各自的运行中也具有观察到的强度,并且可以是序列识别的地标。
      峰值匹配过程的第一步是使用序列鉴定的地标肽{p1, p2,......, pl }确定 m/z和RT 公差。对于每种肽 PI.,我们计算了 m/z和RT variation as the difference of the minimum and maximum observed m/z 分别为RT值。让我们 m/z 别的变异 L 肽是 M = {m1, m2,......,毫克并且相应的RT变化是 R = {r1, r2,......, rl.}。让 M1M3 是较低和上四分位数 M。同样让我们 R1R3 是较低和上四分位数 R。定义异常值,因为这些点位于间隔范围超过1.5倍,我们定义了 m/z和RT tolerances as the m/z和RT variation of landmarks that are not outliers.
      m/ztolerance=(M3+1.5×(M3M1))(M11.5×(M3M1))  = 4×(M3M1)
      (eq。4)


      RTtolerance=(R3+1.5×(R3R1))(R11.5×(R3R1))= 4×(R3R1)
      (eq.5)


      第二步是通过峰值来排序 m/z和partition them into m/Z条 这样的邻居 m/z 条带内的特征分隔小于 m/z宽容, 然而 m/z 不同条带的分配超出了多个 m/z宽容。因此, m/z 条带是自适应的,并且在邻近时具有边界 m/z 任务不同的不同 m/z 耐受性,因此,根据定义,属于不同的肽。的制作 m/z 条带将峰值对齐过程划分为更小的独立任务,使匹配过程更加易于易于和并行提供提供更可靠的匹配。
      每个 m/z 条带表示一个或多个肽,跨越LC-MS运行的整个RT范围,并且可以含有几个峰的任何地方到几百峰。在每个内部执行峰值匹配和对齐 m/z 剥离并需要:(i)确定条带中的峰值数量和(ii)计算这些峰的位置(m/z,rt)。充电状态保持分开,对每个观察到的充电状态重复该过程。
      使用基于模型的群集执行峰值匹配(
      • 班菲尔德J.D.
      • raftery a.e.
      基于模型的高斯和非高斯聚类。
      ,
      • 福利C.
      • raftery a.e.
      MCLUST:基于模型的集群软件和判别分析。
      )使用期望最大化算法(
      • 格尔曼A.
      • Carlin J.B.
      • 斯特恩H.S.
      • 鲁宾D.B.
      )对于高斯混合模型参数估计。峰值匹配只需要 m/z和RT of the peak into account and does not use intensity during the peak clustering operation. For each 匹配的峰值,我们假设它在(m/z,RT)空间由μ表示,并且该峰的观察到的坐标以高斯方式围绕μ左右,以平均μ和协方差σ,因此它由其表示
      fk(x|μk,Σk)= exp {12(xμk)TΣk1(xμk)}(2π)d/2|Σ|1/2
      (eq。6)


      在哪里 x 代表数据(由此匹配峰括的成分峰), k 是指定匹配的峰值的整数下标,以及 d 是尺寸的数量(在我们的情况下= 2)。假设这一点 m/z 地带有 K 匹配的山峰, 即K. ∈ {1,2, …,K},条带由混合物表示 K 高斯峰。可能性功能(
      • 班菲尔德J.D.
      • raftery a.e.
      基于模型的高斯和非高斯聚类。
      )对于这种高斯混合模型如下。
      L(μ1, K,μK;Σ1, K,ΣK;τ1, K,τK|x)= i=1n k=1Kτkfk(xi|μk,Σk)
      (eq。7)


      这里τ代表混合比例, IE。 给定观察到的峰值的概率来自 k匹配峰值,和 n 是数据中的观察数, IE。 峰值的数量 m/z 正在考虑的条带。的位置 K 山顶在 m/z 通过使用期望最大化以迭代方式最大化这种似然函数(或等效地最大化可能性的对数或对数)来确定条带。
      在上面的聚类中,我们假设匹配峰的数量 K 在A. m/z 已知条带基于观察到的数据来估计这些峰的位置。匹配峰值的最佳数量 K选择 对于一种条带,使用贝叶斯信息标准(BIC)确定。 BIC是最大化的日志可能性的值,对于模型中的参数数量的惩罚:BIC = 2lr log(n) 在哪里 l 是模型的最大化的对数可能性, r 是参数的数量,和 n 是数据点数(
      • KASS R.E.
      • raftery a.e.
      贝叶斯因素。
      )。
      此外,在基于模型的聚类中,协方差矩阵σk 由特征值分解σ参数化k = λkdkakdkt. (
      • 福利C.
      • raftery a.e.
      MCLUST:基于模型的集群软件和判别分析。
      )。在这个表示中,σ的主要组成部分的方向k 是由 DK., AK. 确定密度轮廓的形状,λk 指定相应的椭圆体的卷。这些方向,体积和形状特性是根据数据确定的,适用于各种约束参数化( 例如 等于体积球面方差,恒定方差,无约束方差等(参见参考文献。
      • 福利C.
      • raftery a.e.
      MCLUST:基于模型的集群软件和判别分析。
      有关详细信息))评估以确定观察到的峰值中的最佳模型 m/z strip.
      一旦估计了最佳簇数和这些集群的位置 m/z 条带,我们将质心落在的集群 m/z和 RT容差限制。这是为了避免单个肽的不必要分裂成多个匹配的峰,这偶尔会发生上述聚类方法。
      将基于模型的聚类方法应用于所有 m/z 条带产生了一系列匹配的峰值,这些峰被视为所有LC-MS运行的共同特征空间。每个匹配的峰值由(m/z,rt, z)三重态,由峰值从一个或多个群体聚集在一起的峰构成。一旦建立了共同的峰集,就基于构成每个匹配峰的观察到的峰的强度确定各种样品中的这些峰的强度。从单个样本运行中可能有多个峰值,该峰值落入单个匹配的峰值;在这种情况下,该样本的匹配峰的最终强度是多峰强度的总和。如果来自运行的单个峰值落入匹配的峰值,则相应的强度被携带;特定运行中缺少的匹配峰值标记为缺失。此外,来自地标的任何肽标识被携带,并且匹配的峰值标有地标的身份。峰值匹配和对齐过程的最终结果是一个强度表,其行表示匹配峰值的特征,其列代表样本(或运行)。
      峰值匹配算法主要作为R语言库实现(
      R开发核心团队
      )支持shell和perl脚本。该算法已并行化以有效地利用群集计算环境。

       定量数据分析

      通过串联匹配将来自匹配特征的肽序列分配给母体蛋白。然后按母体蛋白分选匹配和分组。所有丰度值都被标准化为SAMPQUANT识别的所有功能的总和进行实验和日志2-transformed。日志2 转化有效地重新分配了观察到正态分布的丰度值。该转换由Box Cox分析(未显示数据)支持(
      • Sokal R.R.
      • rohlf f.j.
      )。通过平均样品复制来计算平均肽丰度。
      通过在所有浓度上通过其最大观察到的强度值缩放给定肽的每个丰度值来构建校准曲线。将未在给定浓度观察到的肽的百分比分配。然后在每个测量的浓度下对给定蛋白质或蛋白质组的所有肽进行平均。
      通过使用平均肽丰富通过减法在日志空间中计算比率。随后通过平均所有组成肽比率来计算蛋白质比率,并将2持续到该平均值的功率。
      通过针对给定样本的所有技术复制(LC-MS运行)的中位数来检测匹配峰值显着改变匹配峰值,然后使用具有多个假设的信号 - 噪声标记选择算法校正了1%的多假设校正的错误发现率阈值样本组(
      • golub t.r.
      • Slonim D.K.
      • Tamayo P.
      • Huard C.
      • Gaasenbeek M.
      • Mesirov J.P.
      • 收集H.
      • LOH M.L.
      • 下降J.R.
      • Caligiuri M.A.
      • 布卢姆菲尔德C.D.
      • 着陆器E.S.
      癌症的分子分类:基因表达监测的阶级发现和课程预测。
      ,
      • Benjamini Y.
      • Hochberg Y.
      控制虚假发现率:多次测试的实用和强大的方法。
      )。

      结果

       地标匹配的身份传播 -

      地标匹配通过使用相对色谱洗脱顺序信息和序列鉴定的“地标”提供传统色谱对准的替代方法,以将肽标识分配给LC-MS峰值并在多个LC-MS实验中传播它们。该过程是说明的 Fig. 2。这是通过在LC-MS实验中执行有限数量的数据相关的MS / MS扫描获取来实现,所述LC-MS实验主要用于色谱分辨率和量化。通常,由地标匹配传播的分配的数量取决于对LC-MS进行的样本的复杂性。对于简单的样本,许多肽将被MS / MS扫描采样,并且具有地标匹配将采用相对较少的任务。然而,对于诸如细胞裂解物的复杂样品,地标匹配可能负责将肽序列分配到大量的LC-MS峰,尤其是未选择用于MS / MS测序的低丰度。
      载体匹配甚至为用于校准系统的简单蛋白质混合物(比例混合)并确定比率的稳健性(可变形混合),也增加了价值。在这些实验中,平均直接序列序列序列序列。地标匹配后,平均281±44峰具有序列分配,增加70%。这些匹配的假阳性率可以根据等式2和3中描述的公式评估。在随机选择的LC-MS实验中,93%的匹配特征具有多个假设校正 p value of <0.005, but the p 每个单独匹配的值都保留并可用于进一步过滤。可以通过计算直接序列识别的峰值的数量来评估假负速率,但未由地标匹配分配。我们计算此速度<2%。在任何情况下,如果在地标匹配期间错过,我们可以将这些直接序列识别的峰值返回到数据集中。摘要可以在补充材料中看到地标匹配统计数据。
      有条不紊的匹配在更复杂的线粒体样本中的LC-MS实验中繁殖肽同一性,因此证明是非常有用的。这里平均序列鉴定了1083峰/实验。地标匹配增加了一个额外的685峰/实验。再次匹配偶然的可能性极低。在随机选择的实验中,98%的任务有 p <0.005,所有作业都有 p <0.04。在这种情况下,假负率略高(13%),也许表明该地标匹配得分阈值设置得太高,但是再次将直接测序的肽很容易被合并回数据集。
      使用相对(而不是绝对)色谱保留时间标准允许使用不同的设计与相关的LC-MS实验一起传播肽同一性。在实践中,可以利用具有更多MS / MS光谱的更长的分离,以实现样品的“覆盖”并增加BASIS. SET.。或者,可以使用较低性能仪器的数据来增强BASIS. SET.。事实上,我们以更高浓度的分析物和MS到MS / MS扫描率为1:10而不是1:3来执行LC-MS实验,而不是1:3来填充我们的B.ASIS. SET. 在某些情况下(识别实验;见“实验程序”)。我们可以通过跟踪C的使用来估计这种外部数据集的效用同族 EXperimentiment. 在地标匹配期间。通常,通过与外部C的地标匹配来制作超过三分之一的肽标识分配同族 EXperimentime.。某些肽可以仅在鉴定实验中被测序,但通过地标匹配可分配到量化实验中的特征。地标匹配使得能够以下面给出的标记方式,在多个样品,条件等中鲁棒定量肽和蛋白质。
      使用另一个地标匹配技术来增加线粒体提取物中存在的变异混合物肽的覆盖率。由于存在成千上万的线粒体肽,而不是在鉴定或定量LC-MS实验中直接测序变化混合物肽,用于这些样品。因此,BASIS. SET. 用于线粒体实验的使用具有这些肽的缺乏。但是,通过使用来自变异混合和比例混合LC-MS实验的数据作为B的数据ASIS. SET.,我们能够增加7-12(混合物中蛋白质总数)和映射到101至155的特征的变异混合物肽的数量。最终这使得所有这些蛋白质12变异混合物在复杂的混合物中混合蛋白。

       跨越2.5级的无标记量化 -

      我们在典型的实验动态范围内构建了三十年摩尔丰富的蛋白质混合物。每个混合物被独立制备,而不是通过母系混合物的连续稀释来引入现实世界样品制备噪音。显示在 图3A 是属于蛋白质的所有肽的复合校准,其丰富的蛋白质在刻度混合中变化。用二次配合显示 R2 = 0.98。可以看到规模混合物中单个蛋白质的结果 表IIIII. 图3B. 显示属于蛋白质的肽的再现性,其丰富在所有刻度混合物中保持恒定的蛋白质。与立即明显一样,与其他混合物相比,混合H是一个异常值,尽管重复尝试制备这种混合物,但我们无法让它与其他混合物同意。但是,它是一般的过程的强大性能(与其他混合物相比),这使得能够容易的异常识别。
      图缩略图GR3.
      图3。规模混合中肽数据的校准。A,尺度混合中所有可变蛋白的缩放肽丰度的复合平均值。在“实验程序”下描述了缩放和平均值。用二次配合显示 R2 = 0.98。 B,在规模混合物中所有恒定蛋白质的缩放肽丰度的复合平均值。这 混合信 (看 )显示在数据点旁边。所有九点的平均值为0.50,变异系数为12%。 误差酒吧 显示S.E.在 AB.
      T有能力的 II具有可变浓度的蛋白质
      蛋白质名称R2LOQ.肽数量
      抑肽蛋白0.87304
      碳酸酐酶0.901010
      卵蛋白(鸡)0.951013
      白蛋白0.922155
      Ribonuclease A.0.831006
      酪蛋白(α-S1和-S2)0.99345
      β-乳酰脱蛋白0.88327
      myoglobin(马)0.89145
      纤维蛋白原β链0.96326
      合成的0.981331
      T有能力的 III蛋白质在所有混合物中保持恒定
      蛋白质名称丰富平均数简历肽数量
      FMOL.%
      转铁蛋白(人)100.5326181
      纤溶酶原(人)30.325639
      β-半乳糖苷酶(大肠杆菌)10.289428
      合成的N / A.0.5012248
      这些结果证明了平台在肽水平上以至少2.5级浓度级别进行定量的能力。量化中使用的特征的集成MS信号峰值体积(丰度)范围超过4个数量级,展示了理论动态范围>平台10,000。

       鲁棒的无标签量化比率 -

      我们向我们的实验室提出了五种不同的成员,独立制备两种蛋白质混合物的胰蛋白酶摘要(可变性混合α和β)。这是为了模仿现实世界样本的变化。然后用5个重复分析这些样品,每次重复总共50分析。从蛋白质组学数据计算的比率与已知比率吻合良好(Fig. 4)所有蛋白质和实验室成员的平均绝对偏差<20%。在单一实验中,我们测量从0.1至50(500倍)(500倍)的肽比再次示出了平台的高动态定量范围。对于在混合α和β之间改变的蛋白质,始终计算正确的变化方向,并且在所有情况下,比率显着不同( p <0.01)。相反,蛋白质持续的比例没有明显不同于1。
      图缩略图GR4.
      图4。可变性混合中的比率测量。 已知的比率显示在 黑色的 旁边的测量比 白色的。 *表示统计学意义 p <0.01,比率不同,然后1。 误差酒吧 代表观察到的高和低范围(在独立制剂中)。 βG,β-半乳糖苷酶; PLS.,纤溶酶原; OV.,卵泡; 加利福尼亚州, 碳酸酐酶; alb,血清白蛋白; rnase.,Ribonuclease a; 迈诺,Myoglobin; FBR. β,纤维蛋白原β; TFN.,转铁蛋白; 加利福尼亚州S,α-酪蛋白; 4月,抑肽蛋白; βLG.,β-乳酰叶蛋白。
      重要的是,该平台能够精确地量化跨各种绝对摩尔浓度的比率。 1至10氟酚的β-半乳糖苷酶的比例在α-酪蛋白的10至100摩尔醇的比例中容易被视为。在5-10氟醇范围内容易检测2倍的比率(卵烧蛋和转铁蛋白, p = 2.3 × 10−11和9.3 × 10−29, 分别)。此外,在单个LC-MS实验中跨越的浓度范围范围为1-200 fmol,示出了在样品本身中存在的各种分析物水平的比率计算的独立性。
      计算的鲁棒性部分是由于大量生物和技术复制的肽的测量值的存在。 “稀疏”数据将导致更高的误差估计和降低统计学意义。通过地标匹配的肽分配是在不支持MS / MS数据的情况下,能够“填写”数据矩阵的主要技术。鲁棒性对于识别出显着变化的蛋白质组成的多种肽测量(IE。 比率聚类)。与通过高斯混合模型的峰值匹配组合的比率聚类(见下文)可以导致对指示状态变化的新颖,身份不明特征的发现(IE。 a biomarker).

       峰值匹配 via a Gaussian Mixture Model and Pattern Recognition—

      我们分析了50变形混合LC-MS与上述峰值匹配算法运行。通过这个过程,将157,774 LC-MS特征合并为14,109个匹配的峰,形成所有LC-MS运行的共同特征,并且存在于一个或多个运行中(见 通过匹配数量的运行分发的补充信息)。宽容 m/z 这些簇的尺寸为2.9ppm,在RT维度为2.71分钟。先前通过地标匹配以序列水平识别431峰。少数(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      地标肽的分为两种或更多种峰,表明LC-MS特征的偶尔簇没有完全聚结。但是,我们估计这种情况发生在频率<9%,可以通过使用略微松动的公差来弥补 m/z和RT dimensions. The matched peaks were identified by the (m/z,rt, z)三重态(在已知时的相关序列)。每个运行中的匹配峰的强度用于随后的模式识别。
      区分β与混合物β的峰值峰值的标记选择结果 Fig. 5。很明显,选择作为标记的肽在样品类之间始终差异差异丰富。尽管已经通过地标匹配已经序列识别了一些差分匹配的峰,但绝大多数是未知的出处,代表新的标记发现的机会(见下文)。标记物选定峰的对比度容易在视觉上进行视觉分类变异性α和β。
      图缩略图GR5.
      图5。可变性的标记选择。 所示是热图,显示可显着改变可变性与α和β之间已知的峰值(具有已知的标识)。选定的标记有 p < 0.01. 是个人匹配的山峰。五 对于每个混合物代表五种单独的制剂。一种 红色块 到了 正确的 每个 表示匹配峰值匹配的峰值。这 规模 如图所示 底部.
      在两个混合物之间发现仅119个序列鉴定的峰(Slhtlfgdelck)中只有一个统计学差异,但实际上来自两个混合物中的组合物的蛋白质(BSA)。实际上,其比率在两个混合物之间以1:1.1测量。这恰好是一致的,可以通过我们的 p 价值阈值,但很可能不会被视为一个真实的世界标记。

       通过峰值匹配发现“小说”标记候选人 -

      我们使用胡椒管道发现发现在可变性混合的α和β组合物之间发现显着改变的峰值,最小5倍的变化(选择5倍阈值,用于简化随后的靶向MS / MS鉴定实验)。 232峰值具有假发现率的峰值<鉴定了1%(混合α的混合物α和118峰高114峰;参见 补充材料)。其中,通过地标匹配和/或直接测序识别了65个峰。我们设计了具有精确的质量含有列表(±10ppm)的LC-MS方法,以试图为232个峰的每个峰进行MS / MS光谱,并在α和β组合物的代表性混合物上测试它们。最终,获得MS / MS光谱的171个目标,119通过光谱搜索产生自信的识别。在65例之前鉴定的峰值中,获得了新的MS / MS光谱,其中63个。 59产生自信的识别,在每种情况下都同意了之前的鉴定(100%特异性,灵敏度为91%);另外四个光谱没有产生自信的识别。其余60个自信的峰鉴定,25属于通过设计的混合物中包含的蛋白质。除其中之一,其中之一来自蛋白质,其比例从混合α变为β。这表示鉴定的标记肽数增加38%。
      揭示了35个额外的峰来源于我们蛋白质股票中的污染物。例如,多种肽 大肠杆菌 检测到RNA聚合酶复合构件和伴侣,如显着变化(见 鉴定的蛋白质的补充信息)。这些必须是由于我们的β-半乳糖苷酶库存污染(混合物中唯一的蛋白质 大肠杆菌),它本身在两个混合物之间变化了10倍(我们随后核实粉状股票被污染;见 补充数据)。不是来自普通实验室污染物角蛋白的单一肽被鉴定为两种混合物之间的显着变化。这些结果强调了购买和使用蛋白质标准时质量评估的重要性。更重要的是,它证明了可以被认为是生物标志物的新型蛋白质的发现 事后 鉴定显示在两个样品组之间的改变的LC-MS特征,而无需先前了解其身份或甚至它们在混合物中的存在。对这些污染物蛋白质的无偏见发现类似于整个系统的世界验证。

       复杂混合物中的比率 -

      我们能够量化所有12种蛋白质的比例,这些蛋白质从小鼠肝线粒体中掺入蛋白质提取物中的可变性混合物。覆盖范围和估计错误与简单的混合物的误差不如由于这是一个单一的实验复制 相对 为变异性完成的五个单独混合。然而,我们仍然能够准确地测量所有变异混合物蛋白的已知比例(Fig. 6)。对于其两个混合物之间的比率变化的蛋白质,总是检测正确的改变方向。七种可变蛋白中的三种表现出强烈的统计学意义(三种七分之三 p <0.05;七分之五 p <0.1)。比率在两种混合物之间的蛋白质为1的蛋白质从未发现具有显着不同于统一的比率。尽管样品中存在成千上万的线粒体肽,因此获得了这些结果。
      图缩略图GR6.
      图6。在复杂混合物中测量比率。 已知的比率显示在 黑色的 旁边的测量比率 白色的。 *表示统计学意义 p <0.05,比率不同,然后1; 〜表示 p < 0.1. 误差酒吧 代表测量该蛋白质测量的肽中观察到的蛋白质范围(抑制蛋白酶(4月),所以没有显示错误栏)。缩写如下 .
      我们同时从〜3000肽中定量〜500线粒体蛋白的比率。对这些结果的分析将是另一个研究的主题,
      B. Chang和S.ACK,稿件准备。
      但发现〜50个蛋白质可根据2至6周的统计学意义而变化。我们计划通过执行峰值匹配,然后定向测序来完成我们的管道,以识别或加强我们的结果。

      讨论

      近年来,DNA微阵列技术用于研究基因表达已经彻底改变了生物学的学科。已经开发了许多工具来分析微阵列数据,并且已经使用这些新技术进行了无数的发现。蛋白质组学现在掌握了制作类似的贡献,并且非常希望利用所有以前的努力在建立数据挖掘和分析工具。关键差异是,蛋白质组学的实验不是“可寻求的”,因为我们无法预测 m/z LC-MS实验中的肽中肽的价值,洗脱时间和标识的方式,即微阵列设计者可以在微阵列上的特定位置合成特定DNA的特定DNA以进行杂交。
      辣椒旨在通过两种新策略解决其中一些困难:地标匹配和峰值匹配。而不是试图执行复杂的色谱对准,辣椒的目标是识别跨多个实验相同的LC-MS特征,其具有健康的实验变异的容差。地标匹配依赖于观察结果,其中混合物中的肽倾向于以相同的顺序洗脱,从色谱法运行以运行,无论保留时间还是均匀的梯度长度。以这种方式,地标匹配使用一个肽的相对保留特性与另一个肽的相对保留特性以跨LC-MS运行的传播标识。它是独一无二的,它是基本独立的,并且在实验中利用自信地鉴定的肽作为登记标记。它得到了帮助 但不依赖 MS / MS用于量化的采集。同时,它可以利用来自LC-MS实验的先前鉴定的肽的数据流,具有不同的色谱梯度或数据采集策略,因此是高度融合的。我们在简单和复杂的混合物中展示了其适应性和鲁棒性。峰值匹配通过使用传播的标识来执行粗校正的地标匹配,并导出可容许跨运行的LC-MS特征的群集。使用聚类而不是基于时间的时间的对准是根本上允许胡椒在一组相关实验中识别甚至识别未识别的肽。我们预计这项技术通过折叠多个LC-MS实验,通过伴随分馏方案来扩展到更复杂的样本 在Silico.。通过仔细选择合适的B.ASIS. SETS. 对于地标匹配,性能应接近未分耗的样本。同时,辣椒利用高性能数据和盲发现潜在标志物可以减少对样品分级的需求。
      我们通过检测结果的显着变化的峰值来证明了辣椒系统的无意但显着的验证 大肠杆菌 蛋白质。我们的混合物中只有一个蛋白质来自 大肠杆菌,其比率实际上变化了两个可变性混合。这些峰衍生自粉状库存中存在的污染物。使用本研究中使用的高性能仪器的二次益处是我们对此进行了准确的测量 m/z 新型候选标记的价值。这使我们能够快速关闭循环并使用准确的质量驱动的前体依赖性MS / MS采集识别候选者。我们在计算标记选择的1天内获得了新型标记的身份。对于那些已知存在于混合物中不同浓度的蛋白质,也导致不偏不倚的标记选择导致更大的肽覆盖率(以及因此更多的定量测量)。这对于积累统计证据至关重要的是,蛋白质的浓度在不同的生物态中真正不变。
      重要的是Pepper基于自由的可用工具,具有透明算法,可以进行检查和/或修改。虽然它是最适用于高性能仪器的,但它可能适用于各种仪器类型。它也应该适应其他量化策略,例如氧化赛。这与商业上可获得的工具相反,这与比较黑匣子相反。 Pepper确实需要一个重要的计算基础设施以有效运行,但是高度并行化的多处理器系统现在是普遍的,并且PEPPER旨在在高度分布式的集群环境中工作。所需的计算能力的数量与手中极其困难的任务的大小相当。
      使用辣椒作为基础,我们现在可以开始探索定量蛋白质组学中的其他挑战,例如用于标准化蛋白质表达的计算技术,以及更应用的诸如生物标志物发现的兴奋。我们充分预期,该平台将能够在从这些仪器获得的MS数据中恢复大量目前未分发的信息,同时大大提高了获得甚至次要的序列标识的准确性和效率 m/z 发现峰值跨样品改变。我们预计这些功能将导致鉴定在疾病中差异调节的较低丰度蛋白的数量增加 相对 健康。恢复该信息以及增加的覆盖深度可能导致有用候选生物标志物的发现率增加。

      致谢

      我们感谢Vamsi Mootha博士和Betty Chang进行线粒体蛋白质提取物的善意。我们还感谢CARR实验室的成员,用于对本研究进行蛋白质摘要,特别是β-半乳糖苷酶污染数据的Eric Kuhn。

      补充材料

      参考

        • maccoss m.j.
        • 马修D.E.
        蛋白质组学的定量女士:教授一只新的狗旧技巧。
        肛门。化学。 2005; 77: 294A-302A
        • ong s.e.
        基于质谱的蛋白质组学转变定量。
        NAT。化学。 BIOL。 2005; 1: 252-262
        • Gillette M.A.
        • MANI D.R.
        • carr s.a.
        蛋白质组学生物标志物发现的模式地。
        J.蛋白质组。 2005; 4: 1143-1154
        • 安德森N.L.
        • 安德森N.G.
        人血浆蛋白质组:历史,性格和诊断前景。
        摩尔。细胞。蛋白质组学。 2002; 1: 845-867
        • 沉Y.
        • 摩尔r.j.
        • 赵立
        • Blonder J.
        • Auberry D.L.
        • 马萨隆C.
        • PASA-TOLIC L.
        • 赫克森k.k.
        • Auberry K.J.
        • 史密斯r.d.
        高效在线固相提取耦合到15-150-μm-i.d。柱液相色谱法用于蛋白质组学分析。
        肛门。化学。 2003; 75: 3596-3605
        • Adkins J.N.
        • varnum s.m.
        • Auberry K.J.
        • 摩尔r.j.
        • 安妮尔N.H.
        • 史密斯r.d.
        • Springer D.L.
        • 磅数J.G.
        朝向人血清血清蛋白质组:通过与质谱分离的多维分离分析。
        摩尔。细胞。蛋白质组学。 2002; 1: 947-955
        • Tirumalai R.S.
        • Chan K.C.
        • 普里欧D.A.
        • isaaq h.j.
        • Conrads T.P.
        • veenstra t.d.
        低分子量人血清蛋白质的表征。
        摩尔。细胞。蛋白质组学。 2003; 2: 1096-1103
        • 沉Y.
        • Jacobs J.M.
        • 营地II,D.G.
        • 方罗。
        • 摩尔r.j.
        • 史密斯r.d.
        • 小W.
        • 戴维斯R.W.
        • tompkins r.g.
        超高效强阳离子交换LC / RPLC / MS / MS,用于高动态范围的人血浆蛋白质组。
        肛门。化学。 2004; 76: 1134-1144
        • 百素e.f.
        • 阿尔德卡尼上午
        • Hitt B.A.
        • Levine P.J.
        • Fusaro V.A.
        • Steinberg S.M.
        • 磨坊G.B.
        • Simone C.
        • Fishman D.A.
        • kohn e.c.
        • Liotta L.A.
        在血清中使用蛋白质组学模式以鉴定卵巢癌。
        柳叶刀。 2002; 359: 572-577
        • 百素e.f.
        • ZOON K.C.
        • kohn e.c.
        • 巴雷特J.C.
        • Liotta L.A.
        临床蛋白质组学:将台边承诺转化为床边现实。
        NAT。 Rev.药物讨论。 2002; 1: 683-695
        • Villanueva J.
        • 菲利普J.
        • Entenberg D.
        • chaparro c.a.
        • Tanwar M.K.
        • 荷兰e.c..
        • Tempst P.
        通过磁性颗粒辅助,自动化样品加工和MALDI-TOF质谱法的血清肽分析。
        肛门。化学。 2004; 76: 1560-1570
        • 王W.
        • 周H.
        • 林H.
        • 罗伊斯。
        • shaler t.a.
        • 山L.R.
        • 诺顿S.
        • Kumar P.
        • 安德雷姆。
        • Becker C.H.
        通过具有同位素标记或掺入标准的质谱法通过质谱法定量蛋白质和代谢物。
        肛门。化学。 2003; 75: 4818-4826
        • Zimmer J.s.
        • Monroe M.E.
        • 钱W.J.
        • 史密斯r.d.
        蛋白质组学数据分析和显示使用精确质量和时间标签方法的进步。
        质谱。录 2006; 25: 450-482
        • Page J.S.
        • 马克伦C.D.
        • 史密斯r.d.
        FTICR质谱法定义和定量生物丹腔。
        Curr。拍摄。 Biotechnol。 2004; 15: 3-11
        • ENG J.K.
        • mccormack a.l.
        • YALES III,J.R.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • Schutz F.
        • kapp e.a.
        • SIMPSON R.J.
        • 速度t.p.
        用于预测肽串联MS产品离子强度的统计模型。
        生物学习。 SOC。跨。 2003; 31: 1479-1483
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • nesvizhskii a.i.
        • 凯勒阿。
        • Kolker E.
        • Aeberberold R.
        用串联质谱法鉴定蛋白质的统计模型。
        肛门。化学。 2003; 75: 4646-4658
        • ulintz p.j.
        • 朱茹
        • 秦Z.S.
        • 安德鲁斯P.C.
        使用较新的机器学习方法改进了质谱数据库搜索结果的分类。
        摩尔。细胞。蛋白质组学。 2006; 5: 497-509
        • venable J.D.
        • 董M.Q.
        • Wohlschlegel J.
        • 迪林A.
        • yates j.r.
        串联质谱法定量分析复合肽混合物的自动化方法。
        NAT。方法。 2004; 1: 39-45
        • Washburn M.P.
        • Ulaszek r.r.
        • YALES III,J.R.
        多维蛋白质识别技术复杂生物混合物定量蛋白质组学分析的再现性。
        肛门。化学。 2003; 75: 5054-5061
        • 汤。
        • Ali-Khan N.
        • 核刀L.A.
        • Levenkova N.
        • Rux J.J.
        • Speicher D.W.
        结合蛋白质和肽分离方法的新型四维策略能够检测人血浆和血清蛋白质中的低丰度蛋白质。
        蛋白质组学。 2005; 5: 3329-3342
        • Listgarten J.
        • Emili A.
        使用液相色谱 - 串联质谱法对比较蛋白质组学分析的统计和计算方法。
        摩尔。细胞。蛋白质组学。 2005; 4: 419-434
        • Hilario M.
        • Kalousis A.
        • Pellegrini C.
        • Muller M.
        蛋白质质谱的加工和分类。
        质谱。录 2006; 25: 409-449
        • strittmatter e.f.
        • Rodriguez N.
        • 史密斯r.d.
        使用多元回归配件的蛋白质组学的高质量测量精度测定:应用于电喷雾电离飞行时间质谱法。
        肛门。化学。 2003; 75: 460-468
        • Lipton M.S.
        • PASA-TOLIC L.
        • 安德森G.A.
        • 安德森D.J.
        • Auberry D.L.
        • Battista J.R.
        • 戴利姆。
        • Fredrickson J.
        • 赫克森k.k.
        • Kostandarithes H.
        • 马萨隆C.
        • Markillie L.M.
        • 摩尔r.j.
        • romine m.f.
        • 沉Y.
        • stritmatter e。
        • tolic n.
        • UDSeth H.R.
        • Venkateswaran A.
        • 黄酸。
        • 赵立
        • 史密斯r.d.
        通过使用精确的质量标签全局分析Deinococcus radiodurans蛋白质组。
        Proc。 Natl。阿卡。 SCI。美国。 2002; 99: 11049-11054
        • Prakash A.
        • Mallick P.
        • Whiteaker J.
        • 张H.
        • Paulovich A.
        • fl
        • 李H.
        • Aeberberold R.
        • Schwikowski B.
        基于质谱的比较蛋白质组学的信号图。
        摩尔。细胞。蛋白质组学。 2006; 5: 423-432
        • Radulovic D.
        • jelveh s.
        • ryu s.
        • 汉密尔顿
        • FOSS E.
        • 毛泽东。
        • Emili A.
        使用液相色谱 - 串联质谱法全球蛋白质组学分析和生物标志物发现信息平台。
        摩尔。细胞。蛋白质组学。 2004; 3: 984-997
        • 史密斯C.A.
        • 想要e.j.
        • O'Maille G.
        • Abagyan R.
        • Siuzdak G.
        XCMS:使用非线性峰对准,匹配和识别处理用于代谢物分析的质谱数据。
        肛门。化学。 2006; 78: 779-787
        • Silva J.C.
        • 丹尼R.
        • dorschel c.a.
        • Gorenstein M.
        • kass i.j.
        • 李G.Z.
        • McKenna T.
        • nold m.j.
        • 理查森克。
        • 年轻的P.
        • Geromanos S.
        通过精确质量保留时间对定量蛋白质组学分析。
        肛门。化学。 2005; 77: 2187-2200
        • Silva J.C.
        • Gorenstein M.v.
        • 李G.Z.
        • vissers J.P.
        • Geromanos S.J.
        LCMSE绝对定量蛋白质:平行MS采集的德形。
        摩尔。细胞。蛋白质组学。 2006; 5: 144-156
        • AACH J.
        • 教堂。
        将基因表达时间序列与时间翘曲算法对齐。
        生物信息学。 2001; 17: 495-508
        • 卡尔沃S.
        • jain m.
        • 谢X.
        • sheth s.a.
        • 昌B.
        • Goldberger O.A.
        • Spinazzola A.
        • Zeviani M.
        • carr s.a.
        • Mootha V.K.
        通过整合基因组学系统鉴定人体线粒体疾病基因。
        NAT。遗传。 2006; 38: 576-582
        • Mootha V.K.
        • Bunkenborg J.
        • 奥尔森J.V.
        • Hjerrild M.
        • wisniewski J.R.
        • 斯赫尔e.
        • Bolouri M.S.
        • 雷H.N.
        • Sihag S.
        • Kamal M.
        • 帕特森N.
        • 着陆器E.S.
        小鼠线粒体中蛋白质组成,组织多样性和基因调控的综合分析。
        细胞。 2003; 115: 629-640
        • kersey p.j.
        • Duarte J.
        • 威廉姆斯A.
        • 卡拉维多奥鲁Y.
        • Birney E.
        • APWEILER R.
        国际蛋白质指数:蛋白质组学实验的集成数据库。
        蛋白质组学。 2004; 4: 1985-1988
        • Leptos K.C.
        • Sarracino D.A.
        • Jaffe J.D.
        • 克拉斯汀B.
        • 教堂。
        MapQuant:用于大规模蛋白质量化的开源软件。
        蛋白质组学。 2006; 6: 1770-1782
        • 班菲尔德J.D.
        • raftery a.e.
        基于模型的高斯和非高斯聚类。
        生物识别技术。 1993; 49: 803-821
        • 福利C.
        • raftery a.e.
        MCLUST:基于模型的集群软件和判别分析。
        技术报告342号。 华盛顿大学, 华盛顿州西雅图市1998
        • 格尔曼A.
        • Carlin J.B.
        • 斯特恩H.S.
        • 鲁宾D.B.
        贝叶斯数据分析。 CRC出版社, Boca Raton,FL2003
        • KASS R.E.
        • raftery a.e.
        贝叶斯因素。
        美国统计协会杂志。 1995; 90: 773-795
        • R开发核心团队
        R:统计计算的语言和环境。 统计计算的基础, 维也纳,奥地利2005
        • Sokal R.R.
        • rohlf f.j.
        生物谱系。 3 ed。 W. H. Freeman和Co., 纽约1995: 887
        • golub t.r.
        • Slonim D.K.
        • Tamayo P.
        • Huard C.
        • Gaasenbeek M.
        • Mesirov J.P.
        • 收集H.
        • LOH M.L.
        • 下降J.R.
        • Caligiuri M.A.
        • 布卢姆菲尔德C.D.
        • 着陆器E.S.
        癌症的分子分类:基因表达监测的阶级发现和课程预测。
        科学。 1999; 286: 531-537
        • Benjamini Y.
        • Hochberg Y.
        控制虚假发现率:多次测试的实用和强大的方法。
        J. R. Stat。 SOC。 Ser。 B. 1995; 57: 289-300