转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性*

      如果特定的微阵列特定统计工具的大量收集适用于定量霰弹枪蛋白质组学数据集的分析,则肯定会促进蛋白质组学研究的重要进步。在这里,我们分析了两种大型多维蛋白质识别技术数据集,其中含有八个复制的酵母全细胞裂解物的可溶性部分,含有九个重复的人免疫沉淀物,以测试标准化的光谱丰度因子(NSAF)值是否与基本相似统计特性与Affymetrix GeneChip数据的转录性丰度值。首先,我们显示了这两种数值的类似动态范围和分布属性。接下来,我们显示蛋白质的标准偏差(S.D.)'在权力法之后,S NSAF值依赖于蛋白质本身的平均NSAF值。这种关系可以由权力法全球错误模型(PLGEM)建模,最初开发用于描述方差 - 相对 - 在GeneChip数据中存在的依赖。从NSAF数据集获得的PLGEM参数被证明令人惊讶地类似于在GeneChip数据集中观察到的典型参数。这种方法确定的最重要的常见特征是,尽管绝对术语的S.D.随着平均丰度的增加,复制丰度值增加,在相同条件下,变化系数,可变性的相对度量变小。接下来,我们表明,PLGEM参数与降低重复数量相当稳定。我们终于说明了PLGEM在鉴定差异丰富的蛋白质中可能施用的可能性,这可能会俯视标准统计测试。总之,我们认为,这一工作机构在分析NSAF数据集中奠定了应用微阵列特定工具的基础。
      近年来,生物医学研究界认识到需要将其重点从单一组成部分转移到整个系统层面以了解复杂的生理过程以及难以捉摸的病理条件(
      • IDEKER T.
      • Thorsson V.
      • ranish j.a.
      • 圣诞r.
      • 布勒J.
      • ENG J.K.
      • Bumgarner R.
      • Goodlett D.R.
      • Aeberberold R.
      • 引擎盖L.
      综合基因组和系统扰动代谢网络的蛋白质组学分析。
      ,
      • Kitano H.
      系统生物学:简要概述。
      ,
      • 玻璃纤维家长J.G.
      • Macbeath G.
      • 白色。
      • 索勒P.K.
      • Lauffenburger D.A.
      • Gaudet S.
      收集和组织系统蛋白质数据集。
      )。大规模排序项目提供了这些游戏中的玩家的全面列表,以及微阵列技术的进步(
      • Lipshutz r.j.
      • FODOR S.P.
      • gingeras t.r.
      • 洛克哈特D.J.
      高密度合成寡核苷酸阵列。
      ,
      • 大卫兰。
      • Huber W.
      • Granovskaia M.
      • Toedling J.
      • Palm C.J.
      • 博弗金L.
      • 琼斯T.
      • 戴维斯R.W.
      • Steinmetz L.M.
      酵母基因组中的转录高分辨率图。
      )和质谱(
      • Washburn M.P.
      • 擦拭。
      • YALES III,J.R.
      多维蛋白质识别技术大规模分析酵母蛋白质组。
      ,
      • Aeberberold R.
      基于质谱的蛋白质组学。
      )今天允许测量所有已知mRNA和细胞中众多蛋白质物种的丰度。下一个挑战是通过观察玩家的行为以及如何相互互动,逆转工程师“游戏规则”(
      • CSETE M.E.
      • DOYE J.C.
      生物复杂性的逆向工程。
      )。
      为此,可以通过以下问题示例,可以通过这些技术解决的第一层复杂性。由于正常的生物学过程,哪种转录物或蛋白质在给定的细胞中改变它们的丰度,响应于特定的扰动,或作为疾病的结果?虽然没有决定性,回答这种类型的问题已经证明有助于在几种生物系统中查明主要球员(
      • golub t.r.
      • Slonim D.K.
      • Tamayo P.
      • Huard C.
      • Gaasenbeek M.
      • Mesirov J.P.
      • 收集H.
      • LOH M.L.
      • 下降J.R.
      • Caligiuri M.A.
      • 布卢姆菲尔德C.D.
      • 着陆器E.S.
      癌症的分子分类:基因表达监测的阶级发现和课程预测。
      ,
      • 休斯。
      • 马顿M.J.
      • 琼斯A.R.
      • 罗伯茨C.J.
      • Stoughton R.
      • 盔甲C.D.
      • Bennett H.A.
      • Coffey E.
      • 戴H.
      • 他是.d。
      • Kidd M.J.
      • 王上午
      • Meyer M.R.
      • 斯莱德D.
      • lum p.y.
      • Stepaniants S.B.
      • 鞋匠D.D.
      • Gachtte D.
      • Chakraburtty K.
      • 西蒙J.
      • b
      • 朋友S.H.
      通过表达式配置文件的汇编功能发现。
      ,
      • 格兰皮精
      • vizzamelli c.
      • Pavelka N.
      • 福尔斯。
      • Persico M.
      • virzi E.
      • Rescigno M.
      • 摩洛G.
      • Ricciardi-Castagnoli P.
      通过全局基因表达分析显示的树突状细胞的诱导IL-2产生。
      ,
      • Florens L.
      • Washburn M.P.
      • Raine J.D.
      • 安东尼下午
      • 格劳宾M.
      • Haynes J.D.
      • Moch J.K.
      • 鼓起的n ..
      • Sacci J.B.
      • Tabb D.L.
      • Witney A.A.
      • 擦拭。
      • 吴y.
      • 加德纳M.J.
      • 持有人A.A.
      • 辛保人R.E.
      • yates j.r.
      • carucci d.j.
      疟原虫生疟原虫生命周期的蛋白质组学视图。
      )。与基于微阵列的转录组织相比,基于质谱的蛋白质组学(
      • Listgarten J.
      • Emili A.
      使用液相色谱 - 串联质谱法对比较蛋白质组学分析的统计和计算方法。
      不幸的是,在旨在回答上述问题类型的特定算法和软件方面,从统计和生物信息学的统计和生物信息学的贡献较少。因此,如果可以直接应用微阵列的统计工具的财富,以分析蛋白质组学数据,这很可能代表系统生物学快速进步的巨大效益。
      概念上,基于MS的蛋白质组学数据和基于微阵列的基因表达数据之间存在显着的相似性。主要认为两种技术都据信,以主要是无偏见的方式测量生物实体的丰富(
      • Washburn M.P.
      • 擦拭。
      • YALES III,J.R.
      多维蛋白质识别技术大规模分析酵母蛋白质组。
      ,
      • 王E.
      RNA扩增成功基因分析分析。
      ),允许使用数据的共同数学表示。两种类型的数据集通常表示为数值的矩阵,其中行代表小区中的不同转录物或蛋白质,列表示不同的微阵列杂交或MS运行,并且每个条目代表测量的丰度水平。微阵列数据分析师已经认识到很久以前,由于“许多基因 - 少量重复”问题(),标准统计工具不合适地分析这些数据矩阵(
      • Lonnstedt I.
      • 速度T.
      复制的微阵列数据。
      ,
      • 黄X.
      • 平移W.
      比较三种方法与复制高密度寡核苷酸阵列的方差估计。
      )。更确切地说,所有标准统计方法都依赖于判断两系列值之间的差异(这里代表在两个实验条件下的生物实体的丰富)显着高于偶然预期的变化。经典统计测试通过测量每个系列值内的复制措施之间的可变性来估计这种随机变化。但是当可用复制的数量小于分析的转录物(或蛋白质)的数量时,偶尔测量人工小或人工大标准偏差的可能性变得显着,可能导致误报和假的增加否定标识。要解决此问题,已开发了几种特定于微阵列的工具(
      • 黄X.
      • 平移W.
      比较三种方法与复制高密度寡核苷酸阵列的方差估计。
      ,
      • IDEKER T.
      • Thorsson V.
      • Siegel A.F.
      • 兜帽L.E.
      通过微阵列数据的最大似然分析测试差异表达基因的测试。
      ,
      • 袋手K.A.
      • Coombes K.r.
      • HESS K.R.
      • 提起D.N.
      • Abruzzo L.V.
      • 张W.
      在cDNA微阵列实验中鉴定差异表达基因。
      ,
      • Tusher V.G.
      • Tibshirani R.
      • 楚G.
      微阵列施加到电离辐射响应的显着性分析。
      ,
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。因此,测试这些方法是否适用于蛋白质组学数据的分析。
      这两种方法之间直接转移专业知识的一个障碍是广泛的信念,即由于核酸和多肽的化学性和用于分析它们的不同技术,必须用不同的组分析转录组数据和蛋白质组数据工具。直到最近,例如,LC-MS / MS(也称为“霰弹枪”)蛋白质组学甚至没有给予定量技术的定义,除非它与特定标记方法偶联,这将使它适用于蛋白质的相对定量在一个感兴趣的两个样本的等摩尔混合物中(
      • Gygi S.P.
      • rist b.
      • 格柏S.A.
      • Turecek F.
      • 凝胶M.H.
      • Aeberberold R.
      使用同位素编码亲和标记的复合蛋白混合物的定量分析。
      ,
      • 陶w.a.
      • Aeberberold R.
      通过稳定同位素标记和质谱法定量蛋白质组学的研究进展。
      )。但是通过霰弹枪蛋白质组学获得的诸如光谱计数的采样统计数据已被证明允许在单个样品中定量蛋白质(
      • 刘H.
      • Sadygov R.G.
      • YALES III,J.R.
      霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
      ,
      • 老为
      • Meyer-Arendt K.
      • Aveline-Wolf L.
      • 皮尔斯K.G.
      • 门多萨A.
      • 七夹J.R.
      • resing K.A.
      • ahn n.g.
      霰弹枪蛋白质组学定量人体蛋白质的无标记方法的比较。
      ,
      • 张B.
      • verberkmoes n.c.
      • Langston M.A.
      • Uberbacher E.
      • Hettich R.L.
      • Samatova N.F.
      检测无标签霰弹枪蛋白质组学中的差异和相关蛋白表达。
      )。例如,我们最近使用了归一化谱丰度因子(NSAF)
      使用的缩写是:NSAF,归一化光谱丰度因子; Mudpit,多维蛋白质识别技术; PLGEM,权力法全球错误模型; FDR,虚假发现率; S.D.,标准差; CV,变异系数; LP,对数阶段; SP,固定阶段;去,基因本体; BCA,双子胆酸; SAF,光谱丰度因素; FC, - 重量变化; STN,信号对噪声。
      1使用的缩写是:NSAF,归一化光谱丰度因子; Mudpit,多维蛋白质识别技术; PLGEM,权力法全球错误模型; FDR,虚假发现率; S.D.,标准差; CV,变异系数; LP,对数阶段; SP,固定阶段;去,基因本体; BCA,双子胆酸; SAF,光谱丰度因素; FC, - 重量变化; STN,信号对噪声。
      通过多维蛋白质识别技术(MUDPIT)获得的值,以确定人介质复合物内的相对蛋白质丰度(
      • Paoletti A.c.
      • parmely t.j.
      • Tomomori-Sato C.
      • 佐藤S.
      • 朱D.
      • Conaway R.C.
      • Conaway J.W.
      • Florens L.
      • Washburn M.P.
      不同型光谱丰度因子的不同哺乳动物介质复合物的定量蛋白质组学分析。
      )或用于鉴定酵母跨膜蛋白的丰度变化在富含富培养基(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。基于光谱计数的方法的一种特征,如NSAF,它们在数据集中提供了不同蛋白质之间的蛋白质丰度,并且适用于任何样品类型。在我们看来,这些代表了前进的重要步骤,使猎枪蛋白质组学数据概念性地与微阵列基因表达数据更相似。
      除了概念相似之处,微阵列特异性统计方法的适用性对霰弹枪蛋白质组学数据的分析最终还依赖于更实质的相似之处。至少,表示转录物或蛋白质丰度水平的数值应具有相似的统计特性,例如动态范围或值分布的整体形状。此外,如果蛋白质组学数据集和微阵列数据集遵守类似的全局错误模型,则很重要。例如,若干作者报道了基因表达数据的可变性取决于基因本身的平均表达水平并称为这种现象“方差 - 相对 - 依赖“(
      • 陈Y.
      • dougherty e.r.
      • Bittner M.L.
      基于比率的决定和cDNA微阵列图像的定量分析。
      ,
      • rocke d.m.
      • 德宾B.
      基因表达阵列测量误差模型。
      )。明确地考虑到这种关系已经显示出部分地解决了“多种重复”问题,并显着提高了鉴别差异表达基因的性能(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      ,
      • Huber W.
      • von heydebreebeck A.
      • 苏格兰·赫
      • Poustka A.
      • vingron m.
      差异稳定应用于微阵列数据校准以及差异表达的量化。
      ,
      • 赖特G.W.
      • 西蒙下午
      小微阵列实验中差异基因表达检测的随机方差模型。
      )。更具体地,我们报道了以前可以通过电力律全局误差模型(PLGEM)来建模与复制的Affymetrix GeneChip数据的标准偏差;使用PLGEM推导的标准偏差允许检测更高数量的真正差异表达基因,而不会增加假阳性率(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。然后将基于PLGEM的方法实施到可自由的生物导体中(
      • 绅士r.c.。
      • Carey V.J.
      • 贝茨下午
      • Bolstad B.
      • 偷偷摸摸的M.
      • Dudoit S.
      • 埃利斯B.
      • Gautier L.
      • GE Y.
      • 绅士J.
      • 霍希克斯。
      • Hothorn T.
      • Huber W.
      • IACUS S.
      • Irtizarry R.
      • 休息
      • 李C.
      • Maechler M.
      • rossini a.j.
      • Sawitzki G.
      • 史密斯C.
      • Smyth G.
      • Tierney L.
      • 杨杰。
      • 张继夫
      Biocometion:用于计算生物学和生物信息学的开放软件开发。
      )包装,称为“PLGEM”以及自动微阵列数据分析管道(
      • Pelizzola M.
      • Pavelka N.
      • Foti M.
      • Ricciardi-Castagnoli P.
      AMDA:用于自动微阵列数据分析的R包。
      )。这些实现已经应用于我们(
      • vizzamelli c.
      • Pavelka N.
      • Luchini A.
      • Zanoni I.
      • Bendickson L.
      • Pelizzola M.
      • Beretta O.
      • Foti M.
      • 格兰皮精
      • Nilsen-Hamilton M.
      • Ricciardi-Castagnoli P.
      地区对基因组转录分析揭示了甲卓酮对LPS诱导的激活和小鼠树突细胞迁移的影响。
      )以及其他作者(
      • iocino f.
      • Lentini L.
      • amato A.
      • Di Leonardo A.
      RB急性损失诱导小鼠初生成纤维细胞中的中心体扩增和非整倍性。
      ),成功分析了解决真实生物问题的真实微阵列数据。另一项研究报告称,二次模型的成功应用解释噪声差异与LC-MS蛋白质组学数据集中的平均峰强度之间的依赖性;这种错误模型的应用导致了与预期值更接近预期值的错误阳性率,而标准welch的假速率相比 t test (
      • 安德雷姆。
      • 罗伊斯。
      • 林H.
      • Becker C.
      • joho K.
      量化差分蛋白质组学的再现性:人血清蛋白质液相色谱 - 质谱的噪声分析。
      )。据我们所知,迄今为止在科学文献中迄今为止对霰弹枪蛋白质组学数据的同样详细的错误建模研究。如果证明NSAF数据也服从全球错误模型,这可以提高我们区分真实蛋白质丰富变化从随机波动的能力。
      因此,本作工作范围是将NSAF值表示的蛋白质丰度值的一般统计特性与通过GeneChip实验获得的转录物分析数据的统计学性能。使用两个大型泥浆数据集(一个包含酵母全细胞裂解物的可溶性分数的八个生物重复,并且含有九个技术复制的人蛋白复合体制备的一个),我们比较了全球主要统计参数的分布并测试了NSAF数据集是否存在以方差为特征 - 相对 - 与管理GeneChip数据类似的依赖。这项工作表明,通过这两个明显不同技术获得的定量值之间存在实质性相似性,并且为将基于PLGEM的方法和可能的其他微阵列特异性工具提供了基础,以识别差异丰富的蛋白质。

      实验步骤

       蛋白质提取酵母蛋白质组 -

      对于控制酵母数据集 酿酒酵母酿酒酵母 strain BY4741 (
      • Brachmann C.B.
      • 戴维斯A.
      • 成本G.J.
      • Caputo E.
      • 李杰。
      • Hieter P.
      • Boeke J.D.
      衍生自Saccharomyces Cerevisiae S288C的设计者删除菌株:用于PCR介导的基因破坏和其他应用的一种有用的菌株和质粒。
      )生长为中数对数阶段(A 在600纳米的1-1.5)中,在2.5升的富培养基中,由100ml 10×浓缩的生物申报1000包含含有氨基酸的氨基酸标记 14n或者 15n(剑桥同位素实验室,Adder,ma),20mg /升尿嘧啶,1.8克/升酵母氮碱,没有氨基酸和硫酸铵,2%葡萄糖。共生长了八种独立培养物,四个 14n-和四个 15N-培养基。通过以4000×离心20分钟收集细胞并在冷超纯水中洗涤20分钟 g 在4°C。将细胞粒料重悬于裂解缓冲液(310mM氟化钠,3.45mM钠烷基酸钠,12mM乙二胺四乙酸,250mM氯化钠和100mM碳酸钠)中,并使用二氧化硅玻璃珠粒破裂10个循环,由1分钟的涡旋组成在2,500 rpm下,在4°C时孵育30℃。通过以4000×离心20分钟除去不间断的细胞 g 在4°C。将上清液转移到50ml离心管中,通过离心将可溶性蛋白质与22,000×离心分离1小时 g 在4°C。收集含有可溶性蛋白质提取物的上清液,离心,并转移到清洁的50ml管中并储存在-80℃。蛋白质浓度通过双链烷酸(BCA)测定法(Pierce)测定。将八个独立样品组合成四个独立池,每个池中含有500μg的总量 14n-和 15在TCA沉淀和MUDPIT分析之前,N标记的蛋白质在1:1的比例下混合。
      对于对比生长期蛋白质组学分析, S. Cerevisiae. 应变达到4741 14n如前所述。对数阶段(LP)和固定相(SP)蛋白质组学分析分别在平均收集的细胞上进行 A 在4个复制实验中,在600nm为0.96±0.06和4.5±0.15。收集细胞并如前所述洗涤并在蛋白质提取之前储存在-80℃。对于蛋白质提取,将细胞粒料重悬于裂解缓冲液(310mM氟化钠,3.45mM钠钠钠,12mM乙二胺四乙酸,250mM氯化钠和100mM碳酸钠)中,并使用二氧化硅玻璃珠在12次组成使用珠母喇叭型1107900(BioPec Products Inc.),在4℃下孵育1分钟。通过以4000×离心30分钟除去珠子和细胞碎片 g 在4°C。收集上清液并以45,000×离心1.5小时 g 在4°C。收集含有整个细胞提取物的上清液并储存在-80℃。通过BCA测定(Pierce)测定蛋白质浓度。对于每个复制的实验和生长条件,对TCA沉淀脱盐的500μg蛋白质提取物进行Mudpit分析。

       蛋白质萃取介质 -

      RNA聚合酶II转录的哺乳动物介质是由30多个亚基组成的多素蛋白复合物。稳定地转染的HeLa细胞系,每个Hela细胞系表达不同的旗帜标记的介质亚单元, IE。 建立了人类Med9,Med10,Med19,Med26,Med28和Med29或Med9或Med19的小鼠直径。通过如前所述的抗标志 - 琼脂糖免疫亲和性色谱法提取和纯化来自这些细胞系的核蛋白质(
      • 佐藤S.
      • Tomomori-Sato C.
      • parmely t.j.
      • Florens L.
      • Zybailov B.
      • Swanson S.K.
      • 银行C.A.
      • 金杰。
      • Cai Y.
      • Washburn M.P.
      • Conaway J.W.
      • Conaway R.C.
      通过多维蛋白质识别技术鉴定的一套共识哺乳动物介质亚单位。
      )。合并涉及国旗标签介质亚基的所有制剂的第三颗粒,通过BCA测定(Pierce)量化,并通过BCA测定量定量。将汇集的混合物分成相同的等分试样为10μg,其中九个在本研究中独立地分析。

       Mudpit分析 -

      蛋白质混合物是TCA沉淀的,尿素变性,还原,烷基化,并用内蛋白酶Lys-C消化,然后改性胰蛋白酶消化(来自罗氏应用科学),如前所述(
      • Washburn M.P.
      • 擦拭。
      • YALES III,J.R.
      多维蛋白质识别技术大规模分析酵母蛋白质组。
      )。来自酵母蛋白或介体络合物的肽混合物分别加载到分开的相或三相100-μm熔融二氧化硅微杂种柱上,均用5μmc填充18 反相(Aqua,Phenomenex),强阳离子交换颗粒(Partisphere SCX,Whatman)和反向阶段(
      • 麦当劳W.H.
      • OHI R.
      • Miyamoto D.T.
      • mitchison t.j.
      • YALES III,J.R.
      三种直接耦合HPLC MS / MS策略的比较,用于鉴定复杂混合物的蛋白质:单尺寸LC-MS / MS,2相Midpit和3相Midpit。
      )。装载的微储柱符合四元安捷伦1100系列HPLC泵和配备有纳米LC电喷雾电离源(Thermofinnigan)的LTQ线性离子捕集离子阱质谱仪。完全自动化的七步Mudpit在电喷雾肽上进行,如前所述,用于介体样品的电喷雾肽(
      • Florens L.
      • Washburn M.P.
      多维蛋白质识别技术的蛋白质组学分析。
      ),而如前所述,对酵母蛋白质组分析进行了12步Mudpit运行(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。每个全MS扫描(从400到1600 m/z 范围)之后使用数据依赖性采集之后的五个MS / MS事件,其中来自给定MS扫描的五个最强烈的离子进行CID。

       MS / MS数据处理 -

      通过使用续集软件进行数据库搜索蛋白质(
      • ENG J.K.
      • mccormack a.l.
      • yates j.r.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      )。用于酵母和人类数据集搜索的参数列表分别用于补充表1,A-D和2A。简要地,在搜索期间没有施加酶特异性,为前体离子和0 AMU进行3 AMU的质量耐受性。在所有搜索中,将半胱氨酸残基被认为是完全羧酰胺甲基化的(+ 57da静态添加)。没有搜索可变修改。对于酵母蛋白质组,对含有14,176个蛋白序列的数据库进行搜索串联质谱,组合6911 S. Cerevisiae. 蛋白质(来自2006年3月3日的国家生物技术信息中心(NCBI)释放),177个常见污染物,如角蛋白和免疫球蛋白,以及它们相应的7088随机氨基酸序列。在这些标准之后搜索每个MS / MS数据集:1) 14N-氨基酸,2) 14静脉加入氨基酸和+ 16Da +16Da,加入甲硫氨酸(称为甲硫氨酸氧化),3) 15N-氨基酸在其静脉中静态添加适当数量的氮原子,4) 15N-氨基酸和甲硫氨酸氧化(补充表1,A-D)。从四个独立搜索生成的SQT文件在最终数据集中合并,如前所述(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。对于酵母日志阶段 相对 固定相位比较分析,没有 15使用n,因此搜索每个数据集 14在补充表1,A和B中发现的N特定参数。在这些标准之后,每个MS / MS数据集都被搜索了两次:1) 14N-氨基酸和2) 14N-氨基酸和+ 16Da静脉加入甲硫氨酸。从两个独立搜索生成的SQT文件在最终数据集中合并,如前所述(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。对于介体样品,搜索MS / MS光谱,其70,234个氨基酸序列的数据库,由29,890人蛋白(来自NCBI 11月11日的非冗余条目,2006年11月11日释放),160例常规污染物(如人类角蛋白,IgG,和蛋白水解酶),67个表位标记的蛋白质(包括Med9和Med19的小鼠直晶体)和衍生自每个非冗余蛋白质进入的30,117个随机氨基酸序列。肽/光谱比赛,包括前体离子 m/z 值和充电状态,用于酵母对照,人和酵母日志阶段 相对 静止相位数据集分别作为补充表1e,2b和3a提供。将检测到的肽和蛋白质列表使用DTASELECT分选并选择(
      • Tabb D.L.
      • 麦当劳W.H.
      • YALES III,J.R.
      DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
      )采用以下标准组:如果它们具有至少0.1的Δcn,则仅保留光谱/肽匹配;单独为1.5的最小XCorr,2.5,适用于三次充电光谱的3.0;并且最大SP等级10.此外,肽必须完全胰蛋白酶和至少七个氨基酸长。使用对比度比较来自多个跑道的肽命中(补充表1f,2c和3b)(
      • Tabb D.L.
      • 麦当劳W.H.
      • YALES III,J.R.
      DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
      )和对比度报告(
      • Florens L.
      • Carozza M.J.
      • Swanson S.K.
      • 四分之四
      • 科尔曼M.K.
      • 工人J.L.
      • Washburn M.P.
      使用霰弹枪蛋白质组学分析染色质改造复合物,归一化光谱丰度因子。
      )。使用DTASelect中的ParsiMony选项除去其他其他子集的蛋白质(
      • Tabb D.L.
      • 麦当劳W.H.
      • YALES III,J.R.
      DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
      )。根据以前描述的,计算出匹配随机肽的谱匹配的谱匹配的谱数量的频谱数量,如前所述(
      • eliasj.e.
      • 哈斯W.
      • Faherty B.K.
      • Gygi S.P.
      大规模蛋白质组学研究中使用的质谱平台的比较评价。
      所有Mudpit运行(补充表1f,2c和3b),所有Mudpit运行的0和0.465%之间的0和0.465%。
      使用从每个鉴定的蛋白质的光谱计数计算的NSAF值估计蛋白质丰度(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。简要地考虑到更大的蛋白质倾向于促进更多的肽/光谱,将光谱计数除以蛋白质长度,以提供光谱丰度因子(SAF)。然后将SAF值与相应运行中的所有SAF值的总和进行标准化,允许在不同运行中进行蛋白质水平的比较。在NSAF计算之前没有特别阈值或异常拆除步骤。来自酵母,介体和酵母对数阶段的每个检测到的蛋白质的NSAF值 相对 固定相位Mudpit数据集分别作为补充表1F,2C和3B提供。对于随后的统计分析,进一步处理所有数据集以仅保留至少在三个复制的实验中鉴定的蛋白质。最后除去污染蛋白。

       GeneChip数据集 -

      本研究中使用的鼠标GeneChip数据集是先前发布的数据集的子集(
      • 镘块F.
      • Pavelka N.
      • vizzamelli c.
      • Angeli V.
      • Zouain C.S.
      • Pelizzola M.
      • Capozzoli M.
      • 乌拉米
      • Capron M.
      • Belardelli F.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      在小鼠髓鞘细胞中,血吸虫曼逊卵诱导的I型IFN依赖性途径产生炎症签名。
      )。该子集包含由Mg-U74AV2 Genechip阵列(Affymetrix,Santa Clara,CA)按标准程序进行的未处理小鼠树突细胞的转录组重复。所有实验细节都可以在原始出版物中找到(
      • 镘块F.
      • Pavelka N.
      • vizzamelli c.
      • Angeli V.
      • Zouain C.S.
      • Pelizzola M.
      • Capozzoli M.
      • 乌拉米
      • Capron M.
      • Belardelli F.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      在小鼠髓鞘细胞中,血吸虫曼逊卵诱导的I型IFN依赖性途径产生炎症签名。
      )。所有剩余的微阵列数据集于2007年2月22日从基因表达式omnibus数据库下载(
      • Edgar R.
      • Domrachev M.
      • 睫毛A.E.
      基因表达综合症:NCBI基因表达和杂交阵列数据储存库。
      )使用以下搜索条件。 (i)微阵列平台必须是Affymetrix GeneChip。 (ii)绝对信号强度必须通过标准图像处理,背景校正和如微阵列套件5.0或GeneChip操作系统软件应用程序(来自Affymetrix)的总结方式获得。 (iii)数据集必须包含至少一个实验条件,最少三个重复。这些选择标准的组合产生了七种不同平台和五种不同的26项不同的研究(HOMO SAPIENS.:HG-U133PLUS2.0和HG-U133A; 亩肌肉:MOE-430A和MG-U74AV2; rattus norvegicus.:RG-U34A; 拟南芥蒂利亚纳:ATH1; S. Cerevisiae.:YG-S98)总共分为101套重复的336个样本。每组复制表示独特的实验条件或实验因子的独特组合(如果在特定数据集中的数据库中注释了多于一个实验因素)并包含在三到五个之间,无论是生物学还是技术,重复。可以在补充表4中找到下载数据的所有登录号。

       统计分析-

      NSAF数据集和GeneChip数据集被导入R环境进行统计计算(
      • Ihaka R.
      • 绅士R.
      R:数据分析和图形的语言。
      )并解析为单独的“Exprset”对象以允许由特定的生物导体包识别(
      • 绅士r.c.。
      • Carey V.J.
      • 贝茨下午
      • Bolstad B.
      • 偷偷摸摸的M.
      • Dudoit S.
      • 埃利斯B.
      • Gautier L.
      • GE Y.
      • 绅士J.
      • 霍希克斯。
      • Hothorn T.
      • Huber W.
      • IACUS S.
      • Irtizarry R.
      • 休息
      • 李C.
      • Maechler M.
      • rossini a.j.
      • Sawitzki G.
      • 史密斯C.
      • Smyth G.
      • Tierney L.
      • 杨杰。
      • 张继夫
      Biocometion:用于计算生物学和生物信息学的开放软件开发。
      )。用零替换缺失值,通过将每个值除以相应列的平均值来归一化数据。 Bioconductor包PLGEM(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )用于将PLGEM拟合到各个数据集,评估模型适合于数据的良好,并检测差异丰富的转录物或蛋白质。将在“结果”下解释PLGEM方法的相关算法细节。写入的所有R脚本可根据要求从作者提供当前工作中的所有数字和表格。

      结果

       NSAF数据集的全局统计属性 -

      在本研究中,Mudpit用于生成大规模的霰弹枪蛋白质组学数据,并且产生NSAF值以获得来自这些数据集的定量信息。然后,我们将两个先前未发表的NSAF数据集(补充表1和2)的统计特性与先前公布的GeneChip数据集中发现的统计特性进行了比较。在展示这两种类型的数值之间存在显着相似之处之前,我们首先承认存在一些重要差异。在本作中分析的数据集之间的一个明显差异与相应数据矩阵的大小有关(表I.)。根据定义,微阵列实验将为芯片探测的每个转录物提供丰富的值,而不管分析的样品中的相应转录物的实际存在。相反,由于霰弹枪蛋白质组学方法的采样性质(
      • 刘H.
      • Sadygov R.G.
      • YALES III,J.R.
      霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
      ),Mudpit将仅检测样品中存在的那些蛋白质,其浓度高于技术的灵敏度阈值。根据这种观点,酵母中存在的蛋白质数量和介质NSAF Dataset的数量分别小于鼠标GeneChip数据集中存在的转录物数量的~15和〜42倍(表I.)。出于同样的原因,在鼠标GEECHIP数据集中(表示只有~0.02%的总值的~0.02%)非常不可能,而是等于零的丰富值(以下称为“零值”),而它占~29和〜酵母中存在的所有值的35%分别存在于介质和介质NSAF数据集(表I.)。有趣的是与GeneChip数据集(~50%)中的“缺席呼叫”相关联的转录物的百分比类似于两个NSAF数据集中的零值的百分比,这表明这两种类型的信息之间可能的语义等效。最重要的是上述现象的第三结果,酵母中测量的丰度值的动态范围和介体NSAF数据集的数量级为3.6-3.8次数,而那些鼠标GeneChip数据集的数量级几乎达到4.7级(表I.)。尽管如此,这些数据确认,尽管整体尺寸和在零值存在下存在重要差异,但微阵列数据集和蛋白质组学数据集均能够在几个数量级上测量生物实体的丰富。
      表I.本研究中分析的数据集的基本描述性统计
      描述性统计学鼠标genechip.酵母NSAF.Mediator NSAF.
      行数12,488845295
      列数1189
      数据点总数137,3686,7602,655
      零值(%)0.0229.134.61
      缺席(%)50.13NA.NA.
      动态值范围(OOM)4.683.823.6
      RowMean值的动态范围(OOM)4.163.693.32
      Rows.d的动态范围。值(OOM)3.723.343.07
      这种宽的动态值范围不太可能通过正态分布产生。而不是从微阵列数据中发现强度(
      • Baldi P.
      • 长A.D.
      微阵列表达数据分析的贝叶斯框架:正规化T检验和基因的统计推论变化。
      ,
      • 霍伊尔D.C.
      • Rattray M.
      • jupp r.
      • 黄铜A.
      了解微阵列数据分布。
      )来自霰弹枪蛋白质组学数据集的NSAF值(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )已提出两者都近似日志 - 通常分布。在以前的一项研究中,我们已经表明,从Mudpit DataSet的日志转换的NSAF值分布与正态分布没有显着差异(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )。在该研究中,为了允许日志转换步骤,我们仅分析了在所有执行的MS的大量比例中识别的那些蛋白质,并且在计算相应的NSAF之前通过频谱计数的一小部分替换剩余的零值。按照相同的方法,我们也观察到在本作中分析的两个NSAF数据集中的类似值分布(数据未示出)。这些结果肯定支持Mudpit DataSet中最丰富的蛋白质的NSAF值是对数常用的。这里提供更一般的描述值的分布,这些值将包括更差别较低的蛋白质,并且在本研究的两个NSAF数据集中给出了高百分比的零值,我们判断不适当更换零值具有分数值,以避免在数据中引入显着的失真。相反,我们决定将注意力集中在使用所有可用的复制的数据集中每种蛋白质计算的平均值(未转化的)NSAF值的注意力,这通过定义必须是非零,并且将此作为'RoImean值。有趣的是RowMean值的总体分布比简单的日志正态分布更复杂( Fig. 1)。事实上,它可以更现实地解释为多个日志正态分布的组合。在鼠标GeneChip数据集的情况下,可以通过两个主导的日志正态分布清楚地解释RowMean值的分布,其中表示标记为“缺少”的成绩单,在所有11次复制中标记为“缺席”,另一个代表在没有单个缺席呼叫的情况下代表成绩单。只有一小部分成绩单有一个“缺席呼叫”的中间数量(图。1A)。 NSAF数据集中的RowMean值的分布显示了两个主要的对数正常组件,一个代表蛋白质,其具有恰好三个非零值,另一个代表蛋白质没有零值(Fig. 1, BC)。但在这种情况下,与中间数量的中间数量的蛋白质的贡献更为重要,与GeneChip数据集中的中间数量的中间数量的转录物的贡献相比更重要。这些结果支持包括在NSAF数据分析中的策略,也仅在所有执行的MS的小部分中鉴定的蛋白质,因为这些可能只是表示仅偶尔通过技术灵敏度阈值的更低丰富的蛋白质。能够处理这些很少鉴定的蛋白质的统计方法肯定会提高我们完全解释霰弹枪蛋白质组学数据集的能力。
      图缩略图GR1.
      Fig. 1NSAF和GeneChip数据具有类似的分布属性。 A-C,针对所指示的数据集中的每个转录物或蛋白质计算RowMean值,随后转换为其基数10对数。这 黑线 在每个绘图中表示所有日志的密度分布10(RINMEAN)相应数据集中的值。这 蓝线 在每个绘图中表示日志的密度分布10(Rowmean)用特定数量的不存在呼叫检测的转录物或蛋白质的值(在GeneChip数据集的情况下)或零值(在NSAF数据集的情况下)。这 颜色强度蓝线 从渐进的调色板中选择,以反映根据的缺陷或零值的实际数量 彩色吧 所描绘了 底部 图。 D-F.,rows.d.在所示数据集中的所有可用复制中测量每个转录物或蛋白质的值,随后转换为其基数10对数。日志的密度分布10(Rows.d.)根据所描述的相同颜色编码方案绘制值 上面面板. AD 代表鼠标GeneChip数据, BE 代表酵母NSAF数据,和 CF 代表Mediator NSAF数据。
      接下来我们寻求描述对所有可用复制的每个转录物或蛋白质测量的标准偏差的分布,以后称为Rows.d.价值观。 Rows.d的分布。值令人惊讶地类似于相应数据集中的RowMean值的分布(Fig. 1, D-F.)。这提出了诱人的假设,即已经在微阵列数据集中证明的,也在蛋白质组学数据集中,蛋白质丰富值的再现性与蛋白质的平均丰度水平之间存在关系。
      要确定数据变异性和平均丰度级别之间可能的潜在关系,我们为每个数据集推荐两种类型的散点图(Fig. 2)。在第一种情况下,我们分析了Rows.d.值可以被视为数据变异性的绝对测量,作为日志日志空间中相应的ROWMEAN值的函数(Fig. 2, A-C.)。这些图揭示了所有三个分析的数据集中的整个动态范围内的线性关系,具有高度丰富的转录物或蛋白质,显示出更高的S.D。与低丰富的人相比。虽然S.D.被认为是数据变异性的绝对测量,可以看到变化系数(CV)作为数据变异性的相对测量。 CV定义如下。
      简历=S.D.吝啬的
      (eq.1)


      图缩略图GR2.
      Fig. 2NSAF和GeneChip数据集具有类似的方差 - 相对 - 依赖。A-C.,划艇和rows.d.d。在所示的数据集中的所有可用复制中测量每个转录物或蛋白质的丰度值,随后转换为它们对应的基部10对数。散点图的日志10(Rows.d.) 相对 log10(Rowmean)根据传说中描述的相同方案进行颜色编码 . D-F.,每个转录物或蛋白质的RowCV被测量为Rows.d之间的比例。和指示数据集中的划线,随后转换为其对应的基数10对数。散点图的日志10(RowCV) 相对 log10(Rowmean)根据传说中描述的相同方案进行颜色编码 。注意,日志日志空间中的线性关系在数学上等同于线性线性空间中的电力法关系。 AD 代表鼠标GeneChip数据, BE 代表酵母NSAF数据,和 CF 代表Mediator NSAF数据。
      在第二系列散射图中,我们分析了转录物或蛋白质的CV,测量为相应的Rows.d之间的比率。和划线,下文称为RowCV。还作为Log-Log空间中相应的RowMean值的函数的曲线图显示了在所有三个分析的数据集中的整个动态范围内醒目的线性关系(Fig. 2, D-F.)。但相反地对行的行为。值,这里具有高度丰富的转录物或蛋白质的RONCV值与差分较多的值相比。

       在NSAF数据集上的PLGEM的善良 -

      最简单的模型能够在日志记录空间中解释线性关系是线性线性空间中的电力法关系。在数学术语中,如果
      (.D.)=k(划船)+c+ε
      (eq。2)


      在哪里 k, c然后,ε分别表示线性回归的斜率,截距和正常分布的残余误差,然后
      .D.=划船kexp.(c)exp.(ε).
      (eq。3)


      And because
      Rowcv.=.D.划船
      (eq。4)


      then
      Rowcv.=划船(k-1)exp.(c)exp.(ε).
      (eq.5)


      根据这个模型,如果 k = 1,然后是rows.d.将与RowMean成正比,而RowCV在RowMean值的整个动态范围内是恒定的。价值 k >1将导致rows.d。和RowCV随着RowMean的函数而增加,而值为 k <0将导致rows.d的减少。和RowCV。因此,存在临界范围0 < k <1其中绝对可变性随着平均丰度的增加而增加(由于正功率系数 k等式3.),而相对变异性降低(由于负功率系数(k - 1) 等式5.)。具有参数的错误模型 k 因此,在这个关键范围内,因此将充分解释所做的观察 Fig. 2。此外,这种模型也将与Rows.d的动态范围一致。值显着小于同一数据集中的RowMean值的动态范围(表I.)。
      我们之前描述过上述方差 - 相对 - 基于GeneChip数据的依赖,我们通过PLGEM建模了这种关系(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。在这里,我们测试了PLGEM是否能够解释典型的NSAF数据集中存在的可变性。使用Biocuconsion Pack PLGEM我们将PLGEM拟合到模拟数据集(强制遵守PLGEM)或在当前研究中正在调查的GeneChip和两个NSAF数据集(Fig. 3)。有关PLGEM封装中实现的强大PLGEM拟合方法的详细信息,可以在原始出版物中找到(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。简而言之,ROWEAN值的动态范围被划分为等大小的频体,并且在每个分区中确定建模点,以便它捕获本地中值变化(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。然后通过日志日志空间中的一组建模点进行线性回归来获取斜率 k 和拦截 c PLGEM。作为质量控制,在所有可用的LN(Rows.d.)值和相应的LN(ROWMEAN)值之间计算Pearson的相关系数,以及调整的 r2 在拟合的PLGEM和建模点之间计算价值。一般来说,PLGEM在所有分析的数据集上都安装得非常好(Fig. 3, 广告)相关系数>0.96 and adjusted r2 values >0.99。通过分析模型的残留物进行额外的PLGEM良好评价。将残留物计算为模型和测量的LN(Rows.D)之间的差异。从良好拟合预期,在所有分析的数据集中,残差在整个动态范围内相对恒定(Fig. 3, E-H.)大致分布(Fig. 3, I-P.)。
      图缩略图GR3.
      Fig. 3PLGEM在NSAF和GeneChip数据集上同样适用。广告,ln(rowcv)的轮廓图 相对 LN(ROWMEAN)指示数据集的散点图被绘制,以可视化具有更高的区域(橙色轮廓),媒介(绿色轮廓)或较低的分数密度(浅蓝色轮廓)。用于适合PLGEM的建模点叠加在相应的轮廓图上 黑眼圈. 红线 代表拟合到指示的数据集的PLGEM。 E-H.,对于所指示的数据集中的每个转录物或蛋白质,将剩余物计算为测量的LN(Rows.d.)值与由PLGEM预测的LN(Rows.d.)值之间的差异。然后绘制残留物作为划线值的级别的函数,并以对所描述的相同颜色代码之后的轮廓图可视化 上面面板. I-L.,指示数据集中的残差分布被绘制为同等尺寸的箱中的计数的直方图。 M-P.,残留物分布与标准正态分布之间的相似性被可视化为量子·米蒂利(Q-Q.) 阴谋。 A, E, I, 和 M 代表模拟数据集; B, F, J, 和 N 代表鼠标GeneChip数据; C, G, K, 和 O 代表酵母NSAF数据;和 D, H, L, 和 P 代表Mediator NSAF数据。模拟数据集包含10列和1000行。模拟数据集的1000个ROWMEAR值从LN(μ)= 0和Ln(σ)= 0.25的日志正态分布中随机绘制。 rows.d.然后强制每行的值遵守一个PLGEM k = 0.75, c = -1,ε从具有μ= 0和σ= 0.25的正态分布中随机绘制。每行中的10个值最终从具有μ= Rowmean和Σ= Rows.d的正态分布中随机生成..
      一旦确定了NSAF数据集可以与PLGEM类似于GeneChip数据集,我们将询问通过拟合PLGEM在NSAF数据集上获得的模型参数类似于在GeeChip数据中观察到的典型参数。为此,我们利用了Gene表达式omnibus数据库,是微阵列实验的公共存储库(
      • Edgar R.
      • Domrachev M.
      • 睫毛A.E.
      基因表达综合症:NCBI基因表达和杂交阵列数据储存库。
      )。我们在这个数据库下载的101个不同的GeneChip数据集上拟合了PLGEM,它代表了跨五种不同物种和七种不同平台的微阵列实验,并制定了PLGEM斜率的密度分布图,PLGEM截距,相关系数和调整的调整 r2 在这些数据集中找到的值(Fig. 4)。在101分析的GeneChip数据集中发现的PLGEM斜率全部在0.5范围内< k <1,其在上述临界范围内(图4C.)。重要的是相关系数和调整 r2 在酵母和介体数据集中发现的值是对GeneChip数据集观察到的最高值之​​一,这表明PLGEM的拟合在分析的NSAF数据集中特别擅长( Fig. 4, AB)。值得注意的是酵母和介质的NSAF数据集具有PLGEM斜率~0.8,这非常接近GeneChip数据集中一般发现的平均PLGEM斜率(图4C.)。
      图缩略图GR4.
      Fig. 4NSAF和GeneChip数据集具有类似的PLGEM参数。 PLGEM在101个公共可用的GeneChip数据集上装配,记录了四个相关的拟合参数,并且为每个参数绘制密度分布。 A,Pearson的相关系数是在所有可用的LN(Rows.D。)值和相应的LN(ROWMEAN)值之间计算的相关系数。 B,调整 r2 在拟合的PLGEM和建模点之间计算值。还显示了斜坡(C)和拦截(D)拟合模型。叠加在密度图上是从鼠标GeneChip获得的相同四个参数的实际值(蓝色圈子),酵母NSAF(红色方块),和中介NSAF数据集(绿色钻石)。
      在本作工作中分析的NSAF数据集包含异常大量的重复,这对于对这些类型的数据集的统计特性的固体调查很重要。然而,在一个现实的实验环境中,它不太可能有八个或九个重复。因此,如果将PLGEM提出作为NSAF数据分析的新型工具,我们认为在给定实验中可用的重复数量明显较少的重复时,我们也认为这也很重要。因此,我们模拟了通过随机删除从上面分析的数据集中的一个或多个列来减少可用复制的数量的效果,直到保留三个重复(Fig. 5)。正如预期的那样,较少数量的复制导致LN(Rows.d.)值与LN(ROWMEAN)值之间的不太明显的线性,如Pearson相关系数的渐进衰减所示(图5A),并因此降低了PLGEM的良好性,如调整后的下降所示 r2 建模点(图5B.)。即使在只有三个重复的数据集中,即使在数据集中,所有测量的相关系数都是>0.85, and the r2 values were >0.96,展示合理的合适。此外,PLGEM斜坡和截距仅从完整数据集获得的参数略微偏离(Fig. 5, CD)。然而,当可用复制的数量从三到四个增加时,在确定所有参数时,在确定所有参数中的准确性和精度都有很大的好处,或者在较小程度上,从四到五。重复数量的进一步增加主要影响了精度,但仅对估计了PLGEM参数的准确性仅对略微影响了Fig. 5, CD)。在一起,这些数据压力再次在这些类型的实验中执行尽可能多的重复的重要性。此外,这些结果表明,四个或五个复制可能代表Mudpit实验的成本和可以从NSAF值估算下面的PLGEM参数的准确性和精度之间的合理折衷。
      图缩略图GR5.
      Fig. 5PLGEM参数与减少重复数量相当稳定。 执行一系列模拟以测试从所示数据集中随机删除一个或多个复制的效果。为每个指示的保留重复进行总共进行100个随机删除(x轴标签)。在拟合PLGEM之前丢弃柱去除步骤后仅丢弃零值的矩阵行。对于每个生成的数据集,Pearson的相关系数(A),一个调整的 r2 value (B),PLGEM斜坡(C)和一个plgem拦截(D)被记录。 误差酒吧分别表示从相应的100个模拟数据集获得的指示的PLGEM参数的装置和标准偏差。

       使用PLGEM检测差异丰富的蛋白质 -

      错误模型的主要好处依赖于其更准确地估计数据变化的能力与单独从数据中测量它(
      • 袋手K.A.
      • Coombes K.r.
      • HESS K.R.
      • 提起D.N.
      • Abruzzo L.V.
      • 张W.
      在cDNA微阵列实验中鉴定差异表达基因。
      )。结果,使用模型衍生而不是数据派生的S.D.在GeneChip中,估计表明已显着改善(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )和LC-MS蛋白质组学数据(
      • 安德雷姆。
      • 罗伊斯。
      • 林H.
      • Becker C.
      • joho K.
      量化差分蛋白质组学的再现性:人血清蛋白质液相色谱 - 质谱的噪声分析。
      ),统计方法的性能旨在检测两个感兴趣的两个实验条件之间的显着丰富变化。因此,我们询问PLGEM是否可以在NSAF数据集中改善差异丰富的蛋白质的鉴定。
      为了测试通过在基于NSAF的蛋白质组学数据集的分析中使用PLGEM提供的附加值,我们进行了一种泥泞的实验,设计用于检测不同酵母生长阶段的差异丰度的蛋白质。来自富含培养基中生长的酵母细胞培养物的四个生物学重复的全细胞提取物,通过总共八个独立的泥炭液进行分析,并使用NSAF方法进行量化,以搜索蛋白质 - 或下降 - 在生长阶段班次(补充表3)期间调节。在LP或SP样品中的四个重复中至少三种中,总共鉴定了总共783个蛋白质。其中,仅在SP样品中鉴定108,并且仅在LP样品中鉴定164个。这些两个子集分别代表在不同生长阶段诱导或压制的蛋白质,并且与酵母中固定相生物学的先验知识一致(数据未显示和参考。
      • Werner-Washburne M.
      • 布劳恩e.
      • 约翰斯顿G.C.
      • 歌手R.A.
      酵母酿酒酵母酿酒酵母中的固定相。
      )。虽然这些蛋白质为响应这种生理转变而发生的全局变化提供见解,但它们只代表了总鉴定的蛋白质的一小部分。此外,它们的行为可以作为开/关响应建模,因此检测不太具有挑战性。剩余大多数蛋白质中鉴别差异丰度(511 of 783, IE。 在大多数样本中一致地识别的〜65%,代表了更具挑战性的任务。正是在这种分析中,基于模型的统计分析可能证明其益处。
      定量蛋白质组学数据分析中的标准程序利用“ - 折叠变化”(Fc)作为两组复制样品蛋白质差异丰度的量度。暗中假设Fc越高,蛋白质丰度水平越多,在两个感兴趣的实验条件之间变化。更严格的程序将考虑到群组内变异性,并告诉我们对我们感兴趣的信号(蛋白质丰富的差异)高于噪声(由生物和技术的组合引起的背景变异性变化)。在这样的分析中,在不同的实验条件的不同复制中获得NSAF测量的标准偏差的准确估计变得非常重要,以不超过或低估背景噪声,从而减少或高估信号 - 噪声(STN)比率。因此,我们通过将PLGEM推导的标准偏差结合到以下STN统计来提供PLGEM的性能来提供更准确的标准偏差估算。
      Rowstn.=划船SP.-划船LP..D.SP.+.D.LP.
      (eq。6)


      因为它们被独立分析,所以两个不同的PLGEM参数都适合SP NSAF数据集和LP NSAF数据集(补充 Fig. 1)。必须注意的是,虽然上述统计数据已成功被证明在对GeneChip数据的分析中提供出色的结果(
      • golub t.r.
      • Slonim D.K.
      • Tamayo P.
      • Huard C.
      • Gaasenbeek M.
      • Mesirov J.P.
      • 收集H.
      • LOH M.L.
      • 下降J.R.
      • Caligiuri M.A.
      • 布卢姆菲尔德C.D.
      • 着陆器E.S.
      癌症的分子分类:基因表达监测的阶级发现和课程预测。
      ,
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      ,
      • vizzamelli c.
      • Pavelka N.
      • Luchini A.
      • Zanoni I.
      • Bendickson L.
      • Pelizzola M.
      • Beretta O.
      • Foti M.
      • 格兰皮精
      • Nilsen-Hamilton M.
      • Ricciardi-Castagnoli P.
      地区对基因组转录分析揭示了甲卓酮对LPS诱导的激活和小鼠树突细胞迁移的影响。
      ,
      • iocino f.
      • Lentini L.
      • amato A.
      • Di Leonardo A.
      RB急性损失诱导小鼠初生成纤维细胞中的中心体扩增和非整倍性。
      ,
      • 镘块F.
      • Pavelka N.
      • vizzamelli c.
      • Angeli V.
      • Zouain C.S.
      • Pelizzola M.
      • Capozzoli M.
      • 乌拉米
      • Capron M.
      • Belardelli F.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      在小鼠髓鞘细胞中,血吸虫曼逊卵诱导的I型IFN依赖性途径产生炎症签名。
      ),尚未用于分析基于NSAF的蛋白质组学数据。
      首先,通过简单的Fc方法或与标准偏差的经典数据导出估计(标准-STN)的STN统计分析,通过分析上述511酵母蛋白来进行通过分析上述511酵母蛋白而获得的结果。 FC统计信息在此实现为LP样本中平均NSAF值的SP样本中平均NSAF值的日志比。基于两个统计数据中任一项的绝对值排序511个蛋白,选择具有最极端值的前100个作为最显着的变化(补充表5)。虽然Fc方法偏向了最低丰富的蛋白质的检测,因为这些是预期的最多,标准-STN方法选择几种具有非常低的变化的蛋白质,并且错过了具有非常高的蛋白质(Fig. 6)。在仍然是由标准-STN方法选择的低Fc值的蛋白质中,用极小的光谱计数鉴定出一种如转录伸长蛋白SPT6的极小光谱计数,在四个LP复制的零点,一个,二和三个光谱中鉴定为零,一个,两个和三个光谱SP样品中的两个,三,三,三个和三个光谱(Fig. 6)。具有非常小的频谱计数的蛋白质仅通过标准-STN排列了100个最差分丰富的蛋白质,因为它们恰好具有可重复的小的NSAF值,而是由于它们可能被视为误报的低频计数的可变性。在具有使用标准-STN方法中最重要的变化的大变化的蛋白质中,许多众所周知,在酵母Lp到Sp的偏移期间,许多众所周知的众所周知,因此应该被视为假底片。这种蛋白质的一个例子是核糖体蛋白RPL8a,在LP样品中鉴定为5,11,20和76个光谱,SP样品中的零,两,三,三个和六个光谱(Fig. 6)。最有可能的原因,标准-STN方法错过了这些蛋白质,是它们相对高的标准偏差。
      图缩略图GR6.
      Fig. 6鉴定叶片生长阶段NSAF数据集中的差异丰富蛋白质。 在LP和SP样品中始终鉴定的511个蛋白在酵母生长相NSAF数据集的四个生物学重复中的至少三种中(灰点)在SP样品中的SP样品中蛋白质的平均NSAF值与LP样本中的平均NSAF值( y轴)LP样品中蛋白质平均NSAF值的基础10对数(X轴)。在同一块图中突出显示100个蛋白质,具有最极端的变化(小红色圈子),100个最极端的STN比率(中型金黄德罗德圈子),或100个最极端的PLGEM-STN比率(大蓝圈子)。这 红色虚线 描绘与其他411个蛋白质的最大变化的100个蛋白质分离的边界;这 蓝色虚线 将100个蛋白质与剩余的411个蛋白质中具有最高的PLGEM-STN比例分离。 SPT6和RPL8A的数据点突出显示并在“结果”下描述。
      我们接下来使用包含基于PLGEM的标准偏差估计(PLGEM-STN)的STN比率分析了相同的数据集。与Fc和标准-STN方法相比,PLGEM-STN统计学在呼吁具有低平均NSAF值的蛋白质中的显着击中,并且对于具有高丰度值的蛋白质的严格严格(Fig. 6)。因此,通过PLGEM-STN中的100个最显着变化的蛋白质中没有排名的蛋白质没有在两个条件下具有可重复的不同但非常低的总光谱计数,如SPT6P,例如由标准-STN方法选择(Fig. 6)。另一方面,通过PLGEM-STN错过了从LP到SP的LP到SP的偏移期间显示大负FC的蛋白质没有蛋白质,尽管它们中的许多人被标准 - STN错过了(Fig. 6)。这些结果表明,将PLGEM掺入NSAF处理的MUDPIT数据集的基于STN的排名分析,其自然地选择蛋白质,其与使用FC或标准-STN相比直观地更具意义的样本之间的丰富变化。
      基于一些重要标准的蛋白质组学命名是一种常见的程序,优先考虑正在调查的生物现象的候选蛋白质的随访。因此,我们测试了用Fc,标准-STN或PLGEM-STN方法鉴定的蛋白质的生物学意义。为此,评估了大量富集基因本体论(GO)注释项或瑞士 - Prot关键词的脂肪素在排名100蛋白之间进行评估。我们提交了与每种方法选择的蛋白质的三种不同列表的100个refseq ID,以达到Fatigo +(
      • al-shahrour f.
      • Minguez P.
      • Tarraga J.
      • Montaner D.
      • Alloza E.
      • vaquerizasj.m.
      • Conde L.
      • Blaschke C.
      • Vera J.
      • Dopazo J.
      Babelomics:在基因组规模实验的功能注释中的一种系统生物学视角。
      )与411未选择蛋白的后台列表相比,测试在查询列表中是否在查询列表中显着超过了任何功能注释项。本网站提供 p 来自Fisher的精确测试的值,以通过基于FDR的方法进行多次测试调整。虽然没有统计学上显着的次数,但是对于最高的Fc值或最高标准-STN值的蛋白质,Fatigo +检测到Go生物学过程注释术语“生物合成过程”的显着富集(FDR-Sypered) p value = 2.3 × 10−3)'细胞生物合成过程'(FDR调整 p value = 2.1 × 10−3),'大分子生物合成过程'(FDR调整后 p value = 3.7 × 10−4)和“翻译”(FDR调整后 p value = 5.7 × 10−4)和瑞士 - Prot关键词'核糖体蛋白'(FDR调整 p value = 2.6 × 10−6)在100个具有最高PLGEM-STN值的蛋白质中。必须注意的是,从生物学的角度来看,从LP到SP的偏移在酵母中是众所周知的,伴随整个生物合成机器的渐进性慢,特别是翻译(
      • 福吉e.k.
      • 布劳恩e.L.
      • Werner-Washburne M.
      蛋白质合成酿酒酵母的长期静止相培养物。
      ),只有在此分析中使用PLGEM我们是否捕获了这些信息。

      讨论

      本研究的主要发现可以以下列方式总结。 (i)从统计的角度来看,NSAF数据集比先前预期的更类似于GeneChip数据。 (ii)NSAF值的可变性可以通过PLGEM精确建模。 (iii)基于PLGEM的方法可用于鉴定NSAF数据集中的差异丰富的蛋白质。下面讨论这些结果的最重要的含义。

       NSAF与GeneChip数据之间的相似之处 -

      在这里,我们已经提供了证据表明NSAF数据集与GeneChip数据共享了实质性统计相似性。不仅是动态范围和两个技术之间的价值观的分布,而且也许更重要的是,这两种类型的数据已经证明是令人惊讶的类似参数(参见'PLGEM的相同全球错误模型霰弹枪蛋白质组学的误差模型,用于更详细地讨论后者)。这些相似之处提供了令人兴奋的机会,利用众多统计工具,这些工具旨在专门处理微阵列数据分析中的开放问题,并测试它们是否在蛋白质组学数据分析中表现。例如,已经有丰富的文献,算法和软件,这些软件已经致力于解决与缺失值相关的微阵列数据分析问题(
      • Sehgal M.S.
      • 庸俗我。
      • Dooley L.S.
      抵押品缺失价值估算:微阵列数据的新稳健缺失值估计算法。
      ,
      • 金H.
      • golub g.h.
      • 公园H.
      DNA微阵列基因表达数据的缺失值估计:局部最小二乘估算。
      ,
      • troyanskaya o.
      • Cantor M.
      • Sherlock G.
      • 棕色P.
      • 哈斯蒂T.
      • Tibshirani R.
      • Botstein D.
      • altman r.b.
      DNA微阵列的缺失值估计方法。
      ),多次测试(
      • Dudoit S.
      • 杨Y.H.
      • 征集m.j.
      • 速度t.p.
      用于在复制的cDNA微阵列实验中鉴定差异表达基因的统计方法。
      ,
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      ),方差 - 相对 - 依赖(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      ,
      • rocke d.m.
      • 德宾B.
      基因表达阵列测量误差模型。
      ,
      • Huber W.
      • von heydebreebeck A.
      • 苏格兰·赫
      • Poustka A.
      • vingron m.
      差异稳定应用于微阵列数据校准以及差异表达的量化。
      )等等。我们预见到霰弹枪蛋白质组学数据中的大多数问题也将重新承载。因此,如果这些微阵列特定的工具直接适用于蛋白质组学数据的分析,这将代表蛋白质组学研究进展的重要捷径。其他作者已经在分析蛋白质组学数据的分析中已经成功地应用了特定的微阵列工具(
      • 张B.
      • verberkmoes n.c.
      • Langston M.A.
      • Uberbacher E.
      • Hettich R.L.
      • Samatova N.F.
      检测无标签霰弹枪蛋白质组学中的差异和相关蛋白表达。
      )在不提供更普遍的潜在假设的普遍证明中,蛋白质组学数据与转录组数据基本上类似。 NSAF数据和GeneChip数据之间的实质性相似之处表明,对于大多数GeneChip特定的统计工具也适用于NSAF数据集的分析。

       PLGEM作为霰弹枪蛋白质组学的错误模型 -

      NSAF和GeneChip数据集之间最重要的相似之处是,不仅是两种类型的数据集均遵守PLGEM,而是模型的最关键参数, IE。 功率系数 k,令人惊讶地保守。这个参数始终在临界范围内的事实0< k <从五种不同物种以及四个NSAF数据集,来自酵母的四个不同的GeneChip数据集表明,这种全球错误模型可能真正是GeneChip和NSAF数据的一般模型,而不管具体情况如何分析样品的性质。这种模型具有这种约束的模型的主要结果将是更高度表达基因的转录物或蛋白质丰度水平将比更差的基因的本质上更稳定。这个观察结果提出了关于这种偏易的原因的问题。对此可能的解释是,通过在更精确地控制基因的表达中,细胞可能通过对细胞功能的影响潜在更高的影响而不是散发出来的基因的能量来咀嚼它们的基因表达控制系统。无论如何将在低级表达。反对这种解释的争论是它假设基因的表达水平与编码蛋白的生物撞击之间的直接关系,这可能并不总是如此。对这种特殊现象背后的真正原因的调查远远超出了目前工作的范围。
      必须注意的是,与这些类型测量的先前提出的误差模型相比,PLGEM没有任何局部地截然不同。事实上,PLGEM可以被视为这些模型的概括。例如,先前提出了双组分误差模型用于原子吸收光谱(
      • rocke d.m.
      • Lorenzato S.
      分析化学中测量误差的双组分模型。
      ),气相色谱 - MS(
      • rocke d.m.
      • Lorenzato S.
      分析化学中测量误差的双组分模型。
      ),LC-MS(
      • 安德雷姆。
      • 罗伊斯。
      • 林H.
      • Becker C.
      • joho K.
      量化差分蛋白质组学的再现性:人血清蛋白质液相色谱 - 质谱的噪声分析。
      )或微阵列数据(
      • rocke d.m.
      • 德宾B.
      基因表达阵列测量误差模型。
      )。这些模型假设一个常量的rows.d.对于非常低的丰富和恒定的RONCV,用于更高的丰富。实际上,恒定的RowCV模型能够解释Rows.d的增加。作为划线的函数,但不会考虑我们在GeneChip数据中观察到的RowCV的逐步衰减(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )和NSAF数据(Fig. 2)对于Rowmean的越来越高的值。 PLGEM,相反,不假设功率系数的任何特定值 k,依靠更加轻松的假设。特别是一个与众不同的 k ≈1将导致大致常量的RowCV模型。因此,具有 k ≈1难以区分“常数-CV”模型,特别是如果分析的动态范围不够大。可以用NSAF和GeneChip技术测量的宽动态水平范围,而是允许在这两个模型之间清晰地区分。我们观察到电力系数的事实 k 对于大多数分析的GeneChip和NSAF数据集,在0.7-0.8的范围内( Fig. 4因此,可能会解释为什么在过去的常量 - 简介上的假设通常被视为理所当然。

       鉴定差异丰富的蛋白质 -

      理论上,霰弹枪蛋白质组学的非偏见采样性质允许在样品中检测几乎任何蛋白质,无论其浓度如何,都提供了该实验被复制了足够大的次数(
      • 刘H.
      • Sadygov R.G.
      • YALES III,J.R.
      霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
      )。然而,由于存在几种零值和上述内在的再现性,这些极低丰富的蛋白质在统计学分析中造成了许多挑战。为了提高下游统计分析的置信度,因此常规做法仅在少数少数人的分析的Mudpit实验或成绩单中被标记为在GeneChip实验中不存在的转录物中鉴定的少数群体。但在比较分析中,寻求两种实验条件之间的显着差异,在一个实验条件下通过上述标准的转录物或蛋白质,但在其他条件下几乎不存在,这将为后续研究的有价值的候选者。统计方法能够处理这些低丰富的转录物或蛋白质,并检测虚拟缺席与适度存在之间的显着差异肯定会扩大我们可以解释这些实验结果的覆盖范围。
      在此表明,PLGEM在平均NSAF值的整个动态范围内均相当于平均NSAF值的整个动态范围,甚至在所有可用复制的小部分中识别的蛋白质, IE。 在酵母数据集的情况下八个中的三个,在调解员数据集的情况下为九个。此外,我们观察到,PLGEM也适用于NSAF数据集,其中~50%的蛋白质仅在一个或两个重复(数据未显示)中鉴定。这表明PLGEM有可能提高我们应对这些低丰富蛋白质的能力,因为它尽管存在仅存在少量非零NSAF值,但它提供了预期标准偏差的合理估计。
      基于PLGEM的基于PLGEM的方法的性能已经彻底调查并与其他常用统计方法的行为进行了彻底调查并进行了比较(
      • Pavelka N.
      • Pelizzola M.
      • vizzamelli c.
      • Capozzoli M.
      • Splendiani A.
      • 格兰皮精
      • Ricciardi-Castagnoli P.
      微阵列数据鉴定差异表达基因的权力律全局误差模型。
      )。在目前的工作中,我们已经表明,使用基于PLGEM的标准偏差来计算NSAF数据集的STN比率提高了我们在LP和SP中取样的酵母之间测定蛋白质表达变化的能力(Fig. 6 和补充表3)。虽然确定在一个生长条件下存在的蛋白质存在,但在另一种蛋白质中不存在相对简单,但确定LP和SP中发现的蛋白质丰富的变化是具有挑战性的。 PLGEM-STN统计学通过比具有高丰度的蛋白质更保守的蛋白质更保守,通过更保守的蛋白质来表现出Fc和标准STN。总之,我们设想了PLGEM在NSAF数据分析中的广泛应用。 PLGEM可能有助于优先考虑候选蛋白质的后续分析,这些蛋白质在任何两个感兴趣的样本之间显示出显着丰富的变化, IE。 在野生型的比较中 相对 爆击细胞系,患病 相对 正常组织,或治疗 相对 未经治疗的患者。

      致谢

      我们承认RON和JOAN CONAWAY和CONAWAY实验室的成员,用于提供调解员样品。迈克尔科尔曼及信息技术部门的医学研究所的信息技术部门承认提供和维护计算资源。 N. P.特别感谢荣丽的支持。

      补充材料

      参考

        • IDEKER T.
        • Thorsson V.
        • ranish j.a.
        • 圣诞r.
        • 布勒J.
        • ENG J.K.
        • Bumgarner R.
        • Goodlett D.R.
        • Aeberberold R.
        • 引擎盖L.
        综合基因组和系统扰动代谢网络的蛋白质组学分析。
        科学。 2001; 292: 929-934
        • Kitano H.
        系统生物学:简要概述。
        科学。 2002; 295: 1662-1664
        • 玻璃纤维家长J.G.
        • Macbeath G.
        • 白色。
        • 索勒P.K.
        • Lauffenburger D.A.
        • Gaudet S.
        收集和组织系统蛋白质数据集。
        NA.T。 Rev. mol。细胞。 BIOL。 2006; 7: 803-812
        • Lipshutz r.j.
        • FODOR S.P.
        • gingeras t.r.
        • 洛克哈特D.J.
        高密度合成寡核苷酸阵列。
        NA.T。遗传。 1999; 21: 20-24
        • 大卫兰。
        • Huber W.
        • Granovskaia M.
        • Toedling J.
        • Palm C.J.
        • 博弗金L.
        • 琼斯T.
        • 戴维斯R.W.
        • Steinmetz L.M.
        酵母基因组中的转录高分辨率图。
        Proc。 Natl。阿卡。 SCI。美国。 2006; 103: 5320-5325
        • Washburn M.P.
        • 擦拭。
        • YALES III,J.R.
        多维蛋白质识别技术大规模分析酵母蛋白质组。
        NA.T。 Biotechnol。 2001; 19: 242-247
        • Aeberberold R.
        基于质谱的蛋白质组学。
        自然。 2003; 422: 198-207
        • CSETE M.E.
        • DOYE J.C.
        生物复杂性的逆向工程。
        科学。 2002; 295: 1664-1669
        • golub t.r.
        • Slonim D.K.
        • Tamayo P.
        • Huard C.
        • Gaasenbeek M.
        • Mesirov J.P.
        • 收集H.
        • LOH M.L.
        • 下降J.R.
        • Caligiuri M.A.
        • 布卢姆菲尔德C.D.
        • 着陆器E.S.
        癌症的分子分类:基因表达监测的阶级发现和课程预测。
        科学。 1999; 286: 531-537
        • 休斯。
        • 马顿M.J.
        • 琼斯A.R.
        • 罗伯茨C.J.
        • Stoughton R.
        • 盔甲C.D.
        • Bennett H.A.
        • Coffey E.
        • 戴H.
        • 他是.d。
        • Kidd M.J.
        • 王上午
        • Meyer M.R.
        • 斯莱德D.
        • lum p.y.
        • Stepaniants S.B.
        • 鞋匠D.D.
        • Gachtte D.
        • Chakraburtty K.
        • 西蒙J.
        • b
        • 朋友S.H.
        通过表达式配置文件的汇编功能发现。
        细胞。 2000; 102: 109-126
        • 格兰皮精
        • vizzamelli c.
        • Pavelka N.
        • 福尔斯。
        • Persico M.
        • virzi E.
        • Rescigno M.
        • 摩洛G.
        • Ricciardi-Castagnoli P.
        通过全局基因表达分析显示的树突状细胞的诱导IL-2产生。
        NA.T。免疫素。 2001; 2: 882-888
        • Florens L.
        • Washburn M.P.
        • Raine J.D.
        • 安东尼下午
        • 格劳宾M.
        • Haynes J.D.
        • Moch J.K.
        • 鼓起的n ..
        • Sacci J.B.
        • Tabb D.L.
        • Witney A.A.
        • 擦拭。
        • 吴y.
        • 加德纳M.J.
        • 持有人A.A.
        • 辛保人R.E.
        • yates j.r.
        • carucci d.j.
        疟原虫生疟原虫生命周期的蛋白质组学视图。
        自然。 2002; 419: 520-526
        • Listgarten J.
        • Emili A.
        使用液相色谱 - 串联质谱法对比较蛋白质组学分析的统计和计算方法。
        摩尔。细胞。蛋白质组学。 2005; 4: 419-434
        • 王E.
        RNA扩增成功基因分析分析。
        J.翻译。 Med。 2005; 3: 28
        • Lonnstedt I.
        • 速度T.
        复制的微阵列数据。
        统计。罪。 2002; 12: 31-46
        • 黄X.
        • 平移W.
        比较三种方法与复制高密度寡核苷酸阵列的方差估计。
        funct。积分。基因组学。 2002; 2: 126-133
        • IDEKER T.
        • Thorsson V.
        • Siegel A.F.
        • 兜帽L.E.
        通过微阵列数据的最大似然分析测试差异表达基因的测试。
        J. COPPLE。 BIOL。 2000; 7: 805-817
        • 袋手K.A.
        • Coombes K.r.
        • HESS K.R.
        • 提起D.N.
        • Abruzzo L.V.
        • 张W.
        在cDNA微阵列实验中鉴定差异表达基因。
        J. COPPLE。 BIOL。 2001; 8: 639-659
        • Tusher V.G.
        • Tibshirani R.
        • 楚G.
        微阵列施加到电离辐射响应的显着性分析。
        Proc。 Natl。阿卡。 SCI。美国。 2001; 98: 5116-5121
        • Pavelka N.
        • Pelizzola M.
        • vizzamelli c.
        • Capozzoli M.
        • Splendiani A.
        • 格兰皮精
        • Ricciardi-Castagnoli P.
        微阵列数据鉴定差异表达基因的权力律全局误差模型。
        BMC生物信息学。 2004; 5: 203
        • Gygi S.P.
        • rist b.
        • 格柏S.A.
        • Turecek F.
        • 凝胶M.H.
        • Aeberberold R.
        使用同位素编码亲和标记的复合蛋白混合物的定量分析。
        NA.T。 Biotechnol。 1999; 17: 994-999
        • 陶w.a.
        • Aeberberold R.
        通过稳定同位素标记和质谱法定量蛋白质组学的研究进展。
        Curr。拍摄。 Biotechnol。 2003; 14: 110-118
        • 刘H.
        • Sadygov R.G.
        • YALES III,J.R.
        霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
        肛门。化学。 2004; 76: 4193-4201
        • 老为
        • Meyer-Arendt K.
        • Aveline-Wolf L.
        • 皮尔斯K.G.
        • 门多萨A.
        • 七夹J.R.
        • resing K.A.
        • ahn n.g.
        霰弹枪蛋白质组学定量人体蛋白质的无标记方法的比较。
        摩尔。细胞。蛋白质组学。 2005; 4: 1487-1502
        • 张B.
        • verberkmoes n.c.
        • Langston M.A.
        • Uberbacher E.
        • Hettich R.L.
        • Samatova N.F.
        检测无标签霰弹枪蛋白质组学中的差异和相关蛋白表达。
        J.蛋白质组。 2006; 5: 2909-2918
        • Paoletti A.c.
        • parmely t.j.
        • Tomomori-Sato C.
        • 佐藤S.
        • 朱D.
        • Conaway R.C.
        • Conaway J.W.
        • Florens L.
        • Washburn M.P.
        不同型光谱丰度因子的不同哺乳动物介质复合物的定量蛋白质组学分析。
        Proc。 Natl。阿卡。 SCI。美国。 2006; 103: 18928-18933
        • Zybailov B.
        • 莫斯利A.L.
        • Sardiu M.E.
        • 科尔曼M.K.
        • Florens L.
        • Washburn M.P.
        酿酒酵母膜蛋白质表达变化的统计分析。
        J.蛋白质组。 2006; 5: 2339-2347
        • 陈Y.
        • dougherty e.r.
        • Bittner M.L.
        基于比率的决定和cDNA微阵列图像的定量分析。
        J. Biomed。选择。 1997; 2: 364-374
        • rocke d.m.
        • 德宾B.
        基因表达阵列测量误差模型。
        J. COPPLE。 BIOL。 2001; 8: 557-569
        • Huber W.
        • von heydebreebeck A.
        • 苏格兰·赫
        • Poustka A.
        • vingron m.
        差异稳定应用于微阵列数据校准以及差异表达的量化。
        生物信息学。 2002; 18: S96-S104
        • 赖特G.W.
        • 西蒙下午
        小微阵列实验中差异基因表达检测的随机方差模型。
        生物信息学。 2003; 19: 2448-2455
        • 绅士r.c.。
        • Carey V.J.
        • 贝茨下午
        • Bolstad B.
        • 偷偷摸摸的M.
        • Dudoit S.
        • 埃利斯B.
        • Gautier L.
        • GE Y.
        • 绅士J.
        • 霍希克斯。
        • Hothorn T.
        • Huber W.
        • IACUS S.
        • Irtizarry R.
        • 休息
        • 李C.
        • Maechler M.
        • rossini a.j.
        • Sawitzki G.
        • 史密斯C.
        • Smyth G.
        • Tierney L.
        • 杨杰。
        • 张继夫
        Biocometion:用于计算生物学和生物信息学的开放软件开发。
        基因组Biol。 2004; 5: R80
        • Pelizzola M.
        • Pavelka N.
        • Foti M.
        • Ricciardi-Castagnoli P.
        AMDA:用于自动微阵列数据分析的R包。
        BMC生物信息学。 2006; 7: 335
        • vizzamelli c.
        • Pavelka N.
        • Luchini A.
        • Zanoni I.
        • Bendickson L.
        • Pelizzola M.
        • Beretta O.
        • Foti M.
        • 格兰皮精
        • Nilsen-Hamilton M.
        • Ricciardi-Castagnoli P.
        地区对基因组转录分析揭示了甲卓酮对LPS诱导的激活和小鼠树突细胞迁移的影响。
        欧元。 J.Immunol。 2006; 36: 1504-1515
        • iocino f.
        • Lentini L.
        • amato A.
        • Di Leonardo A.
        RB急性损失诱导小鼠初生成纤维细胞中的中心体扩增和非整倍性。
        摩尔。癌症。 2006; 5: 38
        • 安德雷姆。
        • 罗伊斯。
        • 林H.
        • Becker C.
        • joho K.
        量化差分蛋白质组学的再现性:人血清蛋白质液相色谱 - 质谱的噪声分析。
        生物信息学。 2004; 20: 3575-3582
        • Brachmann C.B.
        • 戴维斯A.
        • 成本G.J.
        • Caputo E.
        • 李杰。
        • Hieter P.
        • Boeke J.D.
        衍生自Saccharomyces Cerevisiae S288C的设计者删除菌株:用于PCR介导的基因破坏和其他应用的一种有用的菌株和质粒。
        酵母。 1998; 14: 115-132
        • 佐藤S.
        • Tomomori-Sato C.
        • parmely t.j.
        • Florens L.
        • Zybailov B.
        • Swanson S.K.
        • 银行C.A.
        • 金杰。
        • Cai Y.
        • Washburn M.P.
        • Conaway J.W.
        • Conaway R.C.
        通过多维蛋白质识别技术鉴定的一套共识哺乳动物介质亚单位。
        摩尔。细胞。 2004; 14: 685-691
        • 麦当劳W.H.
        • OHI R.
        • Miyamoto D.T.
        • mitchison t.j.
        • YALES III,J.R.
        三种直接耦合HPLC MS / MS策略的比较,用于鉴定复杂混合物的蛋白质:单尺寸LC-MS / MS,2相Midpit和3相Midpit。
        在 t。 J.质谱。 2002; 219: 245-251
        • Florens L.
        • Washburn M.P.
        多维蛋白质识别技术的蛋白质组学分析。
        方法mol。 BIOL。 2006; 328: 159-175
        • ENG J.K.
        • mccormack a.l.
        • yates j.r.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • Tabb D.L.
        • 麦当劳W.H.
        • YALES III,J.R.
        DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
        J.蛋白质组。 2002; 1: 21-26
        • Florens L.
        • Carozza M.J.
        • Swanson S.K.
        • 四分之四
        • 科尔曼M.K.
        • 工人J.L.
        • Washburn M.P.
        使用霰弹枪蛋白质组学分析染色质改造复合物,归一化光谱丰度因子。
        方法。 2006; 40: 303-311
        • eliasj.e.
        • 哈斯W.
        • Faherty B.K.
        • Gygi S.P.
        大规模蛋白质组学研究中使用的质谱平台的比较评价。
        NA.T。方法。 2005; 2: 667-675
        • 镘块F.
        • Pavelka N.
        • vizzamelli c.
        • Angeli V.
        • Zouain C.S.
        • Pelizzola M.
        • Capozzoli M.
        • 乌拉米
        • Capron M.
        • Belardelli F.
        • 格兰皮精
        • Ricciardi-Castagnoli P.
        在小鼠髓鞘细胞中,血吸虫曼逊卵诱导的I型IFN依赖性途径产生炎症签名。
        J.Immunol。 2004; 172: 3011-3017
        • Edgar R.
        • Domrachev M.
        • 睫毛A.E.
        基因表达综合症:NCBI基因表达和杂交阵列数据储存库。
        核酸RES。 2002; 30: 207-210
        • Ihaka R.
        • 绅士R.
        R:数据分析和图形的语言。
        J. COPPLE。图形。统计。 1996; 5: 299-314
        • Baldi P.
        • 长A.D.
        微阵列表达数据分析的贝叶斯框架:正规化T检验和基因的统计推论变化。
        生物信息学。 2001; 17: 509-519
        • 霍伊尔D.C.
        • Rattray M.
        • jupp r.
        • 黄铜A.
        了解微阵列数据分布。
        生物信息学。 2002; 18: 576-584
        • Werner-Washburne M.
        • 布劳恩e.
        • 约翰斯顿G.C.
        • 歌手R.A.
        酵母酿酒酵母酿酒酵母中的固定相。
        微生物。录 1993; 57: 383-401
        • al-shahrour f.
        • Minguez P.
        • Tarraga J.
        • Montaner D.
        • Alloza E.
        • vaquerizasj.m.
        • Conde L.
        • Blaschke C.
        • Vera J.
        • Dopazo J.
        Babelomics:在基因组规模实验的功能注释中的一种系统生物学视角。
        核酸RES。 2006; 34: W472-W476.
        • 福吉e.k.
        • 布劳恩e.L.
        • Werner-Washburne M.
        蛋白质合成酿酒酵母的长期静止相培养物。
        J. Bacteriol。 1994; 176: 5802-5813
        • Sehgal M.S.
        • 庸俗我。
        • Dooley L.S.
        抵押品缺失价值估算:微阵列数据的新稳健缺失值估计算法。
        生物信息学。 2005; 21: 2417-2423
        • 金H.
        • golub g.h.
        • 公园H.
        DNA微阵列基因表达数据的缺失值估计:局部最小二乘估算。
        生物信息学。 2005; 21: 187-198
        • troyanskaya o.
        • Cantor M.
        • Sherlock G.
        • 棕色P.
        • 哈斯蒂T.
        • Tibshirani R.
        • Botstein D.
        • altman r.b.
        DNA微阵列的缺失值估计方法。
        生物信息学。 2001; 17: 520-525
        • Dudoit S.
        • 杨Y.H.
        • 征集m.j.
        • 速度t.p.
        用于在复制的cDNA微阵列实验中鉴定差异表达基因的统计方法。
        统计。罪。 2002; 12: 111-139
        • Storey J.D.
        • Tibshirani R.
        基因组研究的统计学意义。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 9440-9445
        • rocke d.m.
        • Lorenzato S.
        分析化学中测量误差的双组分模型。
        Technometrics。 1995; 37: 176-184