霰弹枪蛋白质组学中比较光谱计数数据的贝叶斯混合模型

  • 詹姆斯G.展位
    一致
    应解决谁的通信:1178赛座霍卡,伊特卡,纽约14853。电话:607-254-6505;传真:607-255-4698
    隶属关系
    生物统计与计算生物学系,康奈尔大学,奥特卡,纽约州伊特卡馆康马斯大学14853
    搜索本作者的文章
  • Kirsten E. Eilertson
    隶属关系
    康奈尔大学统计科学系,马洛特大厅,伊斯卡,纽约14853
    搜索本作者的文章
  • 保罗多米尼克B. olinares
    隶属关系
    化学与化学生物学系,贝克实验室,伊斯卡,纽约,14853

    植物生物学系,康奈尔大学,艾默生大厅,伊萨,纽约,14853
    搜索本作者的文章
  • 海元玉
    隶属关系
    生物统计与计算生物学系,康奈尔大学,奥特卡,纽约州伊特卡馆康马斯大学14853
    搜索本作者的文章
  • 作者脚注
    1所用的缩写是:LC-MS / MSliquid色谱 - 串联MSSPCS光谱伯氏宫颈冠脊柱宫颈癌克洛克诺克罗斯蒙特卡罗。
      基于质谱的霰弹枪蛋白质组学的最新发展,尤其是使用光谱计数的方法,使得具有复杂蛋白质组的大规模鉴定和差异分析。大多数此类蛋白质组学研究对鉴定蛋白质感兴趣,其丰富在各种条件下具有不同。最近提出了几种定量方法,为此目的提出并实施。建立在微阵列文献中的一些技术,我们开发并实施了一种使用贝叶斯模型的新方法,以同时计算给定实验中数千个蛋白质的差异丰度的后验概率。与几种现有方法相比,我们的贝叶斯模型显示在与几种现有方法相比时提供均匀优越的性能。
      基于质谱的霰弹枪蛋白质组学使复杂蛋白质体的大规模鉴定和差异分析产生了对相关生物系统的显着洞察(
      • Domon B.
      • Aeberberold R.
      选择定量蛋白质组学策略时的选择和考虑因素。
      )。该方法通常涉及液相色谱串联质谱(LC-MS / MS)
      使用的缩写是:
      LC-MS / MS
      液相色谱 - 串联MS
      SPCS.
      光谱计数
      CTAP.
      癌症临床蛋白质组学技术评估
      MCMC.
      马尔可夫链蒙特卡罗。
      分析和采用具有高数据采集效率的混合质谱仪,用于肽离子的强度 - 基于强度的采样(
      • Domon B.
      • Aeberberold R.
      选择定量蛋白质组学策略时的选择和考虑因素。
      ,
      • Domon B.
      • Aeberberold R.
      质谱和蛋白质分析。
      )。差分蛋白质组分析的当前定量策略包括使用稳定同位素标记的试剂进行化学衍生,或蛋白质样品的代谢标记(
      • Bantscheff M.
      • Schirle M.
      • 甜蜜曼G.
      • 瑞克J.
      • Kuster B.
      蛋白质组学中的定量质谱:批判性综述。
      )。最近,出现了无标签技术,例如峰值强度测量和光谱计数(
      • Bantscheff M.
      • Schirle M.
      • 甜蜜曼G.
      • 瑞克J.
      • Kuster B.
      蛋白质组学中的定量质谱:批判性综述。
      )。
      光谱计数涉及根据其所有组成肽的串联质谱观察数来测量给定蛋白质的丰度。已经显示光谱计数(SPC)与相应的蛋白质的丰度相关,该蛋白质延伸超过用于复合蛋白质混合物的至少两个数量级的线性动态范围(
      • 刘H.
      • Sadygov R.G.
      • yates 3rd,J.R.
      霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
      ,
      • 老为
      • Meyer-Arendt K.
      • Aveline-Wolf L.
      • 皮尔斯K.G.
      • 门多萨A.
      • 七夹J.R.
      • resing K.A.
      • ahn n.g.
      霰弹枪蛋白质组学定量人体蛋白质的无标记方法的比较。
      ,
      • 张Y.
      • 温Z.
      • Washburn M.P.
      • Florens L.
      动态排除持续时间对基于光谱计数的定量蛋白质组学的影响。
      ,
      • 库珀B.
      • 冯J.
      • 加勒奇下午
      相对,无标记蛋白质定量:九个复制泥浆样品的光谱计数误差统计。
      )。可以从所有数据库搜索引擎的结果文件中易于提取SPC,这些产品数据库搜索引擎中用于霰弹枪蛋白质组学分析中的蛋白质识别。因此,光谱计数是一种灵活和直接的技术。因此,它提供了基于标签的量化方法的实用替代方案,其可以受到具有标签掺入的试剂或不相容性的高成本限制。对于其他无标签资格方法(如峰强度测量)也是一种很好的选择,这依赖于色谱图对齐和峰值处理的计算工作(
      • Bantscheff M.
      • Schirle M.
      • 甜蜜曼G.
      • 瑞克J.
      • Kuster B.
      蛋白质组学中的定量质谱:批判性综述。
      )。
      最大化作为定量方法的光谱计数的电位在整个典型的霰弹枪分析工作流程中涉及优化,包括样品准备和分级,仪器设置,数据处理和统计分析。霰弹枪LC-MS / MS中的基于强度的肽采样是半随机的,主要取决于样本复杂性,色谱分离和MS仪表参数(
      • 刘H.
      • Sadygov R.G.
      • yates 3rd,J.R.
      霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
      )。研究了关于若干因素的影响,研究了增加抽样深度的影响(
      • 张Y.
      • 温Z.
      • Washburn M.P.
      • Florens L.
      动态排除持续时间对基于光谱计数的定量蛋白质组学的影响。
      ,
      • Pavelka N.
      • 四分之四的M.L.
      • Swanson S.K.
      • Pelizzola M.
      • Ricciardi-Castagnoli P.
      • Florens L.
      • Washburn M.P.
      转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性。
      )。从数据库搜索结果计算匹配光谱的各种方案(
      • 库珀B.
      • 冯J.
      • 加勒奇下午
      相对,无标记蛋白质定量:九个复制泥浆样品的光谱计数误差统计。
      ,
      • 张Y.
      • 温Z.
      • Washburn M.P.
      • Florens L.
      改进标记免费蛋白质组定量:如何应对多种蛋白共享的肽。
      ,
      • 周J.
      • 什叶派A.A.
      • 张X.
      • 摩尔r.j.
      • Monroe M.E.
      • 李约翰。
      • 营地II,D.G.
      • 史密斯r.d.
      • 钱W.
      “通过恢复匹配为自信鉴定的肽序列的低评分光谱来改进LC-MS / MS光谱计数统计。”。
      )以及从包括片段离子MS / MS强度和肽计数的附加信息纳入附加信息(
      • 格里芬N.M.
      • yu J.
      • 长f。
      • 岸边S.
      • 李Y.
      • Koziol J.A.
      • 斯科尼策J.E.
      无标记,标准化的复合质谱数据进行蛋白质组学分析的量化。
      )和LC-MS峰面积(
      • 迪克尔L.
      • 林X.
      • Ivanov A.R.
      通过组合光谱计数和肽峰值属性来增加无标记LC-MS / MS蛋白质组学数据的功率。
      )已被探索。为了更可靠地反映蛋白质组丰度,对原始SPC的适当转化占样品中的肽长度和总SPC(
      • Zybailov B.
      • 莫斯利A.L.
      • Sardiu M.E.
      • 科尔曼M.K.
      • Florens L.
      • Washburn M.P.
      酿酒酵母膜蛋白质表达变化的统计分析。
      )或肽检测的概率(
      • 鲁P.
      • Vogel C.
      • 王R.
      • 姚X.
      • Marcotte e.m.
      绝对蛋白表达分析估计转录和翻译规则的相对贡献。
      )。还出现了光谱计数研究的重要性分析的统计程序,主要基于模拟SPC数据集的行为(
      • Pavelka N.
      • 四分之四的M.L.
      • Swanson S.K.
      • Pelizzola M.
      • Ricciardi-Castagnoli P.
      • Florens L.
      • Washburn M.P.
      转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性。
      ,
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ,
      • Carvalho P.C.
      • Fischer J.s.
      • 陈娥。
      • yates 3rd,J.R.
      • Barbosa V.C.
      蛋白质组学的Patternlab:差动霰弹枪蛋白质组学的工具。
      ,
      • Heinecke N.L.
      • 普拉特B.S.
      • Vaisar T.
      • Becker L.
      Pepc:蛋白质组学软件,用于基于光谱计数鉴定差异表达蛋白质。
      ,
      • PHAM T.V.
      • 派尔斯队S.R.
      • 温暖M.
      • JIMENEZ C.R.
      基于标签串联质谱型蛋白质组学的光谱计数数据分析的β-二项式模型。
      ,
      • 李米
      • 灰色W.
      • 张H.
      • Chung C.H.
      • Billheimer D.
      • yarbrough w.g.
      • 李ebler D.C.
      • 谢尔。
      • Slebos R.J.
      比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
      )。
      更重要的是,大多数蛋白质组学研究对发现蛋白质感兴趣,其丰富的富于不同细胞状态在不同条件下或关于不同治疗中的变化。为此,已经使用简单的统计方法在使用例如沃尔德或似然比统计中在时间分析中进行一种蛋白质。最近,崔 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )实施了贝叶斯模型(具有相关的软件,Qspec),其中所有蛋白质的同时分析了使用伪贝叶斯因子鉴定的单个蛋白质的差异丰度。
      在本文中,我们提出了一种替代的贝叶斯模型,用于比较两种治疗或条件下的光谱计数。该模型允许通过计算其零和非空状态的后验概率来同时测试几千蛋白质,其中非空组中的蛋白质是受处理影响的蛋白质。这种双组分类方法类似于广泛接受的分析微阵列数据的统计方法(
      • 酒吧H.
      • 展位J.
      • Schifano E.
      • Wells M.T.
      拉普拉斯近似的EM微阵列分析:对比较微阵列实验的经验贝叶斯方法。
      ,
      • efron B.
      微阵列,经验贝叶斯和双组模型。
      )。使用OpenBugs软件包(CALLE)通过Markov链Monte Carlo方法轻松实现必要的计算(
      • Lunn D.
      • Spiegelhalter D.
      • 托马斯A.
      • 最好的n。
      BUGS项目:进化,批评和未来的方向。
      )。此外,我们展示(见 结果)基于Choi的贝叶斯方法的分类 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )使用我们的贝叶斯模型类似于一种蛋白质 - 似然似然比测试和基本上低于后部分类的性能。

      实验步骤

       合成酵母蛋白质组数据集

      我们使用了Choi和Conseagues生成的F2合成数据集(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )来自酵母霰弹枪蛋白质组学分析(
      • Pavelka N.
      • 四分之四的M.L.
      • Swanson S.K.
      • Pelizzola M.
      • Ricciardi-Castagnoli P.
      • Florens L.
      • Washburn M.P.
      转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性。
      )。酵母数据集由从中提取的蛋白质组成 酿酒酵母酿酒酵母 在富含培养基中的中间日志阶段生长的菌株BY4741 14N-或 15N-标记的氨基酸。每个中等类型种植了四种独立培养物。将来自每个生长条件的500微克总蛋白质在1:1的比例中混合,得到四种生物重复。得到的混合物 14n-和 15然后将N-标记的蛋白质沉淀,尿素变性,降低,烷基化,并用Lys-C与胰蛋白酶消化。使用12步多维蛋白质识别技术(Mudpit)设置分级并在配备有纳米LC电喷雾电离源的线性陷阱四极(LTQ)线性离子阱质谱仪(Thermofinnigan)中分析提取的肽。数据依赖性采集设置包括全MS扫描,然后进行碰撞诱导的电离(CID)碎片和MS / MS分析五种最丰富的肽离子,具有以下动态排除参数:重复计数,1;重复持续时间,30秒;排除持续时间,300秒。使用extract_ms.exe程序从原始文件获得峰值列表,然后使用续集搜索(
      • ENG J.K.
      • Fischer B.
      • 格罗斯曼J.
      • maccoss m.j.
      快速续集递交算法。
      )具有适当的质量修改 15含有诱饵序列的酵母蛋白质序列数据库的N-标记的肽。 dtaselect(
      • Tabb D.L.
      • 麦当劳W.H.
      • yates 3rd,J.R.
      DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
      )用于产生蛋白质清单,续集得分滤波,产生的假蛋白质识别误差率小于1%(基于诱饵命中计算)。在四个生物学复制中至少一次鉴定了13元和7种蛋白质,并且从DTaselect过滤的续集搜索结果获得了这些蛋白质的SPC。生成F2合成数据集(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ),原始酵母数据集中的蛋白质清单随机化,修饰了前200个蛋白的丰度以反映两种变化 14n-和 15N标记的蛋白质。双重的变化乘以四个重复的 14如果相应的平均SPC大于四个复制的平均SPC,则N-标记的蛋白 15n标记的蛋白质和 反之亦然。对于属于具有较小平均SPC的基团的重复的蛋白质,具有较小的平均SPC的重复,随机产生的泊松数与所得的平均SPC等于双重变化。

       人类蛋白质在酵母蛋白质组背景中飙升

      人酵母蛋白质组数据集是由李和同事的分析获得的(
      • 李米
      • 灰色W.
      • 张H.
      • Chung C.H.
      • Billheimer D.
      • yarbrough w.g.
      • 李ebler D.C.
      • 谢尔。
      • Slebos R.J.
      比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
      )从癌症(CPTAC)研究中的临床蛋白质组学技术评估中获得的数据集(
      • Paulovich A.G.
      • Billheimer D.
      • 火腿A.J.
      • Vega-Montoto L.
      • Rudnick p.a.
      • Tabb D.L.
      • 王P.
      • 黑人r.k.
      • 双打下午。
      • Cardasis H.L.
      • 克劳瑟K.R.
      • kinsinger c.r.
      • 席克宁B.
      • TEGELER T.J.
      • variyath上午
      • 王米
      • Whiteaker J.R.
      • Zimmerman L.J.
      • Fenyo D.
      • carr s.a.
      • 费舍尔S.J.
      • 吉布森B.W.
      • Mesri M.
      • neubert t.a.
      • Regnier F.E.
      • Rodriguez H.
      • Spiegelman C.
      • Stein S.E.
      • Tempst P.
      • 李ebler D.C.
      用于基准测试LC-MS平台性能的酵母性能标准的互借性研究。
      )。在该CPTAC研究中,用加入48个人蛋白(Sigma Universal蛋白标准1)重构冻干酵母裂解物(60ng / ul),其以不同的量掺入(0.25,0.74,2.2,6.7和20 fmol /μl)。我们仅使用数据集比较与6.7和2.2 fmol /μl通用蛋白标准1的酵母参考蛋白质组进行比较,其产生了三倍的丰富差异。将所得混合物还原,烷基化,用胰蛋白酶消化。这些样品的制备和加工在国家标准和技术研究所(NIST)中集中,并在各种组中分布用于MS分析,如(
      • Paulovich A.G.
      • Billheimer D.
      • 火腿A.J.
      • Vega-Montoto L.
      • Rudnick p.a.
      • Tabb D.L.
      • 王P.
      • 黑人r.k.
      • 双打下午。
      • Cardasis H.L.
      • 克劳瑟K.R.
      • kinsinger c.r.
      • 席克宁B.
      • TEGELER T.J.
      • variyath上午
      • 王米
      • Whiteaker J.R.
      • Zimmerman L.J.
      • Fenyo D.
      • carr s.a.
      • 费舍尔S.J.
      • 吉布森B.W.
      • Mesri M.
      • neubert t.a.
      • Regnier F.E.
      • Rodriguez H.
      • Spiegelman C.
      • Stein S.E.
      • Tempst P.
      • 李ebler D.C.
      用于基准测试LC-MS平台性能的酵母性能标准的互借性研究。
      )。这里使用的数据集源自反相LC-MS / MS分馏的样本,并在一个LTQ仪器(Thermofinnigan)中以三份分析,并在Vanderbilt大学的两个LTQ-orbitrap仪器(Thermofinnigan)中进行分析。数据相关的采集设置包括LTQ中的全MS扫描,用于独立LTQ研究,或者在LTQ-orbitrap仪器中的orbitrap中,然后在两个仪器类型中的LTQ中的八个最丰富的肽离子的CID碎片和MS / MS分析。使用以下动态排除参数:重复计数,1和排除持续时间,60秒。用于数据处理和过滤(
      • 李米
      • 灰色W.
      • 张H.
      • Chung C.H.
      • Billheimer D.
      • yarbrough w.g.
      • 李ebler D.C.
      • 谢尔。
      • Slebos R.J.
      比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
      ),由ProteOWIzard MSCOnvert工具转换为MZML格式的生成的Thermo原始文件(
      • Kessner D.
      • Chambers M.
      • Burke R.
      • agus d。
      • Mallick P.
      Proteowizard:开源软件,用于快速蛋白质组学工具开发。
      )并使用myriagatch搜索(
      • Tabb D.L.
      • 费尔南多C.G.
      • Chambers M.C.
      myRimatch:多变量超细分析高度准确的串联质谱肽鉴定。
      )用48人蛋白质和污染物序列以及相应的逆向序列对酵母蛋白质数据库的搜索算法。 Idpicker(
      • 马Z.Q.
      • Dasari S.
      • Chambers M.C.
      • 李tton M.D.
      • sobecki s.m.
      • Zimmerman L.J.
      • alvey p.j.
      • 席克宁B.
      • 德雷克下午
      • 吉布森B.W.
      • Tabb D.L.
      Idpicker 2.0:改进了具有高辨别肽识别过滤的蛋白质组件。
      用2%的假发现率(FDR)过滤肽匹配的肽匹配。将三种仪器的所有数据组装成单个蛋白质清单,需要每种蛋白质的最小两种不同的肽。在组装的数据集中鉴定了48个人蛋白中仅46个。此外,蛋白质清单的整合导致诱饵次数(22%蛋白FDR)的增加和每种蛋白质的五种总SPC的另外的过滤器得到施加,得到6.8%蛋白质FDR。最终数据集由46例人和1342酵e蛋白(总共1488蛋白)组成。

       统计方法

      考虑由频谱计数组成的数据集 p 蛋白质 n 重复。假设复制是控件(例如 野生类型)或治疗组。让 Yij. 表示蛋白质的光谱计数 i 重复 j, 然后让 TJ. 是治疗的二元指示器。我们分析的目的是将每个蛋白质分类为与治疗相对于零缺点。
      天真的方法是在每种蛋白质上简单地进行一次性统计测试。因为响应是计数,所以分析的自然起点是对数线性模型,
      日志μij=β0i+β1iTj+日志Li+日志Nj,
      (eq.1)


      其中μ.IJ. 表示蛋白质的预期计数 i 重复 j和偏移 n 分别占蛋白质的长度和复制效果。假设, H0:β1i = 0,表示蛋白质的治疗效果 i。在假设计数是独立泊松变量的假设,可以使用WALD或似然比(LR)测试统计数据一次评估一种蛋白质,
      Wi=|βˆ1iσˆ(βˆ1i)|2λi=-2LN.f(yi;μˆi(0))f(yi;μˆi(1)),
      (eq。2)


      在哪里 f(;μ. i)是蛋白质计数的泊松可能性 i with fitted means μ^i(k), 为了 k = 0,1,分别为null和非空案例。沃尔德和似然比都需要计算非空模型的最大似然估计,这可以非常快速有效地获得,例如,使用 GLM. function in R (
      • R开发核心团队
      R:统计计算的语言和环境。
      ),但涉及迭代拟合算法。相比之下,得分统计(
      • COX D.R.
      • Hinkley D.v.
      理论统计。
      )仅涉及以封闭形式提供的空模型下的最大可能性估计。实际上,可以显示(见补充材料),即测试的分数统计 H0:β1i = 0 is given by
      Si=n[j=1n(yij-NjNy¯i)Tj]2y¯i(j=1nNjNTj)(j=1nNjN(1-Tj)).
      (eq。3)


      这些统计数据, Wi.,λ.iSI.通常与1度自由度的Chi平方分布进行比较,以确定显着性,尽管具有小的样本尺寸,所以CHI方向分布可能不合适。或者,为了考虑相对于可能变化的可能的过分分解,可以在假设中进行这些测试,计数是独立的负二进制变量,其由所提供的模型给出的装置 等式(1) 或使用基于Quasilikelihion的测试(
      • 李米
      • 灰色W.
      • 张H.
      • Chung C.H.
      • Billheimer D.
      • yarbrough w.g.
      • 李ebler D.C.
      • 谢尔。
      • Slebos R.J.
      比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
      )。

       贝叶斯模型

      仅存在少量数据的每个蛋白质的事实表明,通过借用强度(大量)蛋白质可以获得功率。通过在贝叶斯框架中制定问题,可以实现一般建模策略。崔 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )提出了一种涉及两个贝叶斯模型的方法,既需要马尔可夫链蒙特卡罗(MCMC)仿真,也可以在他们称为QSpec的包装中实现。第一个(完整)模型假定计数是有条件的独立独立的泊松变量,由loglinear模型给出的手段:
      日志μij=a0+b0i+b1iTj+日志Li+日志Nj,


      具有先前规范, a0N(0, σa2), b0iN(0, σ02) 和 b1iN(0, σ12)独立地,高度σ0−2 〜伽玛(0.1,0.1)和σ1−2 〜伽玛(0.1,0.1)。第二个(受限制的)模型具有相同的形式,但省略治疗效果项, b1iTJ.。因此,完整模型允许治疗效果 全部 同时蛋白质,而受限制的模型不允许对任何蛋白质的治疗效果。然后基于a归类为null或非空的蛋白质 形式的形式
      BFi=f(yi.,μ˜i(1))f(yi.,μ˜i(0)),
      (eq。4)


      在哪里 μ˜i(k) 是蛋白质的手段矢量 i 在从完整中获得的回归参数的估计后手段评估(k = 1)和限制(k = 0)模型适合。这是BF统计学是两个模型适合的函数,并且我们注意到其与似然比统计的相似性 等式(2)。我们将在下面提到伪贝叶斯方法。

       贝叶斯混合模型

      我们现在提出了一种替代方法,我们将问题作为贝叶斯分类方法制定问题。具体来说,我们定义 II 成为非空状态的指示 i蛋白质并假设指标是独立的伯努利(π1)变量。然后,我们建议根据后赔率将蛋白质分类为零点或非空
      Oi=P(li=1|数据)P(li=0|数据)
      (eq.5)


      为了 i = 1, … p,蛋白质 i 归类为非空 oi. > c 对于适当的阳性 c。这种“双组”混合模型方法在微阵列文献中广泛使用和接受(
      • 酒吧H.
      • 展位J.
      • Schifano E.
      • Wells M.T.
      拉普拉斯近似的EM微阵列分析:对比较微阵列实验的经验贝叶斯方法。
      ,
      • efron B.
      微阵列,经验贝叶斯和双组模型。
      ,
      • Lonnstedt I.
      • 速度T.
      复制的微阵列数据。
      ,
      • 截妹G.
      微阵列实验评估差异表达的实证贝叶斯方法的线性模型。
      ),关键差异是微阵列上下文中的响应是连续的,通常建模为(log)正常随机变量。更一般地说,在统计模型中纳入潜在的群体指标是贝叶斯分类方法的核心成分(
      • Berger J.O.
      统计决策理论与贝叶斯分析。
      )。
      选择阈值 c 可能有点任意。现代统计方法是试图控制虚假发现率(FDR)(
      • 本杰明Y.
      • Hochberg Y.
      控制虚假发现率:多次测试的实用和强大的方法。
      ); IE。 分类为非缺乏的蛋白质的比例实际上没有治疗效果。在最近的一篇论文中(
      • efron B.
      微阵列,经验贝叶斯和双组模型。
      [是否认为FDR控制可以大致使用后验概率阈值和0.8的值(或等效地为4的后阈值4)。然而,在实践中,阈值的选择可能受到可行的后续实验的数量的时间和财务限制的影响。
      要计算后赔率,我们考虑以下修改版本1
      日志μij=β0+β1+β1Tj+b0i+b1iliTj+日志Li+日志Nj.
      (eq。6)


      线性预测器 等式(6) consists of β0 和 β1,对控制重复的总体均值和整体治疗效果; b0ib1i,相应的蛋白质特异性效果;和偏移 n.
      假设在手机上有条件,μIJ.,计数, Yij.,是独立的泊松变量。然后通过将产品分布到模型参数来完成贝叶斯模型规范。因为π.1,β.0和β.1 是我们预期其后部分布的全局参数对先前的选择相对不敏感。因此,我们在Bernoulli概率下使用统一(LAPLACE),π1,并弥漫性独立的正常前瞻,β0N(0,102)和β1N(0,102),对于全球回归系数。我们考虑了蛋白质特定系数的现有分布的三种选择:
      • 1
        (b0i, b1i)〜 N2(0,σ)独立为 i = 1,......, p,σ.−1~wishart(I,ν),在哪里 I 是身份矩阵和ν= 10;
      • 2
        b0iN(0, σ02) 和 b1iN(0, σ12)独立为 i = 1,......, p,σ.0−2 〜伽玛(0.1,0.1)和σ1−2 〜伽玛(0.1,0.1)独立;和
      • 3
        b0iN(0,σ02) 和 b1iN(Δ,σ12)独立为 i = 1,......, p,σ.0−2 〜伽玛(0.1,0.1)和σ1−2 〜伽马(0.1,0.1)独立,Δ〜 N(0,102)。
      模型1允许蛋白质特异系数之间的潜在相关性,而模型2和3假设它们是独立的。模型3允许蛋白质特异性治疗效果的后序在零和非空组中不同。如果非空蛋白质在其中一种治疗组中,则该最终修改非常重要(参见“结果”)。
      计算零和非空状态的后验概率的最直接的方法,从而给出了后赔率 等式(5),用于模拟Markov链,限制分布等于参数的后部分布和给定数据的潜在因子。具体地,在合适的“燃烧”时期之后,马尔可夫链的每次连续迭代都可以被视为从后部分布的抽取,因此是后部手段(或概率,如 等式(5))可以计算为Monte Carlo平均值。看 (
      • 格尔曼A.
      • Carlin J.B.
      • 斯特恩H.S.
      • 鲁宾D.B.
      贝叶斯数据分析。
      )对于MCMC方法背后的理论的更详细描述。 openbugs(
      • Lunn D.
      • Spiegelhalter D.
      • 托马斯A.
      • 最好的n。
      BUGS项目:进化,批评和未来的方向。
      )是一个开源统计包,它为大类分层贝叶斯模型实现了MCMC方法,该模型可以用指示的非循环图表示。本文讨论的贝叶斯模型是所有这些类型,因此可以在不开发新的模型特定软件的情况下进行所有必要的计算。

      结果

      Fig. 1 对比先前部分中讨论的单蛋白质 - AT-at-at-A-A-TIME测试的性能和前一部分中讨论的贝叶斯方法,其接收器操作特征曲线用于前面描述的两个公开的数据集。 Fig. 1A 显示Choi生成的合成数据集的接收器操作特性曲线 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )基于Pavelka进行的酵母霰弹枪蛋白质组学分析 等等。 (
      • Pavelka N.
      • 四分之四的M.L.
      • Swanson S.K.
      • Pelizzola M.
      • Ricciardi-Castagnoli P.
      • Florens L.
      • Washburn M.P.
      转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性。
      )。
      图缩略图GR1.
      Fig. 1在沃尔德,得分和似然比测试中,接收到一种蛋白质的接收器,得分和似然比,从贝叶斯模型1-3和PBAYES(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ) 为了 (A)双重尖刺的合成数据集来自Choi 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ) 和 (B)来自Paulovich的CPTAC人类酵母数据(
      • Tabb D.L.
      • 麦当劳W.H.
      • yates 3rd,J.R.
      DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
      )。
      一个关键发现是伪贝叶斯方法(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ),其鉴定了使用给出的BF统计的两种治疗中的差异丰富的蛋白质 等式(4),对单蛋白质 - 一次性分数和似然比测试具有类似的性能。 WALD试验与合成双重尖刺数据集的性能不足令人惊讶,因为许多蛋白质具有非常低的SPC值和估计系数的标准误差 μ^1i 是极度不稳定的这种情况。我们的Bayesian Model 3在两个数据集中均致力于单一的方法(和伪贝类)。但是,模型1和2,而基本上与模型3分类在分类Spiked蛋白中(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      ),类似地与CPTAC人酵e数据集中的单一时间方法(和伪贝叶斯)同样地执行。两个数据集中的模型1和2的不同性能的说明是,合成数据中的SPC的2倍尖峰在大致相同数量的突变体样本中作为野生类型进行(参见 Fig. 2)。因此,对于无效蛋白,治疗效果的后部平均值接近于零。相比之下,CPTAC数据集中的人蛋白在 d-Samples。因此,非空组中的后叶片是阳性的,在模型1和2中不允许的可能性。
      图缩略图GR2.
      Fig. 2两种治疗组的丰富率为合成双重尖刺数据(
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )和CPTAC人类酵母数据(
      • 李米
      • 灰色W.
      • 张H.
      • Chung C.H.
      • Billheimer D.
      • yarbrough w.g.
      • 李ebler D.C.
      • 谢尔。
      • Slebos R.J.
      比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
      )。 丰度率计算为 Y¯/(L. N¯), 在哪里 Y¯ 样本是均值SPC, L 是蛋白质长度,和 N¯ 是均值的SPC整体上所有样品在治疗组中。

      讨论

      严格来说,贝叶斯因子是比较对另一个模型规范下数据的边际概率(
      • 格尔曼A.
      • Carlin J.B.
      • 斯特恩H.S.
      • 鲁宾D.B.
      贝叶斯数据分析。
      )。在霰弹枪蛋白质组学研究的背景下有两个条件(例如 野生型和突变体)有2个p 可能的型号,其中P是蛋白质的数量,因为每个蛋白质可以在两个条件下具有相等或差异的丰度。 choi的方法 等等。 (
      • Choi H.
      • 费尔明D.
      • nesvizhskii a.i.
      无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
      )仅考虑其中的两个模型,其中允许差动丰度(非空状态) 每一个 蛋白质,以及任何蛋白质的条件之间没有差异的蛋白质。因此,它们的蛋白质特异性伪贝叶斯因子不能在所有其他蛋白质上边缘化方面解释。相比之下,我们的贝叶斯模型基本上考虑了所有2p 通过包含每种蛋白质的无效和非空状态的潜伏指示剂同时可能同时使用潜伏。因此,我们认为,我们的贝叶斯混合物模型,它导致基于后验概率或赔率的简单分类方案,比基于贝叶斯因素的方法更为统计学和可应对。正如我们在介绍中所指出的那样,现在广泛接受类似型号的微阵列数据(
      • 酒吧H.
      • 展位J.
      • Schifano E.
      • Wells M.T.
      拉普拉斯近似的EM微阵列分析:对比较微阵列实验的经验贝叶斯方法。
      ,
      • efron B.
      微阵列,经验贝叶斯和双组模型。
      )。最后,我们的方法很简单地使用广泛使用的(开源)软件包,OpenBugs(
      • Lunn D.
      • Spiegelhalter D.
      • 托马斯A.
      • 最好的n。
      BUGS项目:进化,批评和未来的方向。
      )。
      本文中描述的完全贝叶斯混合物模型分析的一个轻微缺点是它需要MCMC仿真来实现,因此比简单的一次性方法(如几乎瞬时的分数测试)慢。即便如此,对于尺寸描述的数据集 结果 section (n = 6或8, p 〜1000),在电脑上运行三个Markov链,带有英特尔酷睿2 T9500处理器,运行在2.60 MHz,3.5 GB的RAM需要不到20分钟。鉴于我们所证明的远远卓越性能,这似乎并不太大。

      参考

        • Domon B.
        • Aeberberold R.
        选择定量蛋白质组学策略时的选择和考虑因素。
        NAT。 Biotechnol。 2010; 28: 710-721
        • Domon B.
        • Aeberberold R.
        质谱和蛋白质分析。
        科学。 2006; 312: 212-217
        • Bantscheff M.
        • Schirle M.
        • 甜蜜曼G.
        • 瑞克J.
        • Kuster B.
        蛋白质组学中的定量质谱:批判性综述。
        肛门。生物丹纳尔。化学。 2007; 389: 1017-1031
        • 刘H.
        • Sadygov R.G.
        • yates 3rd,J.R.
        霰弹枪蛋白质组学中相对蛋白质丰度的随机抽样与估算模型。
        肛门。化学。 2004; 76: 4193-4201
        • 老为
        • Meyer-Arendt K.
        • Aveline-Wolf L.
        • 皮尔斯K.G.
        • 门多萨A.
        • 七夹J.R.
        • resing K.A.
        • ahn n.g.
        霰弹枪蛋白质组学定量人体蛋白质的无标记方法的比较。
        摩尔。细胞蛋白质组学。 2005; 4: 1487-1502
        • 张Y.
        • 温Z.
        • Washburn M.P.
        • Florens L.
        动态排除持续时间对基于光谱计数的定量蛋白质组学的影响。
        肛门。化学。 2009; 81: 6317-6326
        • 库珀B.
        • 冯J.
        • 加勒奇下午
        相对,无标记蛋白质定量:九个复制泥浆样品的光谱计数误差统计。
        J.IM。 SOC。质谱。 2010; 21: 1534-1546
        • Pavelka N.
        • 四分之四的M.L.
        • Swanson S.K.
        • Pelizzola M.
        • Ricciardi-Castagnoli P.
        • Florens L.
        • Washburn M.P.
        转录组织与定量霰弹枪蛋白质组学数据之间的统计相似性。
        摩尔。细胞蛋白质组学。 2008; 7: 631
        • 张Y.
        • 温Z.
        • Washburn M.P.
        • Florens L.
        改进标记免费蛋白质组定量:如何应对多种蛋白共享的肽。
        肛门。化学。 2010; 82: 2272-2281
        • 周J.
        • 什叶派A.A.
        • 张X.
        • 摩尔r.j.
        • Monroe M.E.
        • 李约翰。
        • 营地II,D.G.
        • 史密斯r.d.
        • 钱W.
        “通过恢复匹配为自信鉴定的肽序列的低评分光谱来改进LC-MS / MS光谱计数统计。”。
        蛋白质组研究杂志。 2010; 9: 5698-5704
        • 格里芬N.M.
        • yu J.
        • 长f。
        • 岸边S.
        • 李Y.
        • Koziol J.A.
        • 斯科尼策J.E.
        无标记,标准化的复合质谱数据进行蛋白质组学分析的量化。
        NAT。 Biotechnol。 2010; 28: 83-89
        • 迪克尔L.
        • 林X.
        • Ivanov A.R.
        通过组合光谱计数和肽峰值属性来增加无标记LC-MS / MS蛋白质组学数据的功率。
        摩尔。细胞蛋白质组学。 2010; 9: 2704-2718
        • Zybailov B.
        • 莫斯利A.L.
        • Sardiu M.E.
        • 科尔曼M.K.
        • Florens L.
        • Washburn M.P.
        酿酒酵母膜蛋白质表达变化的统计分析。
        J.蛋白质组。 2006; 5: 2339-2347
        • 鲁P.
        • Vogel C.
        • 王R.
        • 姚X.
        • Marcotte e.m.
        绝对蛋白表达分析估计转录和翻译规则的相对贡献。
        NAT。 Biotechnol。 2007; 25: 117-124
        • Choi H.
        • 费尔明D.
        • nesvizhskii a.i.
        无标签霰弹枪蛋白质组学中光谱计数数据的意义分析。
        摩尔。细胞蛋白质组学。 2008; 7: 2373-2385
        • Carvalho P.C.
        • Fischer J.s.
        • 陈娥。
        • yates 3rd,J.R.
        • Barbosa V.C.
        蛋白质组学的Patternlab:差动霰弹枪蛋白质组学的工具。
        BMC生物信息学。 2008; 9: 316
        • Heinecke N.L.
        • 普拉特B.S.
        • Vaisar T.
        • Becker L.
        Pepc:蛋白质组学软件,用于基于光谱计数鉴定差异表达蛋白质。
        生物信息学。 2010; 26: 1574-1575
        • PHAM T.V.
        • 派尔斯队S.R.
        • 温暖M.
        • JIMENEZ C.R.
        基于标签串联质谱型蛋白质组学的光谱计数数据分析的β-二项式模型。
        生物信息学。 2010; 26: 363-369
        • 李米
        • 灰色W.
        • 张H.
        • Chung C.H.
        • Billheimer D.
        • yarbrough w.g.
        • 李ebler D.C.
        • 谢尔。
        • Slebos R.J.
        比较霰弹枪蛋白质组学使用光谱计数数据和准可能性建模。
        J.蛋白质组。 2010; 9: 4295-4305
        • 酒吧H.
        • 展位J.
        • Schifano E.
        • Wells M.T.
        拉普拉斯近似的EM微阵列分析:对比较微阵列实验的经验贝叶斯方法。
        统计。 SCI。 2010; 25: 388-407
        • efron B.
        微阵列,经验贝叶斯和双组模型。
        统计。 SCI。 2008; 23: 1-22
        • Lunn D.
        • Spiegelhalter D.
        • 托马斯A.
        • 最好的n。
        BUGS项目:进化,批评和未来的方向。
        统计。 Med。 2009; 28: 3049-3067
        • ENG J.K.
        • Fischer B.
        • 格罗斯曼J.
        • maccoss m.j.
        快速续集递交算法。
        J.蛋白质组。 2008; 7: 4598-4602
        • Tabb D.L.
        • 麦当劳W.H.
        • yates 3rd,J.R.
        DTASELECT和对比度:用于组装和比较霰弹枪蛋白质组学蛋白质标识的工具。
        J.蛋白质组。 2002; 1: 21-26
        • Paulovich A.G.
        • Billheimer D.
        • 火腿A.J.
        • Vega-Montoto L.
        • Rudnick p.a.
        • Tabb D.L.
        • 王P.
        • 黑人r.k.
        • 双打下午。
        • Cardasis H.L.
        • 克劳瑟K.R.
        • kinsinger c.r.
        • 席克宁B.
        • TEGELER T.J.
        • variyath上午
        • 王米
        • Whiteaker J.R.
        • Zimmerman L.J.
        • Fenyo D.
        • carr s.a.
        • 费舍尔S.J.
        • 吉布森B.W.
        • Mesri M.
        • neubert t.a.
        • Regnier F.E.
        • Rodriguez H.
        • Spiegelman C.
        • Stein S.E.
        • Tempst P.
        • 李ebler D.C.
        用于基准测试LC-MS平台性能的酵母性能标准的互借性研究。
        摩尔。细胞蛋白质组学。 2010; 9: 242-254
        • Kessner D.
        • Chambers M.
        • Burke R.
        • agus d。
        • Mallick P.
        Proteowizard:开源软件,用于快速蛋白质组学工具开发。
        生物信息学。 2008; 24: 2534-2536
        • Tabb D.L.
        • 费尔南多C.G.
        • Chambers M.C.
        myRimatch:多变量超细分析高度准确的串联质谱肽鉴定。
        J.蛋白质组。 2007; 6: 654-661
        • 马Z.Q.
        • Dasari S.
        • Chambers M.C.
        • 李tton M.D.
        • sobecki s.m.
        • Zimmerman L.J.
        • alvey p.j.
        • 席克宁B.
        • 德雷克下午
        • 吉布森B.W.
        • Tabb D.L.
        Idpicker 2.0:改进了具有高辨别肽识别过滤的蛋白质组件。
        J.蛋白质组。 2009; 8: 3872-3881
        • R开发核心团队
        R:统计计算的语言和环境。
        统计计算的基础, 维也纳,奥地利2010
        • COX D.R.
        • Hinkley D.v.
        理论统计。
        查普曼& Hall/CRC, 1979: 315
        • Lonnstedt I.
        • 速度T.
        复制的微阵列数据。
        统计。 Sinica。 2002; 12: 31-46
        • 截妹G.
        微阵列实验评估差异表达的实证贝叶斯方法的线性模型。
        统计。苹果。莫尔。摩尔。 BIOL。 2004; 3: 2
        • Berger J.O.
        统计决策理论与贝叶斯分析。
        第二次。 兴趣者, 纽约,纽约2006
        • 本杰明Y.
        • Hochberg Y.
        控制虚假发现率:多次测试的实用和强大的方法。
        J. Roy.Stat。 SOC。 B. 1995; 57: 289-300
        • 格尔曼A.
        • Carlin J.B.
        • 斯特恩H.S.
        • 鲁宾D.B.
        贝叶斯数据分析。
        查普曼和大厅/ crc, 博卡拉顿,F12004: 184