广告

计算单细胞蛋白质组学中的时间动态样本量要求

开放访问发布:4月26日,2021年4月26日 DOI: //doi.org/10.1016/j.mcpro.2021.100085

      强调

      • 单细胞研究暴露细胞异质性,需要统计规划
      • 检测蛋白质中的时间变化取决于折叠变化和变异性
      • 复制时间课程提高了检测时间动态的可靠性
      • 时间实验需要密集的细胞采样以跟踪逐渐过渡
      • 时间课程轨迹实验需要比两个状态比较更多的样本。

      抽象的

      单细胞测量是独特的,能够表征细胞对细胞异质性,并且已经用于探讨组织和其他复杂的细胞组件中存在的细胞类型和生理功能的大多样性。单细胞蛋白质组学的有趣施加是生物转变期间蛋白质组动力学的表征,如细胞分化或疾病进展。时间课程实验,定期在状态转换期间进行测量,依赖于检测数据系列中动态轨迹的能力。然而,在单个细胞蛋白质组学实验中,细胞对细胞异质性使蛋白质组动态的自信地识别是,因为测量变异性可能高于预期。因此,对这些实验的关键问题是在时间过程中需要获得许多数据点以实现稳健的统计分析。我们在这里展示了对影响蛋白质组动力学检测的统计置信度的最重要变量的分析:折叠变化,测量变异性和在时间过程中测量的细胞数量。重要的是,我们表明,在时域中少于16个测量的数据集遭受了低精度,并且还具有高的假阳性率。我们还展示了如何在实验设计中平衡竞争需求,以实现所需的结果。

      图形概要

      介绍

      个体细胞表达独特的蛋白质组;对于复杂环境中的细胞以及实验室控制的细胞培养实验中的细胞是如此。这些差异来自内在和外在因素,例如获取营养素,与其他小区或细胞周期状态的空间关系
      • Mahdessian D.
      • Cesnik A.J.
      • GNANN C.
      • Danielsson F.
      • StenströmL.
      • ARIF M.
      • 张C.
      • 让。
      • 约翰逊F.
      • Shutten R.
      • BäckströmA。
      • Axelsson U.
      • Thul P.
      • Cho N.H.
      • Carja O.
      • UhlénM.
      • Mardinoglu A.
      • Stadler C.
      • Lindskog C.
      • Ayoglu B.
      • Leonetti M.D.
      • Ponténf。
      • 沙利文D.P.
      • Lundberg E.
      具有单细胞蛋白蛋白酶蛋白酶体的细胞周期的时尚沉淀。
      。多细胞生物中的组织通常含有各种离散的细胞类型,每种分立细胞类型,每种分立细胞类型表达独特的蛋白质组,这些功能细胞状态的组合产生整体组织功能。单细胞测量通过定量测量单个细胞的转录物或蛋白质丰度来促进研究这种差异
      • SPECHT H.
      • Slavov N.
      单细胞蛋白质组学的转型机会。
      ,
      • DOERR A.
      单细胞蛋白质组学。
      .
      通过mRNA测序完成单细胞表型表征的许多早期工作
      • MacOSKO e.Z.
      • Basu A.
      • Satija R.
      • Nemesh J.
      • Shekhar K.
      • 高盛M.
      • Tirosh I.
      • Bialas A.R.
      • kamitaki n。
      • Marterseeck e.m.
      • Trombetta J.J.
      • Weitz D.A.
      • Sanes J.R.
      • Shalek A.K.
      • Regev A.
      • 麦卡尔尔S.A.
      使用纳米液滴的个体细胞的高度平行基因组表达分析。
      ,
      • 克莱因上午
      • Mazutis L.
      • Akartuna I.
      • 塔帕拉加达N.
      • veres a。
      • 李文。
      • Peshkin L.
      • Weitz D.A.
      • Kirschner M.W.
      用于单细胞转录组织的液滴条形码施用于胚胎干细胞。
      ,这仍然是一个广泛使用的数据源。然而,蛋白质通常是由蛋白质进行的细胞外功能,例如蛋白质。在过去十年中之前的特性结构,代谢酶,信号传感器等揭示了MRNA丰度测量是蛋白质丰度测量的可怜代理,综述
      • 堡垒N.
      • 总体上行
      • Pavlidis P.
      • freue g.v.c.
      我们可以从mRNA水平预测蛋白质吗?
      • 刘Y.
      • Beyer A.
      • Aeberberold R.
      关于细胞蛋白水平对mRNA丰度的依赖性。
      • Payne S.H.
      蛋白质和mRNA相关的效用。
      。实际上,在mRNA数据中未检测到动态蛋白质组中的许多重要的时间趋势
      • Waldbauer J.R.
      • Rodrigue S.
      • 科尔曼M.L.
      • chisholm s.w.
      光暗同步细菌细胞周期的转录组和蛋白质组动力学。
      。对于批量测量以及单个单元来说,这是正确的
      • Taniguchi Y.
      • Choi P.J.
      • 李G. -W.
      • 陈H.
      • Babu M.
      • 审讯J.
      • Emili A.
      • 谢X.S.
      • 量化E.
      大肠杆菌蛋白质组和转录组,单分子敏感性在单细胞中。
      • StåhlbergA.
      • Thomsen C.
      • ruff d.
      • ÅmanP.
      DNA,RNA和同一单细胞中蛋白质的定量PCR分析。
      • Darmanis S.
      • 勇敢的C.J.
      • marinescu v.d.
      • Niklasson M.
      • Segerman A.
      • Flamourakis G.
      • Fredriksson S.
      • Assarsson E.
      • Lundberg M.
      • Nelander S.
      • Westermark B.
      • LANDEGREN U.
      单细胞中RNA和蛋白质的同时复用测量。
      。最近在细胞周期内发现蛋白质组动力学的研究发现仅有15%的有丝分裂循环蛋白质具有协调的循环mRNA转录物
      • Mahdessian D.
      • Cesnik A.J.
      • GNANN C.
      • Danielsson F.
      • StenströmL.
      • ARIF M.
      • 张C.
      • 让。
      • 约翰逊F.
      • Shutten R.
      • BäckströmA。
      • Axelsson U.
      • Thul P.
      • Cho N.H.
      • Carja O.
      • UhlénM.
      • Mardinoglu A.
      • Stadler C.
      • Lindskog C.
      • Ayoglu B.
      • Leonetti M.D.
      • Ponténf。
      • 沙利文D.P.
      • Lundberg E.
      具有单细胞蛋白蛋白酶蛋白酶体的细胞周期的时尚沉淀。
      。因此,为了在单细胞水平处鉴定动态蛋白质组反应,是必要的蛋白质组学测量。
      单细胞蛋白质组学造成巨大的技术挑战,直到最近,尚未证明全球蛋白质组的篇幅概况,综述
      • 凯莉r.t.
      单细胞蛋白质组学:进步与前景。
      。随着单细胞蛋白质组学获得动力,重要的是要注意其从业者遇到的实际限制,特别是与可以在实验中可以分析的细胞数量相关。单细胞mRNA测序实验,从结扎的条形码中受益
      • 史密斯上午
      • Heisler L.E.
      • 圣尼格拉夫。
      • Farias-Hesson E.
      • 华莱士我。
      • Bodeau J.
      • 哈里斯A.N.
      • Perry K.M.
      • Giaver G.
      • Pourmand N.
      • Nislow C.
      高度复用条形码测序:汇集样品的平行分析的有效方法。
      ,能够将数万个样本复用成单个数据采集运行
      • Lan F.
      • Demaree B.
      • Ahmed N.
      • abate a.r.
      用微流体液滴条形码超高通量的单细胞基因组测序。
      。然而,蛋白质组学复用仍然限于〜20个样品
      • 李杰。
      • van Vranken J.G.
      • Pontano Vaites L.
      • Schweppe D.K.
      • Huttlin E.L.
      • Etienne C.
      • Nandhikonda P.
      • Viner R.
      • robitaille上午
      • 汤普森A.H.
      • Kuhn K.
      • 派克I.
      • Bomgarden R.D.
      • 罗杰斯J.C.
      • Gygi S.P.
      • 保罗J.A.
      TMTPRO试剂:一组等离性标记质量标签可以通过16个样品进行同时蛋白质组的测量。
      。因此,大量单个细胞的蛋白质组学分析中的主要限制(>1000)仍然是仪器采集时间。出于这个原因,许多研究人员面临的实验类型的实际限制,这些类型可以设计用于在单细胞水平上探讨蛋白质组学表型。
      随着时间的推移表征蛋白质组动力学对于了解细胞分化,疾病进展和治疗反应至关重要。与两种状态相比,时间课程实验在生物过程中几次收集测量。这种实验设计的一个基本问题是需要采样多少时间点以检测蛋白质动态。由于单细胞蛋白质组学的实际限制,分析的时间点数量可能不足以实现动态趋势的统计置信度。虽然在两个状态比较中常用的T检验是在每个状态(例如5-10)中的少量样品的表现良好,但是未知如何影响检测时间趋势的能力 - 处理数据。已经创建了各种工具来帮助地图表达动态或轨迹
      • Alpert A.
      • 摩尔勒。
      • Dubovik T.
      • 沉ORR S.S.
      单细胞轨迹对齐比较蜂窝表达动态。
      • Trapnell C.
      • Cacchiarelli D.
      • 格里姆斯比J.
      • Pokharel P.
      • 李S.
      • 莫尔斯米
      • Lennon N.J.
      • Livak K.J.
      • Mikkelsen T.S.
      • rinn J.L.
      单细胞的假型催效性排序揭示了细胞命运决策的动态和调节器。
      • Bendall S.C.
      • 戴维斯K.L.
      • amir e.-a.d.
      • Tadmor M.D.
      • 西蒙斯e.f.
      • 陈t.j.
      • 沉芬D.K.
      • Nolan G.P.
      • Pe'er D.
      单细胞轨迹检测揭示人体B细胞发展中的进展和调节协调。
      。然而,这些通常在实验的假设内创建,其中时域跨越时域的采样细胞的数量是千元的。在此,我们通过系统地探索通过类似于功率分析的大模拟来促进蛋白质组变异性和效果大小的影响,促进估计时间动态实验中所需的细胞数量的方法。

      实验步骤

      本手稿中使用的所有计算和数据都可以在我们公开的GitHub存储库中找到, //github.com/PayneLab/SingleCellSampleSize。下面列出了用于在手稿中创建数字和指标的特定脚本。

       计算精度和错误发现

      对于提供的数据 图12,我们使用标准公式Y = MX + B模拟具有单一蛋白质丰度和时间测量的大量的“细胞”作为蛋白质_倾斜=斜率*时间+ 1±ε。误差项ε是一种随机误差,其模拟了测量中的生物和/或技术变异性。该错误从具有指定标准偏差的零居中的正态分布中绘制。对于单一模拟,斜率和标准偏差选自:斜率S∈[0.5,1,2,4],标准偏差V≥0,0.25,0.5,0.75,1]。然后,我们创建了10,000人群,随机种子为0到1之间的时间变量。可以在名为simulate_data.r的文件中的GitHub存储库中找到用于制作模拟群体的完整软件。
      图缩略图GR1.
      图1识别时间动态的准确性。 对于各种参数集的斜率,可变性和小区数,显示了正确识别时间动态的准确性。为了比较,通过斜率组织了四个子单位中的每一个,并且显示了相应的测量变量和单元号的参数扫描。误差栏源自10个独立模拟。
      图缩略图GR2.
      图2 伪阳性率在识别时间动态中。 为相同的参数计算了假阳性识别的速率 。假阳性被定义为不变蛋白质的错误分类,错误地将其报告为变化。如所示 ,面板由斜率组织,并显示跨越细胞的参数扫描。
      为了确定真正阳性和假阳性率,我们从人口中采样了特定数量的细胞,N_Sample∈[7,16,20,30,100]。使用这些离子细胞的蛋白质丰富和时间值,我们使用了蜂窝织17 插入轨迹(补充图1)。接下来,我们计算了内插轨迹与人口真正的时间轨迹之间的区域ABC_TRUE。通过计算内插轨迹与分布蛋白质的平均蛋白质的水平线之间的区域来测试零假设(没有变化);此度量标准称为ABC_NULL。如果是ABC_TRUE.<abc_null,然后我们断言来自子采样的数据代表了一种不断变化的蛋白质;如果abc_true.>Abc_null,然后我们断言,所述分配代表不变的蛋白质。报告的准确性 图1 是每群1000个子样本的结果。我们还重复了整个模拟10次,如图10所示 图1 作为错误栏。用于计算精度和制作面板的完整软件 图1 可以在我们的github存储库中找到名为makefigure1.r的文件。
      计算错误发现的过程与计算精度非常相似,除了正确的答案是没有变化,并且错误的答案是插补轨迹匹配倾斜的线路。我们使用与上述相同的配方模拟了大量的细胞,具有该人群总始终具有零的真正斜率。为了计算虚假发现,我们再次来自群体的数据单元,并使用Cellalign内插轨道。然后,我们计算了曲线度量ABC_TRUE之间的一个区域,该区域反射了内插轨迹与群体的真实轨迹之间的距离(即没有变化)。我们还计算了ABC_FalsePigyive度量,其反映了内插轨迹和倾斜线之间的区域。对于地图 图2 ,斜率为0.5,1,2或4.误报率 图2 是每群1000个样本的结果。我们重复整个模拟10次,显示在上面 图2 作为错误栏。用于模拟,计算和绘制面板的完整软件 图2 可以在文件makefigure2.r中的GitHub存储库中找到。

       概括坡度和变化

      为了概括真正积极和假阳性的速率,我们使用斜率/变化比和限制单元的数量来重新计算这些度量的单独模拟。数据 图3. 使用与上述相同类型的模拟产生的生成 图12 除了使用不同的斜坡和变化来计算0.5,1,1.5,2,3,4和6的S / V值。绘制的数据来自单个S / V比的不同模拟,具有不同的S和S的不同值v分别。例如,使用S / V =(0.5 / 1.0; 0.75 / 1.5; 1.0 / 2.0; 1.5 / 3.0; 2.0 / 4.0; 3.0 / 6.0)产生0.5的数据。如图所示 补充图3.,相同比率的不同S / V组合具有等效的精度。这表明S / V度量标准稳健,仍然是影响比率的方法,例如导致信号压缩的TMT实验。其他S / V值以相同的方式计算。用于模拟,计算和绘制数据的完整代码 图3. 可以在文件makefigure3a.r和makefigure3b.r中找到我们的github存储库中。
      图缩略图GR3.
      图3. 规模不变趋势。 显示斜率/变化的无垢比率显示精度和假阳性率。如同 ,模拟用于确定斜率,变化和单元数的各种参数组合的真正正阳性率。特定的斜率/变型数据点来自斜率和变化的多种不同组合。例如,绘制S / V = 0.5的值均由斜率/变型=(0.5 / 1.0; 0.75 / 1.5; 1.0 / 2.0; 1.5 / 3.0; 2.0 / 4.0; 3.0 / 6.0)。注意y轴缩放缩放以允许更好地可视化数据。
      补充图2 重新分析出版的单细胞蛋白质组学数据
      • Clair G.
      • Tsai C.-f.
      • 徐酸
      • Chrisler W.B.
      • Sontag R.L.
      • 赵立
      • 摩尔r.j.
      • 刘涛。
      • PASA-TOLIC L.
      • 史密斯r.d.
      • Shi T.
      • Adkins J.N.
      • 钱W.-J.
      • 凯莉r.t.
      • Ansong C.
      • 朱y
      高通量单细胞蛋白质组学通过多路复用等离子蛋白标记在纳米进样品制备平台中实现。
      ,并使用两个小区类型C10和SVEC,在单元类型和组内变化之间绘制折叠变化。通过在C10细胞和SVEC细胞的平均丰度之间取出绝对差异来发现每种蛋白质的折叠变化。绘图的变化是C10细胞的标准偏差。用于分析,计算和绘制数据的完整代码 补充图2 可以在我们的github存储库中找到measupplementalfigure2.r。

       估算S / V

      要表征测量的子样本如何近似较大人群的真实斜率和变化,我们耗尽了如上所述的模拟,如上所述,真正的S / v = 1.从10,000个细胞的大群中,我们对给定数量的细胞进行了限制n_sample∈[7,16,20,30,100],并计算的s / v 美东时间 。 s / v 美东时间 通过使用线性回归来拟合到所述限制数据的线路来计算。然后使用配合线的斜率作为我们的估计斜率。通过计算剩余物体的标准偏差,找到估计的变化。我们计算了s / v 美东时间 对于1000个独立的人口副页,并计算了差异S / V的分布 真的 - S/V 美东时间 。这是绘制的 图4. 一种。 图4.b显示使用S / V后将保持的蛋白质数量 美东时间 = 1作为截止值。我们在S / V模拟了5个具有1000个细胞的群体 真的 ∈[0,0.5,1,11,2]。我们从群体中取出30个细胞,计算的S / V 美东时间 如果s / v,则丢弃了子采样事件 美东时间 <图1.图显示了过滤后仍然保持的采样事件的百分比。用于分析,计算和绘制数据的完整代码 图4. A和B可以在文件MakeFigure4.r和simulate_data_figure4.r中找到我们的GitHub存储库中。
      图缩略图GR4.
      图4.估计数据的S / V近似的准确性。 (a)我们估计了来自细胞的分置的s / v,其中真正的群体s / v = 1.密度图显示了近似的s / v和真正的s / v之间的差异,使用子样本尺寸为7, 16,20,30和100.(b)使用估计的S / V作为截止的效果。模拟数据以含有S / V 0,0.5,1,1.5和2的蛋白质在用S / V除去数据后 美东时间 <如图1所示,图表显示了根据其真实S / v保持的蛋白质百分比。

      结果

      与质谱测量相关的挑战之一是它们本质上是破坏性的。为了测量细胞中的蛋白质,细胞本身被破坏(例如裂解)。因此,对于测量随时间变化的实验,细胞在时间测量0 将与在时间测量的细胞不同1。这意味着在时间之间观察到的蛋白质丰度的变化0 和 time1 至少有两个潜在的来源。一些变化可以归因于时间动态。在时间测量的细胞之间的第二个变化源0 和 time1 归因于细胞到细胞的可变性。我们特别强调即使对于同步细胞,或者在均匀努力均质化细胞状态的实验设计中,在各个单细胞之间的蛋白质组中将存在真实和可观察的变化。此外,这种可变性通常大于最初期望的变化。
      时间课程实验的第二个重要元素是如何测量时间。生物学中有许多相关的时间应用,包括:细胞分化,从健康到疾病的过渡,或对外部刺激的反应。在这些各种实验系统中,时间可以是绝对的(2PM)或相对(刺激后5分钟)。时间可以是可观察到的事实(日期)或从数据推断的值(通过各种标记的丰度测量的细胞周期期间的相对时间)。在研究疾病进展中,时间指标更准确地是“假性时间”,其测量从健康到患病状态的近似进展 - 也许通过可见的形态特征来测量。根据具体的科学问题,可以以非常具体的间隔或随机采样严格地定义时域的实验采样。在此稿件和下面描述的统计模拟中,时间是抽象的。表示时间的变量在零到1的界限内变化;零表示实验的时间开始,一个代表结束。

       实验约束

      虽然许多实验能够以多个离散和特定的时间点收集样本,但是也存在许多实验,这是不可能的。例如,考虑从骨髓中取样的细胞与理解血细胞发育的实验目标。这些收集的细胞存在于各种各样的状态,包括造血干细胞,淋巴细胞,T细胞和之间的所有阶段(以及所有其他发育终点)。单细胞表征的一个重要目标是了解这些状态的转变为细胞成熟。可以在疾病进展周围设计类似的实验,目的是理解健康细胞和功能障碍之间的过渡。
      上述实验将时间视为连续体,并对细胞随着时间的推移感兴趣。这种实验设计与随着时间的推移,例如药理剂量/响应试验的基本不同。如果随时间控制,则T检验是合适的。本手稿的重点解决了在离散,预先确定的时间点处没有选择采样的实验。在这种情况下,将样品分组到早期和晚期时间点创造适合于T检验的结构。但是,当人们想要了解连续时间点之间的逐渐转换时,这是不合适的。对于这些实验,我们探索替代统计指标。

       模拟

      要了解如何测量变异性,效果大小和样本大小会影响我们检测蛋白质组动态的时间变化的能力,我们在相关参数空间上进行了大量模拟。每个模拟单元具有一个蛋白质测量和相关的时间变量,由两个输入参数计算。首先,仿真使用简单的线性变化作为时间动态的形状,并且在我们的型号中,这种变化率称为斜率。其次,我们指定了作为常数分布式错误项建模的测量变异性。使用斜率,可变性和0-1之间的时间值,我们可以计算蛋白质丰度(参见方法)。模拟开始通过创建大量覆盖整个时间范围的单元格;每个单元表示为[丰度,时间]数据点。从模拟人群中,我们将少数细胞分解,主要目标是确定是否准确地代表较大的人群。使用Cellalign使用限制测量来插入时间表达轨迹
      • Alpert A.
      • 摩尔勒。
      • Dubovik T.
      • 沉ORR S.S.
      单细胞轨迹对齐比较蜂窝表达动态。
      ;然后将该内插轨迹与真正的群体轨迹和空模型进行比较(见 图S1)。如果分布的轨迹更接近真正的人口轨迹,那么我们将该子采样事件分为正确;如果已分配的轨迹更好地适合空模型,则该子采样事件被归类为不正确。
      我们用不同的参数值运行多个模拟,以进行斜率和可变性。在每个模拟中,我们计算了平均精度(参见方法)。 图1 显示用于检测蛋白质动力学的倾斜,测量变化和采样细胞数量的组合的准确性。几种预期趋势从模拟中出现。首先,如果在时域中采样更多单元格,则精度可提高。无论斜坡还是测量变异性如何,增加细胞数量都会改善从数据采样中插值的时间表达轨迹。我们采样7个细胞的最小数字在几乎任何[斜率,变化]参数集中的准确性差。随着细胞数量增加到20,30或更远,随着细胞数量增加至20,30或更远,随后在增加7至16个细胞时可以看到显着改善。其次,精度随着测量变异性更大而降低。例如,在斜率= 1的模拟中,如果测量可变性为0.25,则16个单元样品的平均精度为95%,但如果可变形= 1.0,则平均精度为68%。
      为了表征错误标记蛋白质的可能性,因为在时间过程中实际保持不变时,我们模拟斜率参数为零的数据。从这个大量人口来看,我们再次来采样,使用跨alralign内插一个表达轨迹,并将轨迹与人口真正的轨迹(即没有变化)或简单的倾斜线进行比较。如果内插轨迹更紧密地匹配倾斜线,尽管由斜率为零的人口中的数据点组成,我们将其视为假阳性。正如我们在上面的模拟中发现的那样,采样细胞的数量和测量变异性对假阳性率有重大影响( 图2 )。在具有小型子采样的几种模拟中(例如7个细胞),误率接近40%。

       一般原则

      为了帮助概括我们的模拟结果,并使它们更加适用于蛋白质组学数据集,我们通过它们的斜率/变化比分组参数集。模拟 图12 报告结果使用方便的数字刻度。然而,文献中报告的蛋白质组学数据集具有广泛的可能值,其中一些数据集在数百万等中报告了数百万的原始定量值,使用了日志转换,零中心数据。通过将我们的结果转化为斜坡/变异比(S / V),我们直接测试观察到的真正阳性和假阳性趋势是否是无垢的。因此,无论如何获得或加工定量蛋白质数据,S / V比率都可以提供适用的指导。此外,无论可变性源是技术还是生物学的根源并不重要;我们在该组合度量中占用。
      对于广泛的斜率/变化比率,我们耗尽模拟以产生真正肯定和假阳性率(参见方法)。这种明确探索表达变化与变异性之间的关系揭示了正确识别蛋白质动态的能力的明显趋势。例如,在具有16个细胞的实验中,S / V = 2将具有80%的真实阳性率( 图3. a),意味着如果100蛋白具有这种轨迹斜率和测量变异性,我们希望检测到其中80(其他20未被发现)。在相同的条件下,我们也看到了15%的假阳性率。这意味着所有非变化的蛋白质中,其中15%都会被错误地确定为变化。与所呈现的结果一样 图12当在时间课程中采样更多的细胞时,真正阳性和假阳性率改善。如果实验采样30个细胞而不是16个细胞,则S / V = 2的真正阳性率将从80%到90%提高;协调误率下降15%至5%。这些图表对于了解时间轨迹检测的准确性如何取决于在时域分析的细胞数量以及轨迹的斜率和蛋白质的固有的测量变异性方面是必不可少的。
      为了帮助框架这些结果,我们试图了解实际数据中蛋白质的S / V值。我们检查了一种细胞蛋白质组学实验,其比较了两种不同的细胞类型
      • Clair G.
      • Tsai C.-f.
      • 徐酸
      • Chrisler W.B.
      • Sontag R.L.
      • 赵立
      • 摩尔r.j.
      • 刘涛。
      • PASA-TOLIC L.
      • 史密斯r.d.
      • Shi T.
      • Adkins J.N.
      • 钱W.-J.
      • 凯莉r.t.
      • Ansong C.
      • 朱y
      高通量单细胞蛋白质组学通过多路复用等离子蛋白标记在纳米进样品制备平台中实现。
      ,具有足够数量的复制以获得组内变异性的可靠估计(n>20)。我们注意到,该数据集没有展示时间动态,而是生物状态之间蛋白质丰富的差异的大小。如果时间被缩放到单位值,则仍可用于近似斜率。在该数据集中的每种蛋白质计算折叠变化和组内变异性(补充图2)。大多数蛋白质具有小的折叠变化,并且通常折叠变化的大小类似于变异性的大小。因此,相对较少的蛋白质具有高于1的S / V比。如图所示 图3. 除非使用了大量细胞,否则具有以下1的S / V的蛋白质将具有低真正阳性和高误率。具有更具吸引力的真正阳性和假阳性率的蛋白质,例如S / V = 2,仅在数据集中仅为3%的蛋白质。 S / V的蛋白质>4非常罕见(< 0.2%).

       没有甲骨文

      当在模拟数据集中知道,真实数据的分析不受了解真正的蛋白质表达动态。因此,当试图在模拟中应用经验教训时(例如 图3. )对于真实的世界时间课程数据集,研究人员必须估算其数据中蛋白质的斜率和变异。我们调查了如何估计坡度和变化(S / V. 美东时间 ),使用与上述相同的模拟方法。我们计算了S / V的精度 美东时间 适用于7,16,20,30和100个细胞的样品尺寸(图4.一种)。正如预期的那样,当更多细胞是样品时,这种估计的精确性改善。当我们样本100个细胞时,S / V 美东时间 通常非常接近实际值;误差的标准偏差为0.35。如果我们采样30个单元格,则误差的标准偏差为0.70。为了证明使用这种估计的效果,我们模拟了如果s / v如果是从数据集中删除各种S / V值的蛋白质。 美东时间 用作过滤标准(图4.b)。如果实验在时间过程中采样30个细胞并使用S / V 美东时间 = 1对于截止值,将保留大约93%的高质量蛋白质(S / V = 2)。

       多少个细胞?

      在时间课程实验中发现的一种提出的动态蛋白质代表了真正阳性和假阳性鉴定的混合。尽管上面的统计模拟可以有助于估计假阳性的相对速率,但是不可能指出哪些特定识别可能是可能的。澄清此列表和WinNow出现误报的最佳方法是通过复制分析。如果独立复制相同的实验,则可以表达预期的真正阳性率 px , 在哪里 p 代表概率和 x 表示独立复制的数量。例如,在具有两种重复的30个细胞时间课程实验中,我们希望S / V = 2的蛋白质的真正阳性识别率为0.92,或0.81;预期的假阳性率为0.052或0.0025。预测更复杂的实验设计的真正积极或假阳性率,例如需要 n 观察中的观察 k 可以使用标准统计采样方法确定复制。使用这些预期速率和各种S / V值的蛋白质的相对数量 补充图2,科学家可以适当地计划各种实验设计方案。
      实验设计的具有挑战性的部分是平衡竞争优先级,并适当预算有限的资源。如前所述,单个细胞蛋白质组学研究中的主要限制因子是可以分析的细胞的总数。此数字目前的要求远低于所需的,这迫使研究人员选择更多的细胞是否应致力于单个时间课程或额外的复制时间课程。在本讨论中,我们使用“复制”一词来表示对时间课程采样的重复分析。
      作为一个简单的说明性示例,想象在时间课程实验中分配50个细胞的预算(图5.)。选项A涉及两个复制,每个复制有25个单元;选项B将16个单元分配到三个重复中的每一个中。通过选项A,研究人员可以实现更密集的时间过程,因此每个重复具有更好的真正阳性和假阳性率。选项B有额外的复制。虽然对选项B中的每个单独的时间过程不如真正阳性和假阳性的速率不如选项B的那样,但是三个重复驱动总体假率低于选项A.我们故意避免倡导选项A或选项B. ,因为财务和实际限制都将部分确定甚至可能的内容。相反,本节的目的是展示如何应用于呈现的假阳性和准确率 图3. 设计一个实验。我们注意到,用于计算这些指标的软件是完全开源的(//github.com/PayneLab/SingleCellSampleSize),并且可以适应任何实验设计的准确性和假阳性率。
      图缩略图GR5.
      图5.用于分配有限数量的单元格的场景。 通过50个细胞的总预算,证明了两种不同的选择。显示每个时间课程的真正和假阳性率,并显示了复制的整体速率。选项A描绘了两个重复的实验和在每个时间课程中表征的25个细胞。选项B显示了在每个时间课程中具有三个重复的试验和16个细胞。在考虑复制时,选项A具有更高的TP速率,但选项B具有更少的误报。

      讨论

      单个细胞蛋白质组学是一种新兴技术,有助于帮助澄清细胞表型的多样性以及揭示蛋白质组动力学的基本趋势。目前单细胞蛋白质组学的产量明显低于单细胞测序技术。因此,在蛋白质组学仪表和相关技术存在巨大变化之前,蛋白质组学界将与分析比他们想要的细胞更少的必要性斗争。在这种情况下,必须在有限数量的细胞上妥善计划实验,以最大化成功的可能性。存在依赖于T检验的两个状态比较实验存在统计功率计算。然而,时间轨迹实验缺乏实验规划工具,以帮助估计不同设计的准确性。在这里,我们已经模拟了检测蛋白质丰富的时间变化对无变化的无效假设的准确性。仿真探索了各种度量,例如时间变化(斜率),细胞对细胞异质性(变异性)和时域分析的细胞数量。模拟突出了在时间课程中分析足够数量的细胞的需要;跨越时间课程的较多的细胞总是导致更有利的真正积极和假阳性率。
      所有项目在预算的范围内工作,在此期间我们讨论了作为可以分析的细胞数的预算。选择特定的实验设计是一种平衡行为,可能需要在有足够的细胞准确地接近预算的时间表达轨迹和实际限制之间妥协。在生物医学和环境科学中进行的广泛的实验中,调查员将不得不使这一艰难的选择。在临床实验中监测药物反应,患者人口统计学可能特别引人注目,并要求更多来自不同背景的患者。通过固定预算的细胞,分析更多患者的选择减少了对每位患者分析的细胞数量。或者,生物样品本身可以是限制因素。对于稀有细胞类型或高度降解/患病样品,可能存在有限数量的细胞可用于分析 - 无论预算如何。本文的最终目的是指导读者对如何最好地建立实验。由于上述实验约束,我们不倡导特定的设计,而是强烈建议研究人员利用本文所呈现的数据作为其所提出的实验设计的指导或模拟预期的TP / FP速率。
      我们在单细胞蛋白质组学的新兴领域中的统计模拟是其效用。但是,结果适用于尝试识别动态轨迹的任何分析,例如随着时间的推移对个人人的纵向研究
      • 陈R.
      • MIAS G.I.
      • Li-Pook-比J.
      • 姜L.
      • 林H.Y.K.
      • 陈R.
      • Miriami E.
      • KARCZEWSKI K.J.
      • Hariharan M.
      • 杜威F.E.
      • 郑Y.
      • 克拉克M.J.
      • Habegger L.
      • Balasubramanian S.
      • O'Huallachain M.
      • 达德利J.T.
      • Hillenmeyer S.
      • Haraksingh R.
      • 沙龙D.
      • Euskirchen G.
      • lacroute p.
      • Bettinger K.
      • 博伊尔A.P.
      • Kasowski M.
      • Grubert F.
      • Seki S.
      • 加西亚M.
      • 旋转卡拉里罗M.
      • Gallardo M.
      • Blasco M.A.
      • 格林伯格P.L.
      • 斯奈德P.
      • Klein T.E.
      • altman r.b.
      • Butte A.J.
      • 阿什利e.a.
      • Gerstein M.
      • Nadeau K.C.
      • 唐H.
      • 斯奈德米
      个人OMICS分析显示动态分子和医学表型。
      ,
      • sailani m.r.
      • metwally a.a.
      • 周W.
      • 玫瑰三。 - 食品。
      • Ahadi S.
      • Contrepois K.
      • Mishra T.
      • 张M.J.
      • KidzińskiŁ。
      • Chu T.J.
      • 斯奈德M.P.
      深度纵向多孔分析揭示了加利福尼亚州的两种生物季节性模式。
      。对于这些和类似的研究,了解测量的可变性非常重要。我们表明,大多数蛋白质的内部可变性等于或大于条件之间观察到的折叠变化。如果数据中存在对该程度的可变性,则非常具有挑战性地在跨时间的时间数量有限的测量值来自信地检测时间动态。即使对于利用具有定义技术可变性的严格临床测定的研究,必须预期和表征生物变异性。
      最后,我们注意到这里的模拟模型仅简单的线性增加而不是更复杂的表达模式。常见的生物实验测量对外部刺激的响应,通常报告临时变化,然后返回原始状态
      • 奥尔森J.V.
      • Blagoev B.
      • GNAD F.
      • MACEK B.
      • Kumar C.
      • Mortensen P.
      全球性,体内和现场特异性磷酸化动力学中的信令网络。
      。这种经典的例子是瞬时磷酸化信号。然而,其他生物调查监测与光/黑暗模式和昼夜节律相关的周期性表达变化
      • Waldbauer J.R.
      • Rodrigue S.
      • 科尔曼M.L.
      • chisholm s.w.
      光暗同步细菌细胞周期的转录组和蛋白质组动力学。
      ,
      • 熊猫S.
      • hogeresch J.B.
      • 凯斯。
      来自苍蝇到人的昼夜节律。
      。根据我们的结果,我们预计检测这些复杂的非线性模式将需要时域的密集采样。

      数据可用性

      伴随此稿件的数据包括统计模拟。本手稿中使用的所有计算和数据都可以在我们公开的GitHub存储库中找到, //github.com/PayneLab/SingleCellSampleSize.

      利益冲突

      作者声明没有财务利益冲突。

      致谢

      这项工作是通过Biogen Inc.的赞助研究协议资助的

      补充数据

      图缩略图无形图1
      图缩略图无形图2
      图缩略图无花果3.

      参考

        • Mahdessian D.
        • Cesnik A.J.
        • GNANN C.
        • Danielsson F.
        • StenströmL.
        • ARIF M.
        • 张C.
        • 让。
        • 约翰逊F.
        • Shutten R.
        • BäckströmA。
        • Axelsson U.
        • Thul P.
        • Cho N.H.
        • Carja O.
        • UhlénM.
        • Mardinoglu A.
        • Stadler C.
        • Lindskog C.
        • Ayoglu B.
        • Leonetti M.D.
        • Ponténf。
        • 沙利文D.P.
        • Lundberg E.
        具有单细胞蛋白蛋白酶蛋白酶体的细胞周期的时尚沉淀。
        自然。 2021; 590: 649-654//doi.org/10.1038/s41586-021-03232-9
        • SPECHT H.
        • Slavov N.
        单细胞蛋白质组学的转型机会。
        J蛋白质组。 2018; 17: 2565-2571//doi.org/10.1021/acs.jproteome.8b00257
        • DOERR A.
        单细胞蛋白质组学。
        NAT方法。 2019; 16: 20//doi.org/10.1038/s41592-018-0273-y
        • MacOSKO e.Z.
        • Basu A.
        • Satija R.
        • Nemesh J.
        • Shekhar K.
        • 高盛M.
        • Tirosh I.
        • Bialas A.R.
        • kamitaki n。
        • Marterseeck e.m.
        • Trombetta J.J.
        • Weitz D.A.
        • Sanes J.R.
        • Shalek A.K.
        • Regev A.
        • 麦卡尔尔S.A.
        使用纳米液滴的个体细胞的高度平行基因组表达分析。
        细胞。 2015; 161: 1202-1214//doi.org/10.1016/j.cell.2015.05.002
        • 克莱因上午
        • Mazutis L.
        • Akartuna I.
        • 塔帕拉加达N.
        • veres a。
        • 李文。
        • Peshkin L.
        • Weitz D.A.
        • Kirschner M.W.
        用于单细胞转录组织的液滴条形码施用于胚胎干细胞。
        细胞。 2015; 161: 1187-1201//doi.org/10.1016/j.cell.2015.04.044
        • 堡垒N.
        • 总体上行
        • Pavlidis P.
        • freue g.v.c.
        我们可以从mRNA水平预测蛋白质吗?
        自然。 2017; 547: E19-E20 //doi.org/10.1038/nature22293
        • 刘Y.
        • Beyer A.
        • Aeberberold R.
        关于细胞蛋白水平对mRNA丰度的依赖性。
        细胞。 2016; 165: 535-550//doi.org/10.1016/j.cell.2016.03.014
        • Payne S.H.
        蛋白质和mRNA相关的效用。
        趋势Biochem SCI。 2015; 40: 1-3//doi.org/10.1016/j.tibs.2014.10.010
        • Waldbauer J.R.
        • Rodrigue S.
        • 科尔曼M.L.
        • chisholm s.w.
        光暗同步细菌细胞周期的转录组和蛋白质组动力学。
        Plos一个。 2012; 7e43432//doi.org/10.1371/journal.pone.0043432
        • Taniguchi Y.
        • Choi P.J.
        • 李G. -W.
        • 陈H.
        • Babu M.
        • 审讯J.
        • Emili A.
        • 谢X.S.
        • 量化E.
        大肠杆菌蛋白质组和转录组,单分子敏感性在单细胞中。
        科学。 2010; 329: 533-538//doi.org/10.1126/science.1188308
        • StåhlbergA.
        • Thomsen C.
        • ruff d.
        • ÅmanP.
        DNA,RNA和同一单细胞中蛋白质的定量PCR分析。
        Clin Chem。 2012; 58: 1682-1691//doi.org/10.1373/clinchem.2012.191445
        • Darmanis S.
        • 勇敢的C.J.
        • marinescu v.d.
        • Niklasson M.
        • Segerman A.
        • Flamourakis G.
        • Fredriksson S.
        • Assarsson E.
        • Lundberg M.
        • Nelander S.
        • Westermark B.
        • LANDEGREN U.
        单细胞中RNA和蛋白质的同时复用测量。
        细胞代表。 2016; 14: 380-389//doi.org/10.1016/j.celrep.2015.12.021
        • 凯莉r.t.
        单细胞蛋白质组学:进步与前景。
        Mol细胞蛋白质组学。 2020; 19: 1739-1748//doi.org/10.1074/mcp.R120.002234
        • 史密斯上午
        • Heisler L.E.
        • 圣尼格拉夫。
        • Farias-Hesson E.
        • 华莱士我。
        • Bodeau J.
        • 哈里斯A.N.
        • Perry K.M.
        • Giaver G.
        • Pourmand N.
        • Nislow C.
        高度复用条形码测序:汇集样品的平行分析的有效方法。
        核酸RES。 2010; 38: e142//doi.org/10.1093/nar/gkq368
        • Lan F.
        • Demaree B.
        • Ahmed N.
        • abate a.r.
        用微流体液滴条形码超高通量的单细胞基因组测序。
        NAT BIOTECHNOL。 2017; 35: 640-646//doi.org/10.1038/nbt.3880
        • 李杰。
        • van Vranken J.G.
        • Pontano Vaites L.
        • Schweppe D.K.
        • Huttlin E.L.
        • Etienne C.
        • Nandhikonda P.
        • Viner R.
        • robitaille上午
        • 汤普森A.H.
        • Kuhn K.
        • 派克I.
        • Bomgarden R.D.
        • 罗杰斯J.C.
        • Gygi S.P.
        • 保罗J.A.
        TMTPRO试剂:一组等离性标记质量标签可以通过16个样品进行同时蛋白质组的测量。
        NAT方法。 2020; 17: 399-404//doi.org/10.1038/s41592-020-0781-4
        • Alpert A.
        • 摩尔勒。
        • Dubovik T.
        • 沉ORR S.S.
        单细胞轨迹对齐比较蜂窝表达动态。
        NAT方法。 2018; 15: 267-270//doi.org/10.1038/nmeth.4628
        • Trapnell C.
        • Cacchiarelli D.
        • 格里姆斯比J.
        • Pokharel P.
        • 李S.
        • 莫尔斯米
        • Lennon N.J.
        • Livak K.J.
        • Mikkelsen T.S.
        • rinn J.L.
        单细胞的假型催效性排序揭示了细胞命运决策的动态和调节器。
        NAT BIOTECHNOL。 2014; 32: 381-386//doi.org/10.1038/nbt.2859
        • Bendall S.C.
        • 戴维斯K.L.
        • amir e.-a.d.
        • Tadmor M.D.
        • 西蒙斯e.f.
        • 陈t.j.
        • 沉芬D.K.
        • Nolan G.P.
        • Pe'er D.
        单细胞轨迹检测揭示人体B细胞发展中的进展和调节协调。
        细胞。 2014; 157: 714-725//doi.org/10.1016/j.cell.2014.04.005
        • Clair G.
        • Tsai C.-f.
        • 徐酸
        • Chrisler W.B.
        • Sontag R.L.
        • 赵立
        • 摩尔r.j.
        • 刘涛。
        • PASA-TOLIC L.
        • 史密斯r.d.
        • Shi T.
        • Adkins J.N.
        • 钱W.-J.
        • 凯莉r.t.
        • Ansong C.
        • 朱y
        高通量单细胞蛋白质组学通过多路复用等离子蛋白标记在纳米进样品制备平台中实现。
        肛门化学。 2019; 91: 13119-13127//doi.org/10.1021/acs.analchem.9b03349
        • 陈R.
        • MIAS G.I.
        • Li-Pook-比J.
        • 姜L.
        • 林H.Y.K.
        • 陈R.
        • Miriami E.
        • KARCZEWSKI K.J.
        • Hariharan M.
        • 杜威F.E.
        • 郑Y.
        • 克拉克M.J.
        • Habegger L.
        • Balasubramanian S.
        • O'Huallachain M.
        • 达德利J.T.
        • Hillenmeyer S.
        • Haraksingh R.
        • 沙龙D.
        • Euskirchen G.
        • lacroute p.
        • Bettinger K.
        • 博伊尔A.P.
        • Kasowski M.
        • Grubert F.
        • Seki S.
        • 加西亚M.
        • 旋转卡拉里罗M.
        • Gallardo M.
        • Blasco M.A.
        • 格林伯格P.L.
        • 斯奈德P.
        • Klein T.E.
        • altman r.b.
        • Butte A.J.
        • 阿什利e.a.
        • Gerstein M.
        • Nadeau K.C.
        • 唐H.
        • 斯奈德米
        个人OMICS分析显示动态分子和医学表型。
        细胞。 2012; 148: 1293-1307//doi.org/10.1016/j.cell.2012.02.009
        • sailani m.r.
        • metwally a.a.
        • 周W.
        • 玫瑰三。 - 食品。
        • Ahadi S.
        • Contrepois K.
        • Mishra T.
        • 张M.J.
        • KidzińskiŁ。
        • Chu T.J.
        • 斯奈德M.P.
        深度纵向多孔分析揭示了加利福尼亚州的两种生物季节性模式。
        NAT Communce。 2020; 11: 4933//doi.org/10.1038/s41467-020-18758-1
        • 奥尔森J.V.
        • Blagoev B.
        • GNAD F.
        • MACEK B.
        • Kumar C.
        • Mortensen P.
        全球性,体内和现场特异性磷酸化动力学中的信令网络。
        细胞。 2006; 127: 635-648//doi.org/10.1016/j.cell.2006.09.026
        • 熊猫S.
        • hogeresch J.B.
        • 凯斯。
        来自苍蝇到人的昼夜节律。
        自然。 2002; 417: 329-335//doi.org/10.1038/417329a