MOGSA:多个OMIC数据的集成单样本基因集分析*

  • 陈萌
    隶属关系
    德国德国弗里斯州德国德国德国(TechnischeUniversität)

    巴伐利亚生物分子质谱中心(Baybioms),Tum,Breising,德国
    搜索本作者的文章
  • AZFAR BASUNIA.
    隶属关系
    数据科学系,达纳弗伯癌研究所,波士顿,马萨诸塞州达纳 - 前癌症研究所02215
    搜索本作者的文章
  • Bjoern Peters.
    隶属关系
    La Jolla Allergy和免疫学研究所,9420 Athena Circle,La Jolla,加利福尼亚州92037
    搜索本作者的文章
  • 作者脚注
    §§ 当前地址:Roche测序解决方案,1301 Shoreway Road,Suite 300,Belmont,Calmont 94002
    Amin Moghaddas Golemi.
    一致
    可以解决对应的通信。
    脚注
    §§ 当前地址:Roche测序解决方案,1301 Shoreway Road,Suite 300,Belmont,Calmont 94002
    隶属关系
    德国德国弗里斯州德国德国德国(TechnischeUniversität)
    搜索本作者的文章
  • Bernhard Kuster.
    一致
    可以解决对应的通信。
    隶属关系
    德国德国弗里斯州德国德国德国(TechnischeUniversität)

    巴伐利亚生物分子质谱中心(Baybioms),Tum,Breising,德国
    搜索本作者的文章
  • AedínC.Culhane.
    一致
    可以解决对应的通信。
    隶属关系
    数据科学系,达纳弗伯癌研究所,波士顿,马萨诸塞州达纳 - 前癌症研究所02215

    生物统计学系,哈佛。陈公共卫生学院,波士顿,马萨诸塞州02215
    搜索本作者的文章
  • 作者脚注
    *该工作的资金由DFCI BCB研究科学家发展资金,国家癌症研究所,国家卫生研究所[授予号码P50 CA101942-01,1U19 AI111224-01,1U19 AI10975-01]和国防部BCRP [奖励号码W81XWH-15-1-0013作者的观点和意见和提名不反映美国陆军或国防部]。
    本文含有补充材料。
    §§ 当前地址:Roche测序解决方案,1301 Shoreway Road,Suite 300,Belmont,Calmont 94002
      基因集分析(GSA)总结了个体分子测量以更具可解释 途径或基因集,并已成为解释的不可或缺的一步 大规模的OMICS数据。但是,GSA方法仅限于单一的分析 OMICS数据。在这里,我们介绍了一种新的计算方法,称为多个OMICE基因集 分析(MOGSA),一种集成的多变量单样本基因集分析方法 在相同的样品集上测量多种实验和分子数据类型。 该方法学习大多数变体相关特征的低维表示 (基因,蛋白质等)跨多个OMICS数据集,将功能转换为 相同的尺度并计算来自最具信息的综合基因集分数 每个数据类型中的功能。 MOGSA不需要将数据过滤到交叉路口 因此,特征(基因ID),所有分子特征,包括缺乏的分子特征 注释可以包括在分析中。使用模拟数据,我们证明了这一点 整合多种不同的分子数据来源增加了发现的力量 基因集的微妙变化,可以减少不可靠信息的影响 任何单个数据类型。使用真实的实验数据,我们展示了三种用例 Mogsa。首先,我们展示了如何去除噪声源(技术或生物学) 在NCI60转录组和蛋白质组数据的综合性沼泽中。其次,我们申请MOGSA 发现mRNA,蛋白质和磷酸化轮廓的相似性和差异 对干细胞系的小写,评估每种数据类型的影响 全基因集分数的特征。最后,我们将MOGSA应用于群集分析和 显示在拷贝数变化时鲁棒地发现了三个分子亚型 和来自癌症基因组图集的308膀胱癌的mRNA数据综合使用 MOGSA。生物导体R包“MOGSA”中提供MOGSA。

      图形概要

      参考

        • Metzker M.L.
        测序技术 - 下一代。
        NAT。 Rev. Genet。 2010; 11: 31-46
        • ozsolak f.
        • 米洛斯下午
        RNA测序:进展,挑战和机遇。
        NAT。 Rev. Genet。 2011; 12: 87-98
        • Wilhelm M.
        • Schlegl J.
        • Hahne H.
        • GOLYMI A.M.
        • Lieberenz M.
        • Savitski m.m.
        • Ziegler E.
        • Butzmann L.
        • Gessulat S.
        • 马克思H.
        • Mathieson T.
        • Lemeer S.
        • Schnatbaum K.
        • reimer u.
        • 文字H.
        • Mollenhauer M.
        • Slotta-huspenina J.
        • Boese J.H.
        • Bantscheff M.
        • Gerstmair A.
        • FAERBER F.
        • Kuster B.
        群体蛋白质组的质谱。
        自然。 2014; 509: 582-587
        • 彼得森五。
        • 张k.x.
        • Kumar N.
        • Wong J.
        • Li L.
        • 威尔逊D.C.
        • 摩尔R.
        • 麦克兰山T.K.
        • Sadekova S.
        • Klappenbach J.A.
        多重定量单细胞中蛋白质和转录物。
        NAT。 Biotechnol。 2017; 35: 936-939
        • Stoeckius M.
        • Hafemeister C.
        • Stephenson W.
        • Houck-Loomis B.
        • Chattopadhyay P.K.
        • Swerdlow H.
        • Satija R.
        • Smibert P.
        单细胞同时表位和转录组测量。
        NAT。方法。 2017; 14: 865-868
        • Khatri P.
        • Sirota M.
        • Butte A.J.
        十年的途径分析:目前的方法和出色的挑战。
        Plos计算。 BIOL。 2012; 8: E1002375.
        • 癌症基因组阿特拉斯研究
        • weinstein n.j.n.
        • Collisson E.A.
        • 磨坊G.B.
        • Shaw K.r.
        • ozenberger B.A.
        • ellrott K.
        • Shmulevich I.
        • 砂光机C.
        • 斯图尔特准
        癌症基因组图集泛癌分析项目。
        NAT。遗传。 2013; 45: 1113-1120
        • 埃利斯M.J.
        • Gillette M.
        • carr s.a.
        • Paulovich A.G.
        • 史密斯r.d.
        • 罗德兰K.K.
        • Townsend R.R.
        • kinsinger c.
        • Mesri M.
        • Rodriguez H.
        • Liebler D.C.
        • 临床蛋白质组学肿瘤分析,C
        用蛋白质组学将基因组改变与癌症生物学相关联:NCI临床蛋白质组学肿瘤分析联盟。
        癌症Discov。 2013; 3: 1108-1112
        • Hanzelmann S.
        • Castelo R.
        • 瓜尼尼J.
        GSVA:基因设置微阵列和RNA-SEQ数据的变化分析。
        BMC生物信息学。 2013; 14: 7
        • 芭比娃娃。
        • Tamayo P.
        • Boehm J.s.
        • 金S.Y.
        • 穆迪S.E.
        • 邓恩i.f.
        • Schinzel A.c.
        • 桑迪P.
        • 梅利坎e.
        • Scholl C.
        • Frohling S.
        • 陈e
        • SOS M.L.
        • Michel K.
        • MEREL C.
        • 银S.J.
        • 韦尔B.A.
        • reging J.H.
        • 盛Q.
        • Gupta p.b.
        • Wadlow R.C.
        • 勒舍尔
        • 丘塞什S.
        • Wittner B.S.
        • ramaswamy s.
        • Livingston d.m.
        • Sabatini D.M.
        • Meyerson M.
        • 托马斯r.k.
        • 着陆器E.S.
        • Mesirov J.P.
        • 根D.E.
        • Gilliland D.G.
        • 杰克T.
        • 哈恩W.C.
        系统的RNA干扰表明,致癌的KRAS驱动癌需要TBK1。
        自然。 2009; 462: 108-112
        • Tomfohr J.
        • 卢杰。
        • 开普勒T.B.
        奇异值分解基因表达的途径水平分析。
        BMC生物信息学。 2005; 6: 225
        • 李娥。
        • Chuang H.Y.
        • kim J.W.
        • IDEKER T.
        • 李德。
        推断途径活动朝向精确疾病分类。
        Plos计算。 BIOL。 2008; 4: E1000217
        • Stein-o'brien G.L.
        • Arora R.
        • Culhane A.c.
        • 喜欢A.V.
        • Garmire L.X.
        • Greene C.S.
        • GOFF L.A.
        • 李Y.
        • ngom A.
        • ochs m.f.
        • 徐Y.
        • FERTIG E.J.
        输入矩阵:因子从常规上揭示了知识。
        趋势类型。 2018; 34: 790-805
        • 韭菜J.T.
        • Storey J.D.
        替代变量分析捕获基因表达研究中的异质性。
        Plos Genet。 2007; 3: 1724-1735
        • 孟康
        • Kuster B.
        • Culhane A.c.
        • GOLYMI A.M.
        多变量的多变量探讨多OMICS数据集的集成。
        BMC生物信息学。 2014; 15: 162
        • de tayrac M.
        • Aubry M.
        • 船务J.
        • Husson F.
        与生物知识集成的不同OMIC数据集的同时分析:多因素分析方法。
        BMC基因组学。 2009; 10: 32
        • f
        • Culhane A.c.
        • 希金斯D.G.
        蛋白质组学和基因表达数据集成的多变量分析方法。
        蛋白质组学。 2007; 7: 2162-2171
        • Le Cao K.A.
        • 马丁P.G.
        • 罗伯特·格纹C.
        • Besse P.
        生物数据集成稀疏的规范方法:应用于跨平台研究。
        BMC生物信息学。 2009; 10: 34
        • Culhane A.c.
        • Perriere G.
        • 希金斯D.G.
        跨平台比较和使用共惯性分析基因表达数据的可视化。
        BMC生物信息学。 2003; 4: 59
        • ABDI H.
        • 威廉姆斯L.J.
        • Valentin D.
        多因素分析:多元化和多块数据集的主成分分析。
        Wiley跨学科评论:计算统计数据。 2013; 5: 149-179
        • 孟康
        • zeleznik o.a.
        • 换胎儿G.G.
        • Kuster B.
        • GOLYMI A.M.
        • Culhane A.c.
        多OMICS数据综合分析的尺寸减小技术。
        简短生物形式。 2016; 17: 628-641
        • Tenenhaus A.
        • Tenenhaus M.
        正则化广义典型相关分析。
        Psyscometrika。 2011; 76: 257-284
        • Shankavaram U.T.
        • varma s.
        • 凯恩D.
        • 阳光M.
        • Chary K.K.
        • 重温W.C.
        • Pommier Y.
        • Weinstein J.N.
        Cellminer:NCI-60癌细胞系的关系数据库和查询工具。
        BMC基因组学。 2009; 10: 277
        • GOLYMI A.M.
        • Hahne H.
        • 吴Z.
        • 奥尔f.j.
        • 孟康
        • Wilhelm M.
        • Kuster B.
        NCI-60细胞系面板的全局蛋白质组分析。
        细胞代表。 2013; 4: 609-620
        • Schwanhausser B.
        • 巴士D.
        • 李恩
        • Dittmar G.
        • Schuchhardt J.
        • 狼J.
        • 陈W.
        • Selbach M.
        哺乳动物基因表达控制的全局量化。
        自然。 2011; 473: 337-342
        • Phanstiel D.H.
        • Brubaugh J.
        • 温格C.D.
        • 田S.
        • Probasco M.D.
        • Bailey D.J.
        • Swaney D.L.
        • Tervo M.A.
        • Bolin J.M.
        • Ruotti V.
        • 斯图尔特R.
        • Thomson J.A.
        • Coon J.J.
        人ES和IPS细胞的蛋白质组学和磷蛋白蛋白酶比较。
        NAT。方法。 2011; 8: 821-827
        • Zwiener I.
        • 弗里奇B.
        • 粘合剂H.
        转化RNA-SEQ数据以改善预后基因特征的性能。
        Plos一个。 2014; 9: e85150
        • 温格C.D.
        • Phanstiel D.H.
        • 李米夫。
        • Bailey D.J.
        • Coon J.J.
        指南针:用于OMSSA的一系列预先搜索和搜索后的蛋白质组学软件工具。
        蛋白质组学。 2011; 11: 1064-1074
        • 朱y
        • 邱P.
        • 姬y。
        TCGA-Assembler:用于检索和处理TCGA数据的开源软件。
        NAT。方法。 2014; 11: 599-600
        • 王克。
        • 辛格D.
        • 曾Z.
        • 科尔曼S.J.
        • 黄扬
        • Savich G.L.
        • 他X.
        • mieczkowski p.
        • Grimm S.A.
        • perou c.m.
        • Macleod J.N.
        • 蒋德。
        • 原装J.f.
        • 刘杰。
        Mapsplice:接头结发现的RNA-SEQ读取的准确映射。
        核酸RES。 2010; 38: e178
        • 李b.
        • Ruotti V.
        • Stewart r.m.
        • Thomson J.A.
        • 杜威C.N.
        RNA-SEQ基因表达估计与读取映射不确定性。
        生物信息学。 2010; 26: 493-500
        • Olshen A.B.
        • Venkatraman E.S.
        • Lucito R.
        • Wigler M.
        用于分析基于阵列的DNA拷贝数数据的循环二进制分割。
        生物统计学。 2004; 5: 557-572
        • mermel c.h.
        • Schumacher S.E.
        • 山B.
        • Meyerson M.L.
        • Beroukhim R.
        • Getz G.
        Gistic2.0促进了人类癌症局灶性焦糖拷贝数改变的敏感和自信的定位。
        基因组Biol。 2011; 12: R41
        • 蒙蒂S.
        • Tamayo P.
        • Mesirov J.
        • Golub T.
        共识聚类:基于重采样的类别发现和基因表达式微阵列数据的可视化方法。
        机器学习。 2003; 52: 28
        • Wilkerson M.D.
        • Hayes D.N.
        ConsensususUsclusterPlus:一个级别发现工具,具有信心评估和项目跟踪。
        生物信息学。 2010; 26: 1572-1573
        • Senbabaoglu Y.
        • Michairidis G.
        • 李J.Z.
        课堂发现中共识聚类的关键限制。
        SCI。代表。 2014; 4: 6207
        • Tibshirani R.
        • Walther G.
        按预测强度验证。
        J.计算图形统计。 2005; 14: 511-528
        • Sjodahl G.
        • 罗斯米
        • Lovgren K.
        • Chebil G.
        • Gudjonsson S.
        • Veerla S.
        • Patschan O.
        • Aine M.
        • Ferno M.
        • Ringner M.
        • Mansson W.
        • Liedberg F.
        • Lindgren D.
        • Hoglund M.
        尿路上皮癌的分子分类。
        临床。癌症res。 2012; 18: 3377-3386
        • Liberzon A.
        • Subramanian A.
        • pinchback R.
        • Thorvaldsdottir H.
        • Tamayo P.
        • Mesirov J.P.
        分子签名数据库(MSIGDB)3.0。
        生物信息学。 2011; 27: 1739-1740
        • argelaguet r.
        • Velten B.
        • ARNOL D.
        • 饮食饮食司。
        • Zenz T.
        • Marioni J.C.
        • 布特纳F.
        • Huber W.
        • 铁灯o.
        多OMICS因子分析 - 用于多OMICS数据集的无监督集成的框架。
        摩尔。系统。 BIOL。 2018; 14: e8124
        • Busold C.H.
        • 冬季S.
        • Hauser N.
        • 鲍尔A.
        • 狄碧j.
        • Hoheisel J.D.
        • 汇聚克。
        对应分析中的GO注释集成:促进微阵列数据的解释。
        生物信息学。 2005; 21: 2424-2429
        • 韭菜J.T.
        • Scharpf R.B.
        • Bravo H.C.
        • Simcha D.
        • Langmead B.
        • 约翰逊W.E.
        • Geman D.
        • 袋手K.
        • Irtizarry R.A.
        解决批量效应对高吞吐量数据的广泛和关键影响。
        NAT。 Rev. Genet。 2010; 11: 733-739
        • aran d.
        • Sirota M.
        • Butte A.J.
        肿瘤纯度的系统泛癌分析。
        NAT。安排。 2015; 6: 8971
        • McDavid A.
        • FINAK G.
        • 克拉多罗
        细胞周期对单细胞RNA-SEQ数据中的异质性的贡献。
        NAT。 Biotechnol。 2016; 34: 591-593
        • 肯尼佩。
        • Lee G.Y.
        • 迈尔斯C.A.
        • neve r.m.
        • Semeiks J.R.
        • 斯派曼P.T.
        • Lorenz K.
        • 李雅。
        • Barcellos-Hoff M.H.
        • Petersen O.W.
        • 灰色J.W.
        • Bissell M.J.
        三维测定中乳腺癌细胞系的形态与它们的基因表达谱相关。
        摩尔。 oncol。 2007; 1: 84-96
        • 诺克尔斯M.A.
        • 赫斯特C.D.
        膀胱癌的分子生物学:对发病机制和临床多样性的新见解。
        NAT。癌症。 2015; 15: 25-41
        • 罗伯逊A.G.
        • kim J.
        • al-ahmadie h.
        • Bellmunt J.
        • 郭G.
        • cherniack a.d.
        • Hinoue T.
        • 莱尔德P.W.
        • hadley K.A.
        • Akbani R.
        • Castro M.A.A.
        • gibb e.a.
        • Kanchi R.S.
        • Gordenin D.A.
        • Shukla S.A.
        • 桑切斯维加F.
        • Hansel D.E.
        • Czerniak B.A.
        • Reuter V.E.
        • 苏X.
        • de sa carvalho b.
        • Chagas V.S.
        • Mungall K.L.
        • Sadeghi S.
        • Pedamallu C.S.
        • 卢y.
        • klimczak l.j.
        • 张继夫
        • Choo C.
        • ojesina a.i.
        • 布尔曼斯。
        • Leraas K.m.
        • Lichtenberg T.M.
        • 吴c.j.
        • 舒尔茨德
        • Getz G.
        • Meyerson M.
        • 磨坊G.B.
        • 麦肯基D.J.
        • 网络T.R.
        • Weinstein J.N.
        • kwiatkowski d.j.
        • Lerner S.P.
        肌肉侵袭性膀胱癌的综合分子特征。
        细胞。 2017; 171: 540-556.E525
        • Damrojer J.s.
        • hadley K.A.
        • Chism D.D.
        • 风扇C.
        • Tiganelli C.J.
        • WOBKER S.E.
        • yeh J.J.
        • 米洛斯基M.I.
        • IYER G.
        • Parker J.s.
        • 金w.Y.
        高级膀胱癌的内在亚型反映了乳腺癌生物学的标志。
        Proc。 Natl。阿卡。 SCI。美国。 2014; 111: 3110-3115
        • 崔W.
        • Porten S.
        • 金斯。
        • 威利斯D.
        • plimack e.r.
        • Hoffman-Censits J.
        • 罗斯B.
        • 诚龙
        • Tran M.
        • 李i.l.
        • 蜜蜂J.
        • Bondaruk J.
        • Majewski T.
        • 张某。
        • Pretzsch S.
        • 袋手K.
        • Siefker-Radtke A.
        • Czerniak B.
        • Dinney C.P.
        • 麦肯基D.J.
        不同敏感性对前线化疗的肌肉侵袭性膀胱癌不同的基础和腔疱疹亚型。
        癌细胞。 2014; 25: 152-165
        • Lindgren D.
        • Frigyesi A.
        • Gudjonsson S.
        • Sjodahl G.
        • Hallden C.
        • Chebil G.
        • Veerla S.
        • Ryden T.
        • Mansson W.
        • Liedberg F.
        • Hoglund M.
        组合基因表达和基因组分析定义了尿路上皮癌的两个内在分子亚型,以及分子分级和结果的基因特征。
        癌症res。 2010; 70: 3463-3472
        • 比特琴A.
        • Bernard-Pierrot I.
        • 娄Y.
        • Krucker C.
        • Chapeaublanc E.
        • Rubio-Perez C.
        • Lopez-Bigas N.
        • Kamoun A.
        • Neuzillet Y.
        • 格斯塔杜普
        • GrieCo L.
        • rebouissou s。
        • de Reynies A.
        • Benhamou S.
        • lebret t.
        • 南格特J.
        • 巴西罗特E.
        • Allory Y.
        • Zinovyev A.
        • Radvanyi F.
        独立的分量分析揭示了膀胱肿瘤转录组的景观,并揭示了对腔和基底亚型的见解。
        细胞代表。 2014; 9: 1235-1245
        • chang w.-c.
        在分离两个多变量正常分布的混合物之前使用主成分。
        J. Roy。统计SOC。 1983; 32: 267-275
        • 改变O.
        • 棕色p.o.
        • Botstein D.
        两种不同生物体基因组表达数据集比较分析的广义奇异值分解。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 3351-3356
        • 孟康
        • 掌舵D.
        • Frejno M.
        • Kuster B.
        MOCLUSTERS:跨多个OMICS数据集识别联合模式。
        J.蛋白质组。 2016; 15: 755-765
        • rappoport n。
        • Shamir R.
        多OMIC和多视图聚类算法:审查和癌症基准。
        核酸RES。 2018; 46: 10546-10562
        • Chauvel C.
        • Novoloaca A.
        • veyrep.
        • Reynier F.
        • Becker J.
        综合聚类方法对多OMICS数据分析的综合聚类方法。
        简报生物信息学。 2019; (pii:[ep preping]): bbz015
        • 哈斯蒂T.
        • Tibshirani R.
        • eisen m.b.
        • Alizadeh A.
        • levy r.
        • Staudt L.
        • Chan W.C.
        • Botstein D.
        • 棕色P.
        “基因剃须”作为鉴定具有相似表达模式的不同基因组的方法。
        基因组Biol。 2000; 1
        • HOLTER N.S.
        • Mitra M.
        • Maritan A.
        • Cieplak M.
        • Banavar J.R.
        • Fedoroff N.v.
        基因表达谱的基本模式:复杂性的简单性。
        Proc。 Natl。阿卡。 SCI。美国。 2000; 97: 8409-8414
        • Brazma A.A.c.C.
        基因表达分析算法。
        遗传学,基因组学,蛋白质组学和生物信息学的百科全书。 约翰瓦里& Sons, 纽约市纽约2005
        • 富兰克林S.B.
        • 吉布森D.J.
        • 罗伯逊P.A.
        • Pohlmann J.T.
        • Fralish J.s.
        并行分析:一种确定重要主成分的方法。
        J.植被SCI。 1995; 6: 99-106
        • Smilde A.K.
        • 凯尔赫。
        • BIJLSMA S.
        • rub
        • van ERK M.J.
        高维数据的矩阵相关性:修改的RV系数。
        生物信息学。 2009; 25: 401-405
        • ABDI H.
        • 威廉姆斯L.J.
        • Valentin D.
        • Bennani-dosse M.
        Statis和Distatis:最佳的多元成分分析和三种方式度量多维缩放。
        Wiley跨学科评论:计算统计数据。 2012; 4: 124-167
        • van der Maaten L.
        • Hinton G.
        可视化数据的T-SNE。
        机床学习研究。 2008; 9: 2579-2605
        • Mariette J.
        • Villa-Vialaneix N.
        无监督的多个内核学习异构数据集成。
        生物信息学。 2018; 34: 1009-1015
        • 克鲁格克。
        • Mertins P.
        • 张B.
        • 犀鸟P.
        • Raju R.
        • Ahmad R.
        • Szucs M.
        • Mundt F.
        • 林业D.
        • Jane-valbuena J.
        • Keshishian H.
        • Gillette M.A.
        • Tamayo P.
        • Mesirov J.P.
        • Jaffe J.D.
        • carr s.a.
        • MANI D.R.
        磷酸化特异性签名分析的策划资源。
        摩尔。细胞。蛋白质组学。 2019; 18: 576-593
      广告