SpliceVista,霰弹枪彩易福彩组学数据的剪接变体识别和可视化工具的工具*

  • Yafeng朱
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • Lina Hultin-Rosenberg
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • 珍妮伪装
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • 瑞米BRANCA
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • Lukas M. Orre.
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • JanneLehtiö.
    一致
    应解决谁的通信:
    隶属关系
    从癌症彩易福彩组学质谱,科学为生命实验室,Karolinska Institutet,171 65斯德哥尔摩,瑞典
    搜索本作者的文章
  • 作者脚注
    *该项目由Karolinska Institutet(儿童资金),瑞典研究委员会,瑞典癌症协会,斯德哥尔摩癌症协会,斯德哥尔摩委员会和FP7欧盟项目Glycohit提供资金。
    本文含有补充材料。
      替代剪接是真核生物中的普遍存算过程。超过90%的人类基因具有替代的产品,并且已显示异常剪接与许多疾病有关。在检测的接头变体中使用的当前方法包括通过对表达的序列标签,外显子微阵列和mRNA测序进行聚类预测,所有方法聚焦在RNA级信息上。缺乏用于分析彩易福彩水平的接头变体的工具。在这里,我们呈现SPLICEVISTA,一种用于基于质谱彩易福彩组学数据的剪接变体识别和可视化的工具。 Splicevista从替代剪接数据库中检索基因结构和翻译序列,并将MS鉴定的肽映射到剪接变体。可视化模块绘制每个剪接变体的外显子组合物,并用转录物位置对准鉴定的肽。如果使用定量质谱数据,则SpliceVista绘制每种肽的定量模式,并为用户提供基于它们的定量模式的簇肽的选择。 SpliceVista可以识别特异性特异性特异性肽,提供有可能特异性分析的可能性。该工具在两个实验数据集(PXD000065和PXD000134)上进行了测试。在用吉非替尼处理的A431细胞中,鉴定了对应于939个剪接变体的2983抗体 - 变体特异性肽。通过比较剪接 - 变异,以彩易福彩为中心和基因定量的定量,几种基因(例如发现eIF4H)在吉非替尼治疗后具有差异调节的剪接变体。在其他数据集中检测到与彩易福彩为中心的定量定量之间的相同差异,其中将诱导的多能干细胞与父母成纤维细胞和人胚胎细胞的细胞进行比较。此外,SpliceVista可用于可视化从肽级证据推断的新型剪接变体。总之,SpliceVista能够实现彩易福彩剪接变体的可视化,检测和差异定量,所述彩易福彩剪接变体经常错过在当前的彩易福彩组学管道中。
      真核基因由外官能(彩易福彩编码)和内肠(非编码)区域组成。替代剪接是在结位点切割前mRNA的过程,并且以不同的方式重新连接所得的偏振序列以形成不同版本的成熟mRNA。已经表明,92%至94%的人类基因可以接受替代剪接(
      • 王e.t.
      • Sandberg R.
      • 罗S.
      • Khrebtukova I.
      • 张L.
      • 梅尔C.
      • 王家博士
      • Schroth G.P.
      • 击败C.B.
      人体组织转录om中的替代异构体调节。
      ,
      • 潘Q.
      • 谢O.
      • Lee L.J.
      • Frey B.J.
      • Blencowe B.J.
      高通量测序对人体转录组替代剪接复杂性的深度测量。
      )。该过程在增加真核生物中的彩易福彩组多样性方面发挥着重要作用。对于Multiexon MRNA,可以发生不同的拼接图案,例如外显子跳跃(从成熟MRNA被包括或排除外显子),替代5'或3'剪接(外显子被剪接在不同的长度),或相互排斥的剪接(外显子选择性地拼接以仅以不同的剪接形式出现)。替代剪接由抗缩肌组进行,其由五个小核核糖核蛋白颗粒,U1,U2,U4,U5和U6组成,以及超过150个其他彩易福彩(
      • MATLIN A.J.
      • 克拉克F.
      • 史密斯C.W.
      了解替代拼接:朝向蜂窝代码。
      )。剪接部位或拼接机械主要成分中的突变将影响基因的剪接模式,并且可能导致可能具有不同构象,功能或亚细胞位置的替代彩易福彩产品。拼接机械的破坏已被证明与许多人类疾病如囊性纤维化,阿尔茨海默病和癌症相关联(
      • Blencowe B.J.
      替代拼接:全局分析的新见解。
      ,
      • 威纳斯J.P.
      癌症中的异常和替代剪接。
      ,
      • Garcia-Blanco M.A.
      • Baraniak A.P.
      • Lasda E.L.
      疾病和治疗中的替代剪接。
      )。
      已经识别通过替代剪接产生的基因产物的大努力。这是一个具有挑战性的任务,因为替代的剪接形式通常是时间的,组织特异性和低丰富(
      • 黑色D.L.
      替代前信使RNA剪接机制。
      )。到目前为止,大多数工作已经开始于MRNA水平开始,利用大量的公共域表达序列标签数据以及RNA测序数据(
      • Eyras E.
      • CACCMOM M.
      • Curwen V.
      • 夹具M.
      estgenes:从ESTS中的ESTS替代拼接。
      ,
      • 侃Z.
      • Rouchka e.c.
      • GISH W.R.
      • 国家D.J.
      基因结构预测和替代剪接分析使用基因组对准的ests。
      ,
      • Ramani A.K.
      • Calarco J.A.
      • 潘Q.
      • Mavandadi S.
      • 王Y.
      • 纳尔逊A.c.
      • Lee L.J.
      • 莫里斯Q.
      • Blencowe B.J.
      • 甄米
      • 弗雷泽A.G.
      Caenorhabditis elegans的基因组分析替代剪接。
      ,
      • Trapnell C.
      • Pachter L.
      • Salzberg S.L.
      最佳hat:发现带RNA-SEQ的接头连接点。
      )。将属于一种基因的表达的序列标记或RNA测序读数聚集在一起,然后与基因组序列对齐,以识别替代剪接事件。这些努力导致许多公开可用的替代拼接数据库。其中大多数由Genbank,Unigene和Swiss-prot的挖掘数据产生。证据查看器数据库(EVDB)
      使用的缩写是:EVDB,证据查看器数据库; MS,质谱;它,离子陷阱; HCD,较高的能源碰撞解离; PSM,肽光谱匹配; ITRAQ,相对和绝对量化的ISObaric标签; PQPQ,肽质量控制的肽定量; SVSP,剪接变异特异性肽; FDR,虚假发现率; HIPS细胞,人诱导多能干细胞。
      1使用的缩写是:EVDB,证据查看器数据库; MS,质谱;它,离子陷阱; HCD,较高的能源碰撞解离; PSM,肽光谱匹配; ITRAQ,相对和绝对量化的ISObaric标签; PQPQ,肽质量控制的肽定量; SVSP,剪接变异特异性肽; FDR,虚假发现率; HIPS细胞,人诱导多能干细胞。
      是支持拼接变体搜索的关系数据库之一,按顺序和基因符号查询(
      • KAHN A.B.
      • Ryan M.C.
      • 刘H.
      • Zeeberg B.R.
      • Jamison D.C.
      • Weinstein J.N.
      脾气:用于微阵列剪接变体分析的NCBI证据观众的高吞吐量数据库实现。
      )。该数据库使用来自NCBI Genbank和Refseq的高质量转录物,然后将其与染色体序列对齐,从而可以确定其外显子结构。 EVDB在最近的建筑中包含81,142个非冗余人的剪接变体(2010年6月完成)。 ECGENE数据库是根据基于基于基于基于基于基于基于基于基于基于基于基于基于基于基于基于序列标记的群集的剪接数据库。数据库中的剪接变体基于用于覆盖转录物的最小克隆数(
      • 金P.
      • 金恩。
      • 李玉。
      • 金B.
      • 闪亮的。
      • 李斯。
      Ecgene:替代拼接的基因组注释。
      )。
      基于质谱(MS)的彩易福彩组学使得能够大规模鉴定和定量彩易福彩。基于MS的彩易福彩组学的最常用的工作流程是所谓的自下而上的方法或霰弹枪彩易福彩组学,其中彩易福彩被消化成肽以促进有效的MS分析。然后使用生物信息方法来推断彩易福彩级事件(
      • nesvizhskii a.i.
      • Aeberberold R.
      霰弹枪彩易福彩组学数据的解释:彩易福彩推理问题。
      )。霰弹枪彩易福彩组学的挑战是彩易福彩推理问题,这是指确定所鉴定的肽的彩易福彩衍生自彩易福彩的任务。出现难度,因为一些肽被几种彩易福彩共享。一旦通过蛋白酶消化彩易福彩混合物,就会将来自所有彩易福彩的肽混合在一起,并且每个彩易福彩的彩易福彩背景丧失。这导致含有模糊的彩易福彩中存在的彩易福彩。存在几种彩易福彩同种型(例如 替代剪接形式)进一步使鉴定过程复杂化,因为彩易福彩同种型通常具有非常相似的序列。在胰蛋白酶消化后,如果没有鉴定剪接变异的特异性肽(SVSP),则不可能区分不同的彩易福彩同种型。然而,基于MS基的彩易福彩组学通过包括搜索数据库中的已知和预测蛋白变体的序列来鉴定已知和新的剪接变体(
      • POWER K.A.
      • McRedmond J.P.
      • de Stefani A.
      • 加拉尔下
      • Gaora P.O.
      人血小板中新型剪接同种型的高通量彩易福彩组学检测。
      ,
      • Hatakeyama K.
      • ohshima K.
      • Fukuda Y.
      • Ogura S.
      • Terashima M.
      • yamaguchi K.
      • Mochizuki T.
      使用转录组和彩易福彩组的组合分析鉴定衍生自癌症相关剪接变体的新型彩易福彩同种型。
      ,
      • Menon R.
      • OPENN G.S.
      人表皮生长因子受体2 / Neu诱导乳腺癌中新型替代剪接变体蛋白的彩易福彩组学特征。
      )。
      在定量彩易福彩组学中,彩易福彩推理问题也影响彩易福彩量化的准确性,因为彩易福彩量测量可以通过错误地分配给特定彩易福彩或彩易福彩变异的肽损害。为了解决这个问题,我们最近开发了一种工具,PQPQ(彩易福彩量化通过肽质量控制)(
      • 伪装J.
      • 约翰逊H.J.
      • Pernemalm M.
      • Branca r.m.
      • Sandberg A.
      • Lehtio J.
      通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
      ),检测基于MS的霰弹枪彩易福彩组学数据中的彩易福彩变体。该方法基于假设来自给定彩易福彩变体的肽将具有在样品上具有相关的定量模式。 PQPQ采用所有高置信肽谱匹配(PSM)并根据样品的定量模式群集它们。衍生自差异表达或调节的不同彩易福彩同种型的PSM具有不同的定量模式,因此通过PQPQ将其分组在不同的簇中。因此,PQPQ可以根据定量模式检测彩易福彩变体,即使在MS / MS数据的数据库搜索未能检测到那些彩易福彩变体的情况下也是如此。
      在这里,我们提出了一种新颖的工具,Splicevista,它能够实现和促进霰弹枪彩易福彩组学数据的拼接 - 变异询问。 SpliceVista检索基因结构和来自两个替代剪接数据库,EVDB和ECGENE的翻译序列,并将鉴定的肽映射到剪接变体。可视化模块绘制每个剪接变体的外显子组合物,并将鉴定的肽与其转录物位置对准。如果使用定量MS数据,则SpliceVista绘制每种肽的定量模式。另外,PQPQ算法的简化版本包含在包装中,以便向用户提供基于它们的定量模式的群集肽的选项。鉴于剪接变体影响基因函数,并且已显示异常剪接形式与许多人类疾病如癌症(
      • Blencowe B.J.
      替代拼接:全局分析的新见解。
      ,
      • 威纳斯J.P.
      癌症中的异常和替代剪接。
      ,
      • Garcia-Blanco M.A.
      • Baraniak A.P.
      • Lasda E.L.
      疾病和治疗中的替代剪接。
      ),我们设想谢谢Vista将成为拼接 - 变异相关的生物标志物发现和变异特异性彩易福彩组变化的生物学研究的重要工具。

      材料和方法

       算法可用性和要求

      Splicevista是用Python 2.7.2写的。它由五个模块组成:Converter.py,mergepsm.py,download.py,mapping.py和可视化。它还包括主要是肽聚类的PQPQ(名为ClusterPeptide.py)的简化版本。可以找到该程序的详细手册 补充文件1。程序可以自由使用,并在手册中下载程序的说明。

       MS数据的预处理

      需要从数据库搜索的MS输出中提取以下信息:彩易福彩加入I.D.,肽序列和定量数据(如果有的话)。然后通过Python脚本转换器将基因符号分配给每个彩易福彩。用于从EVDB检索已知的彩易福彩剪接变体。

       Splicevista工作流程

      SpliceVista旨在基于MS鉴定的肽识别和可视化剪接变体。该计划有四个主要部分(Fig. 1):
      • 1.
        数据预处理。在该步骤中,将所有PSM从彩易福彩中分配了基因符号。并分为肽。
      • 2.
        下载。 SpliceVista使用基因符号从EVDB中检索基因的所有已知的基因的剪接变体。 EVDB中使用的剪接变体的标识符与Genbank中的那些相一致。根据其I.D,从Genbank提取核苷酸序列,然后将其翻译成氨基酸序列。
      • 3.
        映射。 在该步骤中,所有鉴定的肽通过基因分组,并且一个接一个地分析基因。对于每个基因,将所有鉴定的肽映射到来自EVDB或Ec基因数据库的基因的剪接变体。在输出文件中报告了每种肽的基因组和转录物位置。
      • 4.
        可视化。 来自先前步骤的数据用于可视化与所识别的肽排列的每个剪接变体的外显子结构。 EVDB中的剪接变体只能通过缩小到尺寸而可视化。从EcGene数据库(包括在Ensembl 72中的已知,包括在EcGene数据库中的所知,包括所知的所知的预测的剪接变体,并且仅在EcGene数据库中被视为内含子,并且外显子缩放到相应的尺寸。另外,如果使用PQPQ,则可视化基于定量模式的肽簇,允许特定肽与检测到的定量肽簇之间的连接。
      图缩略图GR1.
      Fig. 1Splicevista的工作流程。 蓝色盒子解释了Splicevista的四个主要步骤。黄色框描绘了Splicevista的详细工作流程。鉴于肽数据,转换器。Py分配每种彩易福彩i.D.一种基因符号,用于检索该基因的已知剪接变体及其在EVDB中的外显子结构。肽序列被映射到从Genbank检索的翻译变体的翻译序列。在产出中报道了肽的基因组坐标及其转录物位置。已知的剪接变体通过替补唯一地映射到剪接变体的特异性特异性肽来鉴定。然后可以通过定量剪接变体特异性肽进行剪接变体的定量。

       来自SpliceVista的输出文件

      splicevista有两个重要的输出文件:mappeout.txt和geaceStative.txt(参见 补充文件2中的表S1和S2)。可以在MappeOut.txt文件中找到每个肽的基因组和转录性位置,定量数据和PQPQ聚类结果。从数据库(EVDB和GenBank)检索的其他文件,subexons.txt,splicingvar.txt和varseq.fa是在可视化模块中映射肽所必需的。请参阅用户手册(补充文件1)有关详细信息。

       Splicevista的可视化模块

      鉴于彩易福彩的基因符号,SpliceVista(可视化)可以生成包含三个面板的图像(Fig. 2)。顶板显示所有已知的拼接变体的外显子结构。中间板显示所鉴定的肽的转录物位置。如果施加PQPQ,则将每种肽分配给簇,其中所有肽显示相关的定量图案。在底板中,不同簇的定量模式以与中间板中相同的顺序绘制。条形表示每个独特肽的所有PSM的平均强度比,标准偏差由垂直线(误差杆)表示。
      图缩略图GR2.
      Fig. 2SpliceVista可视化概述。 该图显示了在A431全细胞分数中检测到的BAX基因的SPLICEVISTA输出图片。在顶板中,描绘了基因的外显子组成,并且基因符号用左上角写入。白色盒子是数据库中存在的基因的所有子外显子。米色盒子显示剪接变体的外显子组成,其登录号标记在左侧。转录物上的阴影表明鉴定肽的位置。在转录变型下方,在中间板中,彩色线代表鉴定的肽,其与转录物上的对应位置对齐。线下方的数量是给予肽的编号(基于肽的基因组坐标对编号分选)。如果PQPQ为基础的分组(
      • 伪装J.
      • 约翰逊H.J.
      • Pernemalm M.
      • Branca r.m.
      • Sandberg A.
      • Lehtio J.
      通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
      )已经进行了定量簇中的肽,每种肽填充与PQPQ分配给它的簇相同的颜色。在左侧,不同颜色的框表示不同的簇。框后,分配给群集的名称(例如,“cluster1”),然后是属于此集群的唯一肽的数量(在括号中)。底板中的直方图是每个簇的相对定量模式。每组杆代表一种肽,并且棒的数量等于样品尺寸。一个棒的高度是该簇中的一种肽的所有PSM的相对强度比的平均值(在该数据集中,ITRAQ 8-Plex用于相对量化)。黑色垂直线表示连接到肽的PSM的强度比的标准偏差(在每个肽之后支架的数量是PSM的数量)。对于那些没有黑线的人,该簇中只有一个PSM用于肽。 SpliceVista生成的图片是高分辨率,更详细,可以通过放大来实现清晰的视图。

       在所有人蛋白同种型的硅分析中

      从Enembl 63下载了21,494个彩易福彩编码基因的列表。其中18,372个基因在EVDB中有剪接变体(IE。 76,827拼接变体总共)。其中3072属于数据库中只有一个已知的剪接变体的基因。 在Silico. 进行胰蛋白酶消化人彩易福彩组(Ensembl 63),得到832,421个独特的肽(6个氨基酸≤肽长度≤40氨基酸),其后来映射到所有剪接变体。与胰蛋白酶相比, 在Silico. 还进行了在平均较长的肽上产生的人彩易福彩组的LysC消化,得到447,880个独特的肽(6个氨基酸≤肽长度≤40氨基酸)。在模拟蛋白酶消化中,仅在连续切割位点(KK,KR,RK或RR用于胰蛋白酶的KK,KR,RK或RRS的情况下,并且LysC的KK)允许错过的裂解,并且如果腐殖位点跟随脯氨酸,则不进行切割。

       A431人体细胞系彩易福彩组学数据

       样品制备

      为了举例说明SPLICEVISTA的关键功能,我们使用它来分析A431人细胞系(表皮癌细胞系,细胞系数ACC 91)彩易福彩组学数据。样品制备和质谱实验描述于参考文献中。
      • Branca r.m.
      • 奥尔l.m.
      • 约翰逊H.J.
      • 格兰霍尔姆V.
      • 哈斯·米
      • Perez-Bercoff A.
      • 伪装J.
      • Kall L.
      • Lehtio J.
      盗程LC-MS使得能够深入彩易福彩组覆盖和无偏的彩易福彩组。
      。简要介绍,播种后24小时,用吉非替尼处理A431细胞培养物(重复)并在处理后收获2小时,6小时和24小时。对照留下未经处理的(0小时重复)。通过胰蛋白酶消化来自A431全细胞萃取和三个亚细胞级分的彩易福彩样品(参见实验设置和亚细胞分馏程序 补充文件2图S1)。将得到的肽混合物排列成四组(整体,光,培养基和重),每组不同时间点的肽用8-Plex Itraq(AB Sciex,Framingham,MA)标记。通过等电聚焦分离每组中的肽混合物(200μg)(
      • Eriksson H.
      • Lengqvist J.
      • Hedlund J.
      • Uhlen K.
      • 奥尔l.m.
      • Bjellqvist B.
      • 波尔顿B.
      • Lehtio J.
      • jakobsson p.j.
      施加窄范围肽等电聚焦研究小细胞肺癌抗性机制的定量膜彩易福彩组学。
      )使用五种不同的固定性pH梯度凝胶条(由GE Healthcare Bio-Sciences Ab提供,瑞典乌普萨拉;五条带的pH范围为3.7-4.9,3.70-4.05,4.00-4.25,4.20-4.45和4.39-4.99 ,所有这些都长24厘米)。在完成等电聚焦完成之后,将各固定化的pH梯度条分为72个级分,通过液体处理机器人(GE Healthcare Prototype)将来自每个级分的肽转移到96孔微滴板中,并在SpeedVac中干燥。使用杂交LTQ-orbitrap Velos质谱仪(Thermo Sciencific)进行五种基于MS的基于MS基实验(来自五个固定的pH梯度凝胶带中的相应肽)用于每个四种肽混合物组(全细胞,光,培养基和重分数)。详细的质谱分析可以在参考中找到。
      • Branca r.m.
      • 奥尔l.m.
      • 约翰逊H.J.
      • 格兰霍尔姆V.
      • 哈斯·米
      • Perez-Bercoff A.
      • 伪装J.
      • Kall L.
      • Lehtio J.
      盗程LC-MS使得能够深入彩易福彩组覆盖和无偏的彩易福彩组。
      .

       质谱数据处理

       搜索ensembl 63人类彩易福彩数据库

      通过使用软件平台彩易福彩组发现(V1.3.0.339,Thermo Sciencific)和目标诱饵策略,通过续集/过滤器搜索所有MS / MS光谱。使用的参考数据库是Ensembl 63(76,501蛋白条目)的人彩易福彩子集。使用10ppm的前体质量耐受性和0.02ds的HCD傅里叶变换MS和0.8Da用于碰撞诱导的解离ITS MS的0.02de02Da的产物质量公差。另外的设置是胰蛋白酶,1个错过的乳沟;在赖氨酸和N-末端的半胱氨酸和Itraq 8-Plex上的氨基甲酰甲酰如图所固定的修饰;和氧化硫氨酸氧化和磷酸化对丝氨酸,苏氨酸或酪氨酸作为可变修饰。使用20ppm的集成窗耐受性进行ITRAQ 8-Plex报告离子的定量。 PSM以1%的错误发现率(FDR)发现。
      在彩易福彩组发现者的默认设置之后进行报告 - 离子的彩易福彩量化:仅来自独特肽的PSM和前体干扰<50%用于量化;每个PSM的定量比标准化以在ITRAQ通道之间具有相同的彩易福彩中值比率。包括所有已识别的彩易福彩(以1%FDR)及其定量数据在内的彩易福彩表 补充文件3.。与本文关联的原始数据,PEP.XML和彩易福彩组发现者MSF文件在Proteomexchange Repository(DataSet I.D.:PXD000065)中可用。

       搜索ECGENE数据库与ENSEMBL 72人体彩易福彩数据库相结合

      下载了ECGENE剪接变体数据库(高低证据水平)(参见ECGENE数据库的肽重叠和ENEMBL 72 补充文件2图S2)。来自A431全细胞样本的MS / MS光谱(五毫秒实验;在固定化的pH梯度凝胶条上分离的肽3.7-4.9,3.7.7-4.7.05,4.00-4.25,4.20-4.45和4.39-4.99)。不同的数据库:与Ensembl 72数据库连接的Ecgene数据库(高证据水平),以及与Ensembl 72数据库连接的Ecgene数据库(低证据水平)。如上所述使用相同的软件和参数,不同之处在于所使用的唯一可变改性是蛋氨酸的氧化。在该工作流程中不包括肽和彩易福彩量化。

      结果

       人蛋白同种型,具有独特的序列和种类特异性肽

      为了评估用于剪接变异特异性分析的自下而上的MS基彩易福彩组学的潜在和限制,我们进行了理论分析。在模拟胰蛋白酶消化中,146,818(18%)胰蛋白胨唯一地映射到特定的剪接变体(IE。 they were SVSPs) (Fig. 3)。其中65,916次映射到仅具有一种已知剪接变体的基因。相反,7,935(22%)剪接变体显示出SVSP。因为Lysc产生的肽高于胰蛋白酶(参见胰蛋白酶和Lysc消化的肽长度分布 补充文件2图S3),人们可以期望利用Lysc消化来更好地覆盖接头结位点。然而,LysC消化产生的SVSP的比例(对应于13,593抗体变体的17%SVSP)不大于胰蛋白酶产生的那些。这种结果可以部分地解释许多Lysc肽将太长(>通过LC-MS分析检测40个氨基酸)。
      图缩略图GR3.
      Fig. 3人剪液变异特异性肽的理论分析。 理论剪接变异特异性肽(SVSP)数量的饼图。 146,818胰蛋白酶消化的肽和74,798个溶酶消化的肽是特异性的剪接变体,对应于16,935和13,593抗体变体。 3072数据库中的剪接变体来自单同种型基因,这些均产生大约一半的SVSP。当组合所有SVSP时,可以通过MS识别EVDB中的17,562个剪接变体,假设存在所有剪接变体和100%序列覆盖率。
      组合由胰蛋白酶和Lysc消化产生的肽导致相对于单独用胰蛋白酶获得的那些具有SVSPS(23%)的同种型数量的适度增加。这些结果表明,四种彩易福彩同种型中的三种不能唯一识别(Fig. 3)使用这两种酶。

       A431细胞系数据中的剪接变体识别

      如前所述,如果一个或多个肽唯一地映射到其序列,则鉴定剪接变体。为了测试该方法的适用性通过基于MS的霰弹枪彩易福彩组学产生的彩易福彩组学数据,我们使用SpliceVista分析人癌细胞系数据(A431)。在整个细胞裂解物中,确定了607个明确的剪接变体和1680sVSP(表I.)。 A431数据集中报告的所有SVSP都来自具有多个拼接变体的基因(参见这些SVSP和它们从SpliceVista中的映射输出 补充文件4.)。没有计数来自单个同种型基因的SVSP。随着亚细胞分级,鉴定的独特肽的数量增加,SVSP和相应的剪接变体的数量增加(Fig. 4)。预期,这些数据表明,通过使用亚细胞分馏,我们可以增加由于肽覆盖率增加而增加了SVSP和剪接变体鉴定(参见序列覆盖,并且没有亚细胞分级 补充文件2图S4)。
      表I.每个亚细胞分数和全细胞中独特的肽和剪接变体鉴定的概述
      亚细胞分数沉重的分数中等分数小分数整个细胞
      鉴定基因总数8015806265627762
      EVDB中发现的基因总数并由SpliceVista分析 7260724459006945
      确定的独特肽数40,68940,76032,43537,099
      可以映射到EVDB的独特肽数并具有定量数据36,07736,41728,72632,969
      特异性剪接变异特异性肽(SVSP)1963202713091680
      用SPLICEVISTA映射SVSP的剪接变体数量672681512607
      鉴定了剪接变体的基因数669678509606
      图缩略图GR4.
      Fig. 4鉴定A431细胞系数据集中的剪接变异特异性肽。 Venn图比较全细胞裂解物分析的输出与组合亚细胞级分的分析。从左到右都被说明了(A)独特的肽,(B)剪接变异特异性肽,和(C)剪接变体。

       检测A431数据中的差分调节剪接变体

      A431数据集包含通过ITRAQ 8-Plex标记产生的定量信息,从Gefitinib治疗时间课程研究中进行样本。在吉非替尼治疗后,在2,6和24小时下拍摄重复样品,并与重复的未处理对照进行比较,并且使用对照的平均值作为母细胞的结果报告结果。在目前的研究中,我们对来自该数据集识别的剪接变体进行了三种不同的定量分析(表I.):基因,以彩易福彩为中心的分析,彩易福彩分析和拼接 - 变异为中心分析(Fig. 5)。在以基因为中心的分析中,基因的相对表达水平计算为鉴定该基因的所有PSM的平均比率。在以彩易福彩的分析中,彩易福彩组学中的常规方法,相对表达水平计算为由搜索引擎用于彩易福彩的所有PSM的平均比率。在接头 - 变异为中心的分析中,通过将特异性的PSM的平均比率与该剪接变体的平均比例计算,计算基因的某种剪接变体的相对表达水平。相对于常规彩易福彩的分析的差异是仅唯一地映射到拼接变体的PSM来量化它。因为超过90%的基因可以接受替代剪接(
      • 王e.t.
      • Sandberg R.
      • 罗S.
      • Khrebtukova I.
      • 张L.
      • 梅尔C.
      • 王家博士
      • Schroth G.P.
      • 击败C.B.
      人体组织转录om中的替代异构体调节。
      ,
      • 潘Q.
      • 谢O.
      • Lee L.J.
      • Frey B.J.
      • Blencowe B.J.
      高通量测序对人体转录组替代剪接复杂性的深度测量。
      ),如果基因或彩易福彩含有在剪接变体中共用的肽,则存在在基因或彩易福彩的定量分析时平均差异调节的接头变体差异的潜在风险。
      图缩略图GR5.
      Fig. 5基因中心,以彩易福彩为中心和剪接变异的定量分析比较。 该图呈现来自A431数据集的三个例子(EIF4H,ITGB4和SHROAR3),其中在基因中心,以彩易福彩为中心和以拼接 - 变异的分析中观察到差异差异。在用Gefitinib治疗后,据报告不同时间点的折叠变化。括号中的数字是在每个分析中用于定量的PSM的数量。在基因中心分析中,所有PSM映射到该基因的映射用于计算折叠变化。在以彩易福彩为中心的分析中,PSM分组由搜索引擎完成。在拼接 - 变异的分析中,仅使用SVSP的PSMS用于折叠变化计算。有关详细信息,请参阅“结果”部分。
      选择在A431数据集中鉴定的三种基因,以举例说明三种典型的情况,根据基因中心,彩易福彩,或拼接 - 变异的分析,观察到不同结果的三种典型情况(Fig. 5)。 (i)基因EIF4H的下调仅在以剪接为中心的分析中看到,在基因中心或以彩易福彩的分析中没有观察到明显的调节(Fig. 5A)。报告的彩易福彩(ENSP00000265753)在常规的彩易福彩分析中含有用于拼接 - 变异的分析的SVSP。在接头 - 变形 - 中心分析中检测到的不同定量模式意味着存在至少一个额外的未报告的拼接变体。此外,未报告的变型相对于由SVSP识别的变体非常丰富。在进行基因的或以彩易福彩为中心的分析时,未报告但主导的剪接变型平均识别鉴定的剪接变体的下调信号。 (ii)以基因为中心,以彩易福彩为中心和以剪接为中心的分析,所有结果都显示出ITGB4基因的不同结果(Fig. 5B)。这里,通过以彩易福彩分析发现三种不同的PSM群体,对应于两种不同的变体(ENSP00000200181和ENSP00000344079)和含有这两个变体之间的共享PSM的彩易福彩组。此外,该彩易福彩组的定量模式表明,至少一个额外的变体可以存在和显性。 (iii)对于Shroom3基因,在彩易福彩的分析中发现了两个具有不同定量模式的变体。这些变体之一包含将SVSP(两个PSMS)映射到拼接为中心分析中报告的变体( Fig. 5C)。然而,其他变体(37 psm)是高度丰富的,因此对基因中心的主要贡献产生了主要贡献。在所有三种情况下,以基因为中心的定量结果是映射到基因的所有识别的PSM的平均结果,并且由包含最多PSM的彩易福彩变异为主。通过杀伤性vista,我们能够通过比较拼接对基因和彩易福彩分析来量化剪接变体,并在某些情况下,在某些情况下,在某些情况下推断隐藏变体 补充文件2图S6)。
      基于PQPQ的定量聚类与肽的转录物位置的信息相结合,看看唯一地映射到基因EIF4H的剪接变体(NM_022170)是否具有相关的定量图案。如图所示 Fig. 6,将三种肽(4,5和6)聚集在一起,相对于其他肽在24小时下显示下调。如肽的转录物位置所示,肽4(DDFNSGFR)和肽5(DDFNSGFRDDFLGGR)对剪接变体NM_022170是独特的。虽然肽6(DDFLGGR)没有唯一地映射到NM_022170,但是它可以基于其定量图案从该拼接变型衍生。另一个剪接变体共用肽显示出没有明显的调节,这意味着eIF4H的剪接变体NM_022170差异调节。因为所有肽通过杀伤血症分配给基因组坐标,所以也可以将彩易福彩级数据与RNA级数据进行比较。如图所示 补充文件2图S5,将在彩易福彩水平鉴定的基因EIF4H的剪接变异特异性变化与RNA测序数据进行比较。
      图缩略图GR6.
      Fig. 6偶联Vista eIF4H基因的可视化。 该图显示了在A431细胞系全细胞样本中检测到的EIF4H基因的SPLICEVISTA输出图片。基因EIF4H具有六个外显子和四种已知的接头变体(外显子6以实现更好的分辨率)。鉴定九个独特的肽,用于EIF4H并在三种簇中进行分组。包括肽4,5和6的簇1(蓝色)具有独特的图案,其在最后两个样品中显示出清晰的下调(在药物处理后24小时重复)。肽4(DDFNSGFR)和肽5(DDFNSGFRDDFLGGR)唯一地映射到剪接变体NM_022170。肽6(DDFLGGR)对剪接变体NM_022170不是独特的,但是该肽很可能基于其定量图案衍生自NM_022170,其类似于肽4和5的定量模式。在中间板中的数量每个簇之后的括号是在该群集中分组的独特肽的数量。在底板中,每种肽后括号中的数量是PSM的数量。

       A431数据中的新型剪接变异肽的发现和可视化

      SpliceVista还可用于可视化尚未在EVDB中报道的新型彩易福彩同种型。为了举例说明此功能,我们对ECGENE数据库的A431数据搜索,其中包含基于表达的序列标签数据的预测剪接变体。总共31,985和31,023个独特的肽在与Ensembl 72数据库和Ecgene低(低证据水平)连接的Ec engene高(高证据水平)中鉴定了1%FDR,分别与Ensembl 72数据库连接。其中,在这两种搜索中鉴定了30,708个肽。在两种搜索中鉴定出或多或少相同数量的肽,我们专注于从高证据级数据库中识别的肽。在该搜索中,专门识别了223个独特的肽(用Xcorr>2)在Ecgene高而不是在Ensembl 72数据库中。 SPLICEVISTA用于将223个肽映射到其基因组位置(这些223肽的列表及其基因组坐标提供 补充文件5.)。然后,我们使用BLASTP在NCBI人的非冗余蛋白序列数据库中搜索这些223个肽(
      • altschul s.f.
      • Madden T.L.
      • Schaffer A.A.
      • 张继夫
      • 张Z.
      • 米勒W.
      • Lipman D.J.
      Papped Blast和Psi-Blast:新一代彩易福彩数据库搜索程序。
      )。其中,157个肽对数据库中的序列至少有一个错配,因此被认为是新颖的。绘制到基因PLCB2的新型剪贴型映射的肽之一 Fig. 7.
      图缩略图GR7.
      Fig. 7三种PLCB2变体的杀伤性Vista可视化。 该图显示了在EC遗传数据库中的基因PLCB2的先前未知的剪接变体H15C2281.2鉴定的新肽(GSAAQNSSFMPVSLQRHQR)。在该图中,内含子和外显子(米色盒)缩放到其尺寸,绿色和红线分别表示起始密码子和停止密码子。蓝线下面的数字1表示肽的基因组位置;它也标记为剪接变体上的蓝线,肽来自。这种新型肽的发现也符合RNA测序数据(这里未显示)。四个拼接变体显示有完整结构;切出其他拼接变体的一部分。

       人体4Skin HIPS细胞,父母成纤维细胞系和人ES细胞的剪接变异特异性分析

      展示SpliceVista与其他彩易福彩组学数据集的兼容性,由Munoz创建的干细胞数据集 等等。 (
      • 慕尼宫
      • 低T.Y.
      • Kok Y.J.
      • 中国。
      • 弗雷泽C.K.
      • 丁V.
      • Choo A.
      • Heck A.J.
      人诱导的多能干细胞和胚胎干细胞的定量彩易福彩组。
      )从Proteomexchange下载(PXD000134)。用于两个实验的MSF文件,其中将4Skin HIPS细胞与父母成纤维细胞系和人ES细胞进行比较并在彩易福彩组发现者(版本1.3,Thermo Electron)中进行下载并打开。为每个实验提取具有1%FDR截止的PSM。然后将肽映射到EVDB中的剪接变体(参见SVSP标识的统计数据,并与A431细胞系数进行比较 补充文件2表S3)。在两个质谱实验中报道的接头变体的数量分别为390和397。平均而言,我们发现该数据集中识别的基因的7%的SVSP。这与A431细胞系数据集相当,其中我们发现SVSPS的9%鉴定基因。
      来自MUNOZ研究的MS实验中鉴定了具有SVSP的重叠蛋白的数量 等等。 是296.将这些彩易福彩的彩易福彩分析与剪接变异特异性分析进行比较。如图所示 Fig. 8A为大多数彩易福彩,彩易福彩为中心的纤维/髋部比的分析与接头变异特异性结果一致。然而,一些标记为红色的彩易福彩显示它们以彩易福彩和接头的分析之间的LOG2(FIBRO / HIPS)值显示出大的差异,表明分配给彩易福彩的肽可能来自差异调节的剪接变体。通过纤维/臀部比例排名的前10个彩易福彩在剪接 - 变异和彩易福彩的分析之间进行了差异 Fig. 8B.
      图缩略图GR8.
      Fig. 8彩易福彩为中心的彩易福彩和剪接定量分析在干细胞数据集中的比较。 A,纤维/臀部彩易福彩比的比较通过彩易福彩分析和接头 - 变异的彩易福彩的分析,鉴定了彩易福彩的彩易福彩。包括296蛋白,其中MS实验(生物重复)中鉴定出具有剪接变体的彩易福彩。图中的纤维/臀部比例计算为两种重复的平均值。红色点表示彩易福彩,其在彩易福彩和剪接 - 变异的分析之间显示出大于0.5(1.41倍)的LOG2(FIBRO / HIPS)值的差异。 B,前10名彩易福彩的缩小视图根据彩易福彩和接头 - 变形定量之间的LOG2(FIBRO / HIPS)的差异排名。

      讨论

      由于其固有的能力在质量和定量上,其内在的彩易福彩是彩易福彩的大规模表征的大规模表征彩易福彩组学的大规模表征。然而,缺乏霰弹枪彩易福彩组学数据分析的工具限制了产生的大量数据的探索,导致许多与特定生物事件相关的错过的彩易福彩同种型。
      本文呈现的工具,SPLICEVISTA通过使其可视化并通过将肽证据映射到这些变体来简化已知和预测的剪接变体的详细分析。特异性特异性特异性肽(SVSP)是SpliceVista识别和定量剪接变体的关键。因此,特异性剪接变异特异性分析仅限于具有鉴定的SVSP的基因。通过在亚细胞,彩易福彩或肽水平处通过预分馏方法获得的彩易福彩序列覆盖率增加将增加鉴定更多SVSP的可能性。然而,我们承认使用霰弹枪彩易福彩组学来识别接头变体的限制,因为即使假设MS分析中的100%序列覆盖,也可以唯一地识别四种剪接变体中的大部分。
      在基于MS的彩易福彩组学中,基因的独特肽可以来自几种通常具有高序列相似性的剪接变体。除非该基因仅具有一个剪接变体,否则应注意,在基因中心分析中,基因的定量模式是所有当前剪接变体的混合结果。因此,定量模式可以由一种或多种高度丰富的剪接变体支配,因为鉴定的肽的大多数拷贝来自那些丰富的彩易福彩变体。如本研究所示,由于肽对彩易福彩变异的模糊分配,因此在彩易福彩分析中可能发生同样的问题。 SPLICEVISTA映射的SVSP提供了彩易福彩水平拼接 - 变异的分析。然后通过定量其SVSP来完成剪接变体的定量。在实践中,我们通常具有仅来自基因的一种剪接变体的独特肽。然而,差异调节的隐藏式剪接变体仍然可以通过将基因的中心或以彩易福彩为中心的分析进行比较,间接地分别地检测。
      SpliceVista还使得能够将肽数据重新映射到剪接变体数据库,例如EVDB,因此可以对已经产生的肽数据进行剪接变异特异性分析。这使得SpliceVista兼容用于分析和重新分析大多数基于MS的彩易福彩组学数据集。此外,谢氏菌可以用于映射和可视化通过对ECGENE数据库搜索MS数据来识别的新型剪接变体肽。当包括肽搜索空间中的预测剪接变体时,重要的是要意识到潜在的问题:增加的搜索空间往往会增加虚假发现,并且新颖(预测)数据库中的预期结果的预期结果导致FDR增加。因此,验证具有独立实验证据的这些新的剪接变体识别是重要的。
      总之,所提出的程序,SPLICEVISTA可以帮助用户在基于MS的彩易福彩组学中的剪接和定量均衡。首先,程序报告基因的已知接头变体的数量并与其转录物位置对准鉴定的肽。鉴于此信息,用户可以轻松筛选出独有的剪辑变体肽。其次,每个肽的给定基因组坐标使得可以将数据与来自RNA水平实验的结果进行比较,例如RT-PCR和RNA测序。第三,SpliceVista的可视化特征可以帮助用户解释与剪接变体信息相关的特定基因的基于MS的彩易福彩组学数据。如果应用PQPQ的肽聚类,则SpliceVista还将呈现检测到不同定量模式的聚类结果和直方图。通过SPLICEVISTA组合和可视化的此信息使用户能够识别和评估特定的特定定量模式和推断替代剪接调节。通过这些功能,SpliceVista将作为探索来自高吞吐量彩易福彩组学数据的剪接 - 变体特定信息和与替代剪接相关的假设的产生的工具。

      致谢

      我们感谢Henrik Johansson在A431 Cell Line样本和Mikael Huss上执行MS实验,同时有助于分析来自A431细胞系样品的RNA测序数据。

      补充材料

      参考

        • 王e.t.
        • Sandberg R.
        • 罗S.
        • Khrebtukova I.
        • 张L.
        • 梅尔C.
        • 王家博士
        • Schroth G.P.
        • 击败C.B.
        人体组织转录om中的替代异构体调节。
        自然。 2008; 456: 470-476
        • 潘Q.
        • 谢O.
        • Lee L.J.
        • Frey B.J.
        • Blencowe B.J.
        高通量测序对人体转录组替代剪接复杂性的深度测量。
        NAT。遗传。 2008; 40: 1413-1415
        • MATLIN A.J.
        • 克拉克F.
        • 史密斯C.W.
        了解替代拼接:朝向蜂窝代码。
        NAT。 Rev. mol。细胞生物。 2005; 6: 386-398
        • Blencowe B.J.
        替代拼接:全局分析的新见解。
        细胞。 2006; 126: 37-47
        • 威纳斯J.P.
        癌症中的异常和替代剪接。
        癌症res。 2004; 64: 7647-7654
        • Garcia-Blanco M.A.
        • Baraniak A.P.
        • Lasda E.L.
        疾病和治疗中的替代剪接。
        NAT。 Biotechnol。 2004; 22: 535-546
        • 黑色D.L.
        替代前信使RNA剪接机制。
        安努。 Rev. Biochem。 2003; 72: 291-336
        • Eyras E.
        • CACCMOM M.
        • Curwen V.
        • 夹具M.
        estgenes:从ESTS中的ESTS替代拼接。
        Genome Res。 2004; 14: 976-987
        • 侃Z.
        • Rouchka e.c.
        • GISH W.R.
        • 国家D.J.
        基因结构预测和替代剪接分析使用基因组对准的ests。
        Genome Res。 2001; 11: 889-900
        • Ramani A.K.
        • Calarco J.A.
        • 潘Q.
        • Mavandadi S.
        • 王Y.
        • 纳尔逊A.c.
        • Lee L.J.
        • 莫里斯Q.
        • Blencowe B.J.
        • 甄米
        • 弗雷泽A.G.
        Caenorhabditis elegans的基因组分析替代剪接。
        Genome Res。 2011; 21: 342-348
        • Trapnell C.
        • Pachter L.
        • Salzberg S.L.
        最佳hat:发现带RNA-SEQ的接头连接点。
        生物信息学。 2009; 25: 1105-1111
        • KAHN A.B.
        • Ryan M.C.
        • 刘H.
        • Zeeberg B.R.
        • Jamison D.C.
        • Weinstein J.N.
        脾气:用于微阵列剪接变体分析的NCBI证据观众的高吞吐量数据库实现。
        BMC生物信息学。 2007; 8: 75
        • 金P.
        • 金恩。
        • 李玉。
        • 金B.
        • 闪亮的。
        • 李斯。
        Ecgene:替代拼接的基因组注释。
        核酸RES。 2005; 33: D75-D79.
        • nesvizhskii a.i.
        • Aeberberold R.
        霰弹枪彩易福彩组学数据的解释:彩易福彩推理问题。
        摩尔。细胞。彩易福彩组学。 2005; 4: 1419-1440
        • POWER K.A.
        • McRedmond J.P.
        • de Stefani A.
        • 加拉尔下
        • Gaora P.O.
        人血小板中新型剪接同种型的高通量彩易福彩组学检测。
        Plos一个。 2009; 4: e5001
        • Hatakeyama K.
        • ohshima K.
        • Fukuda Y.
        • Ogura S.
        • Terashima M.
        • yamaguchi K.
        • Mochizuki T.
        使用转录组和彩易福彩组的组合分析鉴定衍生自癌症相关剪接变体的新型彩易福彩同种型。
        彩易福彩组学。 2011; 11: 2275-2282
        • Menon R.
        • OPENN G.S.
        人表皮生长因子受体2 / Neu诱导乳腺癌中新型替代剪接变体蛋白的彩易福彩组学特征。
        癌症res。 2010; 70: 3440-3449
        • 伪装J.
        • 约翰逊H.J.
        • Pernemalm M.
        • Branca r.m.
        • Sandberg A.
        • Lehtio J.
        通过彩易福彩量化和肽质量控制(PQPQ)从霰弹枪彩易福彩组学数据输出的增强信息。
        摩尔。细胞。彩易福彩组学。 2011; 10
        • Branca r.m.
        • 奥尔l.m.
        • 约翰逊H.J.
        • 格兰霍尔姆V.
        • 哈斯·米
        • Perez-Bercoff A.
        • 伪装J.
        • Kall L.
        • Lehtio J.
        盗程LC-MS使得能够深入彩易福彩组覆盖和无偏的彩易福彩组。
        NAT。方法。 2014; 11: 59-62
        • Eriksson H.
        • Lengqvist J.
        • Hedlund J.
        • Uhlen K.
        • 奥尔l.m.
        • Bjellqvist B.
        • 波尔顿B.
        • Lehtio J.
        • jakobsson p.j.
        施加窄范围肽等电聚焦研究小细胞肺癌抗性机制的定量膜彩易福彩组学。
        彩易福彩组学。 2008; 8: 3008-3018
        • altschul s.f.
        • Madden T.L.
        • Schaffer A.A.
        • 张继夫
        • 张Z.
        • 米勒W.
        • Lipman D.J.
        Papped Blast和Psi-Blast:新一代彩易福彩数据库搜索程序。
        核酸RES。 1997; 25: 3389-3402
        • 慕尼宫
        • 低T.Y.
        • Kok Y.J.
        • 中国。
        • 弗雷泽C.K.
        • 丁V.
        • Choo A.
        • Heck A.J.
        人诱导的多能干细胞和胚胎干细胞的定量彩易福彩组。
        摩尔。系统。 BIOL。 2011; 7: 550