通过质谱驱动序列相似性搜索的跨物种蛋白质鉴定的功率和局限性*

  • Bianca Habermann.
    一致
    应解决谁的通信:Max Planck分子细胞生物学研究所,Pfotenhauerstrasse 108,01307德累斯顿,德国
    隶属关系
    Max Planck分子细胞生物学和遗传学研究所,Pfotenhauerstrasse 108,01307德累斯顿,德国

    Scionics Computer Innovation GmbH,Pfotenhauerstrasse 110,01307德国德累斯顿。
    搜索本作者的文章
  • Jeffrey Oegema.
    隶属关系
    Scionics Computer Innovation GmbH,Pfotenhauerstrasse 110,01307德国德累斯顿。
    搜索本作者的文章
  • Shamil Sunyaev.
    隶属关系
    Birgham.&女子医院和哈佛医学院,75弗朗西斯街,波士顿,MA 02115
    搜索本作者的文章
  • 和rej shevchenko.
    一致
    应解决谁的通信:Max Planck分子细胞生物学研究所,Pfotenhauerstrasse 108,01307德累斯顿,德国
    隶属关系
    Max Planck分子细胞生物学和遗传学研究所,Pfotenhauerstrasse 108,01307德累斯顿,德国
    搜索本作者的文章
  • 作者脚注
    *本文的出版成本部分按付款方式部分支付。因此,本文必须明白“广告“按照18 U.S.C.第1734节仅表明这一事实。
    本文的在线版本(可提供 http://www.mcponline.org)含有补充材料。
      质谱驱动的爆炸(MS Blast)是一种数据库搜索协议,用于通过序列相似性与数据库中可用的同源蛋白质识别未知蛋白质。 MS Blast利用冗余,退化和部分不准确的肽序列数据德诺维解释串联质谱并已成为功能素传研究中的强大工具。使用计算建模,我们评估了MS Blast MS Blast对未知蛋白质鉴定的潜力。我们确定了蛋白质鉴定的成功率如何取决于询问蛋白与其在数据库中最近同源物之间的全长序列同一性。我们还估计了研究和相关参考生物的生物学之间的系统发育距离,其具有完全测序的基因组,允许大量覆盖未知蛋白质素。
      蛋白质组学已成为一种强大的工具,以了解通过活细胞中蛋白质的大规模研究的基因的功能和调节(在refs中审查。
      • 格里芬T.J.
      • Aeberberold R.
      质谱法蛋白质组分析研究进展..
      • Hendrickson R.C.
      • Pandey A.
      质谱法分析蛋白质和蛋白质蛋白。
      • yates 3rd,J.R.
      质谱。从基因组学到蛋白质组学..
      • Aeberberold R.
      基于质谱的蛋白质组学..
      )。通过质谱法鉴定蛋白质和它们的翻译后修饰来支持蛋白质组学的努力,因为它提供了毫微微敏感性,高通量,并且能够破译蛋白质的复杂混合物。通常用蛋白水解酶消化凝胶或内溶液的蛋白质,通过肽质量映射和/或串联质谱法分析摘要(在REFS中审查。
      • Aeberberold R.
      基于质谱的蛋白质组学..
      • 丽思A.J.
      • 舍甫琴科A.
      与蛋白质组学中的数据库询问策略相结合质谱。
      )。常规的数据库方法,严重地依赖于匹配的完整肽(肽质量映射)或其片段(串联质谱)(串联质谱)到通过的相应质量肽和/或肽片段 在Silico. 从数据库条目中加工蛋白质序列(在REF中审查。
      • Fenyo D.
      识别蛋白质组:软件工具..
      )。计算和测量群众的严格匹配显着增加了数据库搜索的特异性和速度(
      • 克劳瑟K.R.
      • 贝克P.
      • 伯灵名A.L.
      精确质量测量(+/- 10 ppm)在采用MS或MS / MS和数据库搜索的蛋白质识别策略中的作用..
      )但是,将蛋白质组学的范围限制为少量模型物种,其在数据库中可获得完整的基因组和/或大量cDNA序列。尽管基因组测序具有壮观的进展,但许多重要的模型生物尚未得到充分覆盖(
      • 丽思A.J.
      • 舍甫琴科A.
      扩大蛋白质组学的组织范围:质谱法识别跨物种蛋白质鉴定及其含义..
      )。
      如果在数据库中不存在感兴趣的蛋白质,则可以推断出肽序列 德诺维 解释串联质谱(参考文献审查。
      • 舍甫琴科A.
      • 切尔诺什瓦思。
      • 威尔m。
      通过纳米电气喷雾串联质谱法从凝胶消化蛋白回收的肽的“de nogo”测序。
      )并用于设计退化的寡核苷酸探针。随后可以通过基于PCR的方法来克隆所述同源基因。然而,克隆实验昂贵,费力艰苦,需要长而准确的肽序列延伸,并且尽管先前证明了成功(
      • McNagny K.M.
      • Petterson I.
      • 罗西F.
      • Flamme I.
      • 舍甫琴科A.
      • 格拉夫T.
      血小素,一种新的细胞表面蛋白,其定义血小板和多能造血祖细胞。
      • Lingner J.
      • 休斯。
      • 舍甫琴科A.
      • Lundblad V.
      • CECH T.R.
      在端粒酶的催化亚基中逆转录酶基序..
      • 陈R.H.
      • 舍甫琴科A.
      • 默里A.W.
      主轴检查点蛋白XMAD1招募XMAD2到未附加的Kinetochores ..
      • 艾奥尔斯。
      • Lingner J.
      • Goodrich K.J.
      • grosshans c.a.
      • 舍甫琴科A.
      • CECH T.R.
      Euplotes端粒酶含有由明显的平移式框架产生的La Motif蛋白。
      ),从未应用于蛋白质素的高通量表征。
      肽序列也可用于通过序列相似性搜索鉴定蛋白质(
      • 泰勒J.A.
      • 约翰逊R.S.
      通过串联质谱法的自动交配De Novo肽测序的实施与用途。
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      • 黄兰
      • 雅各布r.j.
      • PEGG S.C.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20S蛋白酶组的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法..
      • Mackey A.J.
      • haystead t.a.j.
      • Pearson W.R.
      从较少的情况下获得更多信息:具有多种短肽序列的快速蛋白质鉴定的算法..
      )。这些搜索方法代表了克隆的有吸引力的替代方案,因为可以在没有进一步的“湿”生物化学实验的情况下识别未知蛋白质,并且可以利用较低准确确定的肽序列(在refs中审查。
      • 丽思A.J.
      • 舍甫琴科A.
      扩大蛋白质组学的组织范围:质谱法识别跨物种蛋白质鉴定及其含义..
      • 舍甫琴科A.
      • 孙耶夫斯。
      • 丽思A.
      • Bork P.
      • 舍甫琴科A.
      纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
      )。然而,质谱和序列相似性搜索难以结合。传统的数据库搜索算法如爆炸(
      • altschul s.f.
      • Madden T.L.
      • Schaffer A.A.
      • 张继夫
      • 张Z.
      • 米勒W.
      • Lipman D.J.
      Papped Blast和Psi-Blast:新一代蛋白质数据库搜索程序..
      )或Fasta(
      • Pearson W.R.
      • Lipman D.J.
      改进的生物序列比较工具..
      )针对长于35个氨基酸残基的准确序列查询进行了优化(
      • altschul s.f.
      • GISH W.
      本地对齐统计信息..
      ,
      • Pearson W.R.
      • 木头t.
      • 张Z.
      • 米勒W.
      DNA序列与蛋白质序列的比较。
      )。通常通过串联质谱法获得的肽序列不超过胰蛋白酶肽的长度,通常包含10-15个氨基酸残基,因此检索到的击中的统计显着性通常是模糊的。
      最近,报告了几种数据库搜索方法,可容纳串联质谱测序的特定要求(
      • 泰勒J.A.
      • 约翰逊R.S.
      通过串联质谱法的自动交配De Novo肽测序的实施与用途。
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      • 黄兰
      • 雅各布r.j.
      • PEGG S.C.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20S蛋白酶组的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法..
      • Mackey A.J.
      • haystead t.a.j.
      • Pearson W.R.
      从较少的情况下获得更多信息:具有多种短肽序列的快速蛋白质鉴定的算法..
      ,
      • PEVZNER P.A.
      • mulyukov z.
      • Dancik V.
      • 唐c.l.
      数据库搜索效率通过质谱法识别突变和改性蛋白质。
      )。舍甫琴科 等等。 开发了基于BLAST2的搜索协议,称为MS BLAST(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      )。 MS Blast利用Wu-Blast2中的几个搜索选项(
      • altschul s.f.
      • GISH W.
      本地对齐统计信息..
      ,

      GISH,W。(1996)Wu-Blast2.0。 Baster.Wustl.edu

      )并且采用针对由串联质谱法产生的肽序列优化的评分矩阵。 MS Blast不允许单个肽内的间隙,而肽之间的间隙不会受到惩罚并且可以是任意的长度。因此,通过解释所获得的串联质谱而获得的所有肽序列组装成以任意顺序的单个搜索字符串(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • 丽思A.
      • Bork P.
      • 舍甫琴科A.
      纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
      )。 MS Blast识别一组高分段对(HSP)
      使用的缩写是:HSP,高分分段对; LC MS / MS,液相色谱串联质谱;纳米ES MS / MS,纳米电子涂布串联质谱法。
      1使用的缩写是:HSP,高分分段对; LC MS / MS,液相色谱串联质谱;纳米ES MS / MS,纳米电子涂布串联质谱法。
      在数据库条目中的查询肽和序列之间,并在蛋白质骨干网上和查询的串上独立于它们各自的位置分数这些HSP。由于Wu-Blast2计算的最小的总和概率不充分优异,因此MS Blast评分方案的统计显着性最大化了原始评分,而不是最小化报告的对齐的最小和概率。 HIT的总分在单个HSP的分数上是附加的,然后与预先计算的显着性阈值进行比较。这 span1 过滤器通过单个HSP替换与数据库序列的相同段对齐的多个HSP,具有最高分。因此,MS Blast查询可以包含数百个冗余,退化和部分精确的肽序列候选,并且可以直接导入自动化的输出 德诺维 解释液相色谱串联质谱(LC MS / MS)中获得的多个串联质谱(
      • Hippler M.
      • 石碑e.j.
      • 舍甫琴科A.
      • Suemmchen P.
      • Maroto F.
      • Scigelova M.
      de Novo测序识别Fe缺乏诱导的蛋白质。
      ,
      • 尼姆卡尔斯。
      • LOO J.
      MS序列数据的自动数据库搜索新算法应用识别蛋白质..
      ),纳米电子涂布串联质谱(纳米ES MS / MS)(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • 丽思A.
      • Bork P.
      • 舍甫琴科A.
      纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
      )或基质辅助激光解吸/电离串联质谱(MALDI-MS / MS)(
      • Suckau D.
      • Revemann A.
      • Schuerenberg M.
      • HUFNAGEL P.
      • Franzen J.
      • Holle A.
      用于蛋白质组学的新型Maldi升力-TOF / TOF质谱仪..
      ,
      • Schweiger-Hufnagel U.
      • Lubeck M.
      • Suckau D.
      • muccitelli h.
      • Baessmann C.
      整合新的肽De-Novo测序工具进行复杂数据分析..
      )实验。
      为了简化对MS Blast数据库搜索的输出的分析,开发了解析脚本以根据MS BLAST评分方案进行评估和排序命中。无论其总分比如何(取决于对齐的HSP数量),MS Blass Sense中显着的命中都是颜色编码并放置在输出列表的顶部。使用此解析脚本运行的MS Blast已安装在Web-Accessible服务器(dove.embl-heidelberg.de/blast2/msblast.html.)。
      修改了基于FASTA的算法,如快速和FASTF(
      • 泰勒J.A.
      • 约翰逊R.S.
      通过串联质谱法的自动交配De Novo肽测序的实施与用途。
      ,
      • 黄兰
      • 雅各布r.j.
      • PEGG S.C.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20S蛋白酶组的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法..
      ,
      • Mackey A.J.
      • haystead t.a.j.
      • Pearson W.R.
      从较少的情况下获得更多信息:具有多种短肽序列的快速蛋白质鉴定的算法..
      ),评估原始评分程序和统计显着性标准的命中。尽管灵活性较高(允许堵塞和非映射的对准,但考虑肽序列中的等因素偏转以及其他有用的特征),基于FASTA的搜索软件需要时间激烈的计算,并且随着冗余肽序列候选的数量越来越多的彼吞序序列候选而下降的重要性查询。
      已经成功地应用于爆炸和基于Fasta的方法,以使用由质谱法产生的肽查询的未曲线基因组来鉴定来自生物体的蛋白质。 MS-Shotgun,FAST和MS BLAST对20S蛋白酶体的14个蛋白质的肽序列的小型数据集的比较测试 锥虫瘤布鲁斯群 建议这三个搜索引擎的类似表现(
      • 黄兰
      • 雅各布r.j.
      • PEGG S.C.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20S蛋白酶组的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法..
      ,
      • Mackey A.J.
      • haystead t.a.j.
      • Pearson W.R.
      从较少的情况下获得更多信息:具有多种短肽序列的快速蛋白质鉴定的算法..
      )。
      B. Habermann,S. Sunyaev和A. Shevchenko,未发表的观察。
      2B. Habermann,S. Sunyaev和A. Shevchenko,未发表的观察。
      在最近的一项研究中,MS Blast的序列相似性搜索几乎加倍非洲爪青蛙的鉴定的微管相关蛋白的数量增加了一倍。 Xenopus. laevis. (
      • 丽思A.J.
      • 波波夫A.V.
      • 孙耶夫斯。
      • Coughlin P.
      • 哈德伯班B.
      • 舍甫琴科A.
      • 等等。
      基于同源性的功能蛋白质组学通过质谱:应用于 Xenopus. 微管相关蛋白质组..
      )与传统的数据库搜索方法相比,利用来自数据库条目的肽对未解释的串联质谱匹配的严格跨物种匹配(
      • 库珀B.
      • Eckert D.
      • 安登N.L.
      • yates j.r.
      • Haynes P.A.
      调查蛋白质组学:使用质谱法鉴定来自受感染植物的未知植物病毒..
      )。但是,如果序列相似性识别方法可能对整个蛋白质素的表征产生重大影响,则没有证据。目前尚不清楚数据库中的同源蛋白的序列同一性百分比是鉴定尚未成本未知的蛋白质所必需的。在更广泛的视角下,尚不知道研究的生物与参考生物之间的系统发育距离,其中具有测序基因组的蛋白质组的实质覆盖。同样难以估计通过质谱驱动的序列数据库搜索的鉴定蛋白质的碎片肽的长度和数量是足够的,并且有多准确 德诺维 序列应该是。我们应用计算建模以评估MS Blast方案的潜在蛋白质识别的潜在。我们估计蛋白质鉴定的成功率如何取决于询问蛋白与其数据库中最近同源物之间的全长序列同一性。通过评估蛋白质鉴定对蛋白质组规模的成功率,我们估计了具有完全测序基因组的研究和相关参考生物之间的生物体之间的可接受的系统发育距离。

      实验步骤

       计算机仿真实验 -

      WU-BLAST2程序(24)安装在本地服务器上。从真菌中选择三种物种(sacharomyces cerevisiae., 念珠菌白葡萄酒, 和 Schizosaccharomyces Pombe)脊椎动物(Takifugu Rubripes., 亩肌肉, 和 HOMO SAPIENS.)谱系。在每个谱系的成员之间进行全长Wu-Blast2搜索和MS Blast搜索,从而在同一谱系中搜索来自每个物种的蛋白质数据库(参见 图。1A)。一千个蛋白质 S. Cerevisiae. 来自染色体II,X和XIV,1,000蛋白来自 C.老年人,以及1,000个蛋白质 S. Pombe. 随机选择真菌群体(见 图。1B)。每一个蛋白质 T. Rubripes., M. Musculus., 和 H. Sapiens. 随机选择脊椎动物组。滤除来自蛋白质查询的低复杂性区域 PSEG. (
      • Wootton J.C.
      • Federhen S.
      序列数据库中的合成偏置区域分析。
      )。邻近蛋白质中的查询蛋白质的同源物由在标准设置下进行的Wu-Blast2搜索测定(替换矩阵Blosum62,预计截止1)(
      • altschul s.f.
      • GISH W.
      本地对齐统计信息..
      ,

      GISH,W。(1996)Wu-Blast2.0。 Baster.Wustl.edu

      )使用它们的全长序列,并由特殊排序脚本从输出中获取低于1E-05的e-value的命中。询问蛋白质和检索到的命中之间的序列同一性表示为标准化为查询长度的相同残余物的百分比。为了模拟MS Bast Queries,10个氨基酸残基的肽序列被从蛋白质中随机选择并合并到搜索串中。从肽序列组装含有1,3,5,8,10,15和20个独特肽的疑问 S. Cerevisiae.C.老年人和含有3,8和15个独特肽的疑问组装在一起 S. Pombe. 蛋白质和来自三种脊椎动物。模拟可能的模糊 德诺维 用X符号替换每种肽序列中的一个或两个随机选择的氨基酸残基,其在PAM30MS替代基质中具有0的X符号。使用组装查询进行MS Blast搜索如前所述进行(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      )预计截止值为1,000。为了避免由随机选择的肽作为MS Blast Queries的随机选择,每种蛋白质序列的肽选择重复五次,导致真菌物种的5,000ms爆炸询问和脊椎动物的2,500毫秒的爆炸询问。
      图缩略图GR1.
      Fig. 1评估MS BLAST性能的计算策略。A,对于来自真菌和脊椎动物谱系的选定物种进行跨物种Wu-Blast2和MS Blast搜索。如果是 S. Pombe. (SP), T. Rubripes. (TR), M. Musculus. (mm),和 H. Sapiens. (HS),3,8和15个肽用于MS QUERIES。如果是 C.老年人 (加利福尼亚州)和 S. Cerevisiae. (SC),1,3,5,8,10,15和20个肽。 B,MS BLAST评估的战略。首先,基于MS查询的随机对准来计算阈值,与来自反相的非冗余数据库的序列进行计算。其次,使用来自所选物种的随机取样蛋白来进行MS Blast和全长Blast搜索。第三,通过比较MS Blast获得的同源物通过全长爆炸搜查所识别的同源物来确定MS Blast搜索的真正阳性,假阴性和假阳性击中的百分比。最后,真正阳性击中的百分比与所选物种之间的系统发育距离有关。

       MS BLAST评分矩阵统计学意义的阈值评分计算 -

      为了确定MS Blast命中的统计学意义的阈值,我们基本上分析了未描述的非相关肽序列比对的原始评分(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      )。通过对来自给定数量的肽序列组成的每个查询进行5,000 ms Blast搜索来计算阈值。查询中的肽的数量在1至20的范围内。从10个氨基酸残基肽组装在10轮从1,000轮独特的蛋白质中获得的尿素。搜索MS BLAST查询,用于反转综合的非冗余数据库。从国家生物技术信息中下载了包含1,339,046个条目(644,844,000氨基酸残基)的源数据库(2003年2月),包括1,339,046个条目(644,844,000氨基酸残基)。在Microsoft Excel电子表格中收集了最高点击的分数,并按查询中的肽数以及报告的HSP数量进行排序。对于查询的每种尺寸(范围为1到20个肽),确定阈值分数,使得它们超过了99%的最佳点击(具有给定数量的HSP)的评分。预先计算的阈值分数表可用于补充材料( 表1)。
      阈值分数控制预期的假阳性点击率,但不是假阴性点击率,并且与搜索查询的组成无关。计算来自对反转的综合无偿数据库的搜索阈值,并采用它们来评估针对大量较小物种特定数据库的搜索,提供了MS Blast性能的保守估计。非还原数据库的大样本大小还表示许多已知蛋白质组的“平均”统计特性。

       评估MS BLAST搜索的敏感性和特异性 -

      根据先前描述的MS BLAST评分方案评估命中的重要性(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      ,
      • 舍甫琴科A.
      • 孙耶夫斯。
      • 丽思A.
      • Bork P.
      • 舍甫琴科A.
      纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
      ):对于每个报告的命中,与MS BLAST评分表的单匹配HSP相应的阈值分数进行了比较了排名级HSP的分数。如果得分超过阈值,则被认为是积极识别的命中。如果分数低于阈值,则总结了第一和第二排列的HSP的分数。如果总结得分超过两个匹配的HSP的阈值,则识别是正的。否则,添加第三个排名HSP等程序继续过程。提供了MS BLAST评分方案的应用的实例 表I.。有机体的数据集 M. Musculus.S. Pombe. 可以从中下载 www.mpi-cbg.de/~habermann.。完整的数据集可根据要求提供。
      T有能力的 IMS Blast的真正阳性,假阴性和假阳性识别的例子
      查询蛋白/ MS Blast查询MS Blast Hit.HSPS.MS BLAST评分/结果a全长爆炸(%身份)
      AK002456.1.ID 15391.得分= 64.64 > 59ID 15391.(61%)真正的积极
      查询:67 CehxVngxRP 76积极的
      Vnvxvsaedl-Ceh vgg rp.
      gaftxxsdfl-SBJCT:184 Cehhvngsrp 193
      xegdtprxnk-
      gvynxhvxcl-得分= 51.
      qirdqxsxgs-查询:45 qirdqxsxgs 54
      vxfgedidlp-+ IRDQ S GS
      cehxvngxrp-SBJT:96 eirdqgscgs 105
      YKXeagdxmg.
      得分= 42.
      查询:1 VNVXVSAEDL 10
      + vsaedl.
      SBJCT:127 Isvelsaedl 136
      得分= 41.
      查询:12 GAFTXXSDF 20
      GAFT DF.
      SBJCT:249 Gaftvyedf 257
      得分= 39.
      查询:34 GVYNXHVXC 42
      g y + h + c
      SBJCT:168 Glydshigc 176
      得分= 30.
      查询:78 YKXEAG 83
      雅格
      SBJCT:207 YRCEAG 212
      AK002456.1.ID 15391.得分= 50.50 < 59ID 15391.(61%)假阴性
      查询:56 VNVEXSAEDL 65
      cnkscxaxys-+ ve saedl.
      Agrnfyxxdi-SBJCT:127 Isvelsaedl 136
      Xsysvsxsvk-
      xlggpklpgr-得分= 37.50 + 37.< 99
      EDIDLPXTFD- 查询:12 Agrnf 16
      vnvexsaedl-agrnf.
      Ykhxagxmmg-SBJCT:41 Agrnf 45
      lpgxvafxed.
      得分= 35.50 + 37.+ 35< 131
      查询:24 SYSVS 28
      SYSVS.
      SBJCT:227 SYSVS 231
      得分= 34.50 + 37.+ 35+ 34< 167
      查询:37 GPKLP 41消极的
      GPKLP.
      SBJCT:63 GPKLP 67
      BAB31737.1.ID 13094.得分= 60.60 > 59没有命中假阳性
      查询:56 LFVSFLXRAL 65积极的
      wxtfgltdtn-lfvsf + ra +
      xplscslllv-SBJCT:137 LFVSFILAI146
      xtgxlglnla-
      xqlitqakqt-
      gpmxklvxkl-
      lfvsflxral-
      sflnraxrtd-
      xqltlalxsa.

       估计进化距离 -

      为了评估进化距离,基于线粒体小亚基核糖体RNA的序列,为真菌和脊椎动物谱系构建系统发育树。使用Clustalx程序构建多个序列对齐(
      • 汤普森J.D.
      • 吉布森T.J.
      • Plewniak F.
      • Jeanmougin F.
      • 希金斯D.G.
      Clustal X Windows接口:由质量分析工具提供的多个序列对齐的灵活策略。
      )。物种之间的进化距离是使用从Phylip包中的程序DNAdist计算的进化距离(

      Felsenstein,J.(1993)Phylip(Phylogy Iscerifics Package)v 3.5c.evoling.genetics.washington.edu/phylip

      )。

      结果和讨论

       MS Blast识别的敏感性 -

      我们对跨物种蛋白质鉴定的MS Blast性能感兴趣,所述肽查询由串联质谱(MS查询)产生的肽查询。序列相似性搜索的蛋白质鉴定的成功率取决于分析的蛋白质的分子特性,分析的蛋白质与其在数据库中的同源物之间的进化节约,以及所用的分析方法(
      • 莱斯特P.J.
      • 哈贝德S.J.
      蛋白质组学中杂交鉴定完整蛋白质谱和蛋白质参数的对比生物信息分析。
      )。许多这些因素都很清楚,无法在构建数据集时直接控制。为了创建充分模拟MS查询的数据集,我们首先产生一组充分代表模型生物体的整个蛋白质组的一组蛋白质序列。其次,从该组蛋白质中,我们产生了MS查询,其与通常通过解释串联质谱而获得的肽序列非常类似的肽序列。
      我们使用随机选择蛋白质序列,以在给定生物体的整个蛋白质组内统计上均匀的数据集。我们注意到流行的计算方法,例如 引导蒙特卡洛 对代表性和无偏见的采样非常敏感,还基于随机选择数据(
      • 贝尔W.
      )。该软件从每种脊椎动物种类的三种真菌物种和500种蛋白质中随机取样1000个蛋白质。采样策略在数据集上验证 S. Cerevisiae. 蛋白质(来自其他物种的数据集是类似的)。为此,我们首先计算了蛋白质的长度的分布 S. Cerevisiae. 数据集将其与整个芽酵母蛋白质组中蛋白质长度的分布相比,发现这些分布重叠在边缘±3%(图1S A 在补充材料中)。接下来,我们使用来自的全长序列进行BLAST2P搜索 S. Cerevisiae. 数据集完整的蛋白质组 C.老年人。在每个搜索中,将顶部命中获取,并将其序列的序列的百分比百分比提取,并且序列的序列 S. Cerevisiae. 计算蛋白质。分享给定百分比的序列鉴定的萌芽酵母蛋白的百分比 C. Abicans. 绘制同源物。在单独的实验中,所有来自蛋白质组的蛋白质 S. Cerevisiae. 搜索完整的蛋白质组 C.老年人。这两个实验的结果表明,在±5%的边缘内重叠的两个分布(图1S B 在补充材料中)。因此,我们得出结论,由大量蛋白质的随机抽样构建的数据集合理地代表了物理化学特性和模型生物蛋白质蛋白质序列的进化守恒。
      测序的肽数量 德诺维 通过串联质谱法在实验之间变化很大;然而,如果分析的蛋白质在低皮质摩尔水平上很少超过20(
      • Lingner J.
      • 休斯。
      • 舍甫琴科A.
      • Lundblad V.
      • CECH T.R.
      在端粒酶的催化亚基中逆转录酶基序..
      )。因此,使用包含1且最多20个独特肽的MS查询进行计算,该肽从蛋白质数据集的序列中随机取出。每个独特的肽由10个氨基酸残基组成,其接近胰蛋白酶肽的平均长度。我们进一步推动了这一点 德诺维 串联质谱的解释通常不会呈现完全准确的肽序列,而是产生完全序列变体,其中氨基酸残基的相容性同伴组合填充序列间隙。所有这些序列变体都可以包含在MS Blast查询中而不影响蛋白质鉴定的置信度,如上所述。因此,模仿有限的准确性 德诺维 测序,我们通过零批量X符号随机替换每种肽序列中的一个或两个氨基酸残基。这代表了一种现实的情景,其假设对于每个碎片的前体,即使最准确的候选序列仍包含两个假氨基酸残基(
      • 陈R.H.
      • 舍甫琴科A.
      • 默里A.W.
      主轴检查点蛋白XMAD1招募XMAD2到未附加的Kinetochores ..
      ,
      • 艾奥尔斯。
      • Lingner J.
      • Goodrich K.J.
      • grosshans c.a.
      • 舍甫琴科A.
      • CECH T.R.
      Euplotes端粒酶含有由明显的平移式框架产生的La Motif蛋白。
      )。
      然后将查询用于对同一系统发育谱系的两种剩余物种的蛋白质数据库进行爆炸搜索(Fig. 1)。为了鉴定其他生物中的同源蛋白质,我们进行了Blast搜索与产生MS Blast查询的蛋白质的全长序列。在全长BLAST搜索中,1E-05的电子值被用作截止阈值,从而忽略了具有更高电子值的所有点击。通过重新检查全长爆炸搜查的产出,我们估计总共超过90%的击中的E值低于1E-20并得出结论,全长爆炸击中均有统计学意义。
      基因通常在进化期间成倍增加。例如,单个基因 S. Cerevisae. 可能有两个或更多同源物 S. Pombe. (
      • aravind l.
      • Watanabe H.
      • Lipman D.J.
      • koonin e.v.
      真核生物中功能链接基因的谱系特异性损失和分歧。
      ),其分享其序列的实质性并显示类似的结构域。因此,如果全长爆炸搜索达到多于一种蛋白质,则对应于这些蛋白质中的相应MS Blast查询的自信匹配被认为是阳性鉴定。从如上所述进行的全长BLAST搜索收集来自另一个生物的询问蛋白与来自另一个生物的同源蛋白质之间的全长序列同一性的百分比。标准化为询问蛋白的长度。
      仅当根据MS BLAST评分计划符合意义标准时,MS BLAST命中才被视为阳性(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • 舍甫琴科A.
      • Bork P.
      • 站立K.G.
      用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
      ,
      • 舍甫琴科A.
      • 孙耶夫斯。
      • 丽思A.
      • Bork P.
      • 舍甫琴科A.
      纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
      )。提供了一些典型的例子 表I.。在第一示例中,从小鼠蛋白AK002456.1从肽组装MS Blast查询。 MS BLAST搜索确定了一个 T. Rubripes. 蛋白质(ID 15391)六个肽中的六个肽作为HSP报告。 MS BLAST评分方案忽略了电子值, p 单个HSP的值和位分数。相反,将它们的原始分数与预先计算的意义阈值进行比较,这取决于对齐的HSP的数量和查询中的独特肽的数量(参见“实验过程”的详细信息。提供预先计算的阈值分数列表在补充材料的表1中)。首先,将顶级HSP(在该示例中,64中)的分数与单对准HSP(59)的阈值分数进行比较。由于64比59大​​,蛋白质被肯定鉴定,甚至不需要考虑其他报告的HSP。在第二个例子中 表I.,由来自同一小鼠蛋白的另一种选择的肽组成的查询达到相同的蛋白质 T. Rubripes.。顶部HSP(50)的得分低于单对准HSP(59)的阈值分数。因此,考虑了两种最高评分HSP的对准。它们的添加剂评分(50 + 37 = 87)也低于两个对准的HSP的阈值分数(99)。因为添加剂得分为三个HSP(50 + 37 + 35<131)和四个HSP(50 + 37 + 35 + 34 <167)也没有超过相应的阈值,在这种情况下认为鉴定为阴性。在相同的评分方案之后,在第三示例中,来自小鼠蛋白Bab31737.1的八种肽的查询通过单报告的HSP阳性鉴定蛋白质ID 13094(60>59),尽管没有其他肽对齐。我们注意,在MS Blast Web界面(见上文),通过特殊脚本执行相同的评分过程。
      我们进一步将MS Blast识别的结果与全长爆炸搜索结果进行了比较。使用蛋白质AK002456.1的完整序列的爆炸搜索还鉴定了蛋白质ID 15391,并且报道了61%的序列同一性。因此,第一示例中的MS Blast识别被认为是“真正的阳性”,因为蛋白质ID 15391由MS Blast和全长爆炸搜索鉴定。第二个例子被认为是“假阴性”,因为全长爆炸识别在数据库中的同源蛋白质,但MS Blast未能这样做。在第三种情况下,MS BLAST自信地识别了数据库中的ID 13094,但该蛋白质不是全长爆发搜索的命中,并且这种BLAST识别被认为是“假阳性”。
      我们调查了MS Blast的真阳性,假阴性和假阳性鉴定率之间的关系,同源蛋白质之间的总序列同一性以及查询中的肽数量(Fig. 2)。只有一小部分的命中是假阳性,通常不超过所有查询蛋白的3%(图2A),符合从计算阈值分数的计算方法预期的1%误报的一致性。在具有少量肽的查询中观察到大多数假阳性的命中,并且它们的百分比随着查询和数据库序列之间的序列标识而下降。假阴性击中的百分比通常在0到40%之间,并且随着序列同一性或询问肽的数量增加,该数量减少( 图。2B)。尽管假阴性击中的最大速率似乎相当高,但考虑到基于查询蛋白的整个长度计算相同残留物的百分比并不令人惊讶。两个蛋白质可能共享单个域或显示足够高的相似性,以通过全长爆炸搜索识别。在局部序列相似之处的情况下,相同的残基的百分比对查询的长度的百分比显着降低了整体标识。在MS Blast搜索中,查询中的肽可能不会与查询和命中之间的相似区域不一致。随着Query中的独特肽数量的增加,MS Blast搜索的敏感性几乎达到了与数据库中的同源物共享了蛋白质的全长Blast搜索的敏感性。虽然假阴性的峰值可能与仅包含一个肽的序​​列的序列同一性的90%,但是当使用20个输入肽时,它以大约40%的同一性达到峰值。真正积极点击的百分比稳步增长了序列标识的百分比或查询的大小(图2C.)。使用三种肽作为输入,只有在90%至100%序列标识之间共享时才能识别100%的蛋白质,并且需要60%的序列同一性来识别超过一半的输入查询。在八种肽的情况下,50%序列同一性足以鉴定超过50%的输入查询。因此,安全假设MS Blast搜索将错过很少的命中,一旦数据库中的同源物的序列同一性超过60%,就会错过很少的命中。虽然这种估计可能看起来不太令人兴奋,但我们注意到超出了严格数据库搜索的范围,因为蛋白质序列中的三种氨基酸残基的平均仅与同源蛋白质的序列不同。我们注意到,当在查询中组装15个肽时,MS Blast识别的成功率几乎达到其最大值,并且进一步增加了测序肽的数量(例如,最多20个肽)并未基本上提高其性能。
      图缩略图GR2.
      Fig. 2MS Blast的假阳性,假阴性和真正阳性识别的分布。 MS Blast查询的百分比被确定为假阳性,假阴性和真正的积极点击(在 y-axes)与组成MS Blast查询的蛋白质序列之间的百分比同一性有关,并且通过全长爆炸搜索确定其同源物的序列(在 x-axes)。在MS Blast查询中针对不同数量的肽进行计算。 A,MS BLAST搜索的假阳性点击。 B,MS Blast搜索的假阴性点击。 C,MS BLAST搜索的真正积极命中。用文件组成的查询搜索结果 S. Cerevisiae. 肽对抗 C.老年人 呈现蛋白质组。
      我们接下来询问了MS Blast搜索中真正阳性,假阴性和假阳性点击的百分比是否会根据有机体之间的蛋白质组序列相似性而不同。为此,我们从脊椎动物中选择了500种蛋白质 T. Rubripes., M. Musculus., 和 H. Sapiens. 并重复如上所述的计算机仿真实验。如图所示 图3,A-D,最值得的差异是假阴性点击的数量。脊椎动物谱系中,假底片的百分比从未超过20%(图3,C和D.),真菌物种中的两倍(图3,A和B.)。这同意所选蛋白质素之间的总体相似性差异。例如,人和小鼠之间具有少于40%的序列同一性的蛋白质数量与真菌物种相比相当较小(见 图5A)和与观察到的假阴性识别率相关联。此外,人类,小鼠和鼠标之间密切相关蛋白质的相似性 T. Rubripes. 更有可能涵盖整个序列,而在真菌谱系中通常限于全序列的一段。
      图缩略图GR3.
      Fig. 3不同组合的假阳性,假阴性和真正阳性百分比的比较分析。A, S. Cerevisiae. 搜查 C.老年人. B, C.老年人 搜查 S. Pombe.. C, T. Rubripes. 搜查 H. Sapiens.. D, M. Musculus. 搜查 H. Sapiens.。主要区别在于真菌和脊椎动物搜索的假阴性百分比:真菌谱系中的假阴性的数量是脊椎动物物种之间发现的两倍。 广场, 误报; 钻石,假阴性; ,真正的积极态度; 绿色,3个肽; 蓝色的,8个肽; 红色的,15个肽。
      图缩略图GR5.
      Fig. 5MS Brest对物种影响距离的真阳性鉴定的关系。 MS Blast搜索的真正阳性标识的百分比取决于与下一个完全测序的基因组的距离。 A,蛋白质组的分歧是基于所选物种之间的不同序列的百分比估计。 B,MS BLAST的总成功率相关的相关性对数据集中不同序列的百分比。 C基于线粒体小亚基核糖体RNA的MS BLAST的总成功率与MS BLAST的总成功率的相关性。这 R2 表示趋势线拟合的价值。

       MS BLAST搜索蛋白质组规模 -

      我们接下来希望了解所选物种的蛋白质蛋白质蛋白质蛋白质部分的部分,无论同源序列之间的分歧率如何,都可以鉴定所选物种的蛋白质组。因此,我们计算了MS Blast的真正阳性识别的百分比,这取决于输入查询中的独特肽的数量。在真菌谱系中( S. Pombe., C.老年人, 和 S. Cerevisiae.),MS Blast可以识别少于30%的查询蛋白,即使使用15个独特的肽作为MS查询(图4,A和B.)。脊椎动物的MS Blast成功率明显高于(T. Rubripes., M. Musculus., 和 H. Sapiens.)(图4,C和D.)。使用每次查询的三种肽,MS Blast可以匹配超过60% M. Musculus. 蛋白质对人序列(图4D))和80%的疑问可以用15个询问的肽鉴定。尽管如此,当鼠标MS查询被搜查时,发现了50%的真实阳性 T. Rubripes. proteome (图4C.)。我们的模拟表明,在脊椎动物中,或者更确切地说,哺乳动物亚克文中,全部蛋白质群可以被MS Blast覆盖。我们推测鉴定各种哺乳动物蛋白质可能不需要进一步了解基因组的知识,但可以根据已经可用的序列资源获得,但蛋白质谱的注释的完整性是无疑的一个重要因素。寻找小鼠蛋白的数据库,即使在查询中有15个独特的肽,真正阳性人类命中的百分比降至50%以下(图4E.),与反向超过80%的相比,显然是因为当前的小鼠蛋白数据库比来自人类的当前数据库不太完整。不能通过对小鼠的序列相似性搜索不能鉴定相当大的人蛋白质,因为鼠同性恋目前在小鼠蛋白质数据库中不存在。改进的基因组序列的注释可能在不久的将来解决这个问题。 MS Blast搜索仍然可以通过针对表达的序列标签数据库识别大多数缺失的蛋白质。 MS Blast可以使用TBLASTN程序应用于搜索DNA数据库。因为在这种情况下匹配的序列也依赖于蛋白质序列,所以对肽抗蛋白质匹配的阈值评分将有效。与此同时,真菌谱系内的MS Blast性能不太令人鼓舞,并且无法大幅提高。我们的模拟表明,绝大多数真正的击中与来自最相关物种的蛋白质相匹配。例如,当查询时,成功率几乎不变 C.老年人 搜查蛋白质与密切相关的生物体 S. Cerevisiae. 或针对完整的非冗余数据库(数据未显示)。因此,通过从远处相关物种合并序列来扩大数据库的大小不会补偿缺乏与密切相关的物种的蛋白质。
      图缩略图GR4.
      Fig. 4MS Blast搜索蛋白质横鉴定的性能。 肽的数量与假阳性百分比有关(绿色),假阴性(蓝色的MS Blast识别的真正阳性(红色)命中率。 A, S. Cerevisiae. 搜查 C.老年人. B, S. Cerevisiae. 搜查 S. Pombe.. C, M. Musculus. 搜查 T. Rubripes.. D, M. Musculus. 搜查 H. Sapiens.. E, H. Sapiens. 搜查 M. Musculus..

       基于系统发育距离的MS BLATE识别成功率的预测 -

      我们进一步估计,MS Blast在其与具有完全测序的基因组的最近相关的生物体的距离的距离可以被MS Blast覆盖哪些蛋白质体。系统发育分析通常基于保守的RNA或蛋白质家族的序列的多序列比对,例如线粒体小亚基核糖体RNA或细胞色素 c (
      • doolittle w.f.
      系统发育分类和通用树..
      ),两者通常可用于各种各样的物种。研究与完整基因组的参考生物体的生物的系统发育位置有助于预测蛋白质组学研究的平均成功率。估计蛋白质Omes之间分歧率的另一种方法是确定它们含有的异种序列的量。换句话说,两种生物蛋白质之间的平均差异越高,它们的蛋白质素越多。我们与MS Blast的蛋白质鉴定的总成功率与基于线粒体小亚基核糖体RNA的对齐和系统发育距离之间的不同序列的百分比。为了估算蛋白质素的分歧,我们计算了异种序列的百分比(IE。,低于20%的序列标识)在我们的数据集中存在(图5A)。小鼠和人蛋白质蛋白质伴随(含有少于10%的不同序列),而对于真菌物种,我们数据集中的近一半的蛋白质被认为是不同的。例如,在酵母中 S. Cerevisiae.S. Pombe. 超过60%的选定序列落入了这一类。 MS Blast成功率与蛋白质Om的分歧的相关性显示出〜80%鉴定的蛋白质,在小鼠和人的情况下,低于萌芽和裂变酵母的蛋白质的指数下降( 图5B.)。然而,对于许多生物体,可用序列的缺乏能够通过使用蛋白质素的分歧来实现与完全测序的基因组的与其最近邻居的距离进行计算。在这些情况下,可以通过核糖体RNA或细胞色素的系统发育分析来估算相邻生物之间的距离 c。我们对真菌和脊椎动物谱系进行了线粒体小亚基核糖体RNA系列的系统发育分析。我们估计了模型物种之间的系统发育距离,并将其相关联于MS Blast识别的蛋白质组的成功率(图5C.)。基于线粒体12S rRNA的系统发育分析,人类基因组是最接近的完成基因组 M. Musculus. 基因组,具有0.32的系统发育距离。在该范围内,MS Bress鉴定超过60%的蛋白质,以少于三种肽序列,并且在查询中有15个肽序列超过80%。同时,距离约1.0左右的生物之间的序列相似性识别变得有问题。所选真菌物种 C.老年人, S. Cerevisiae., 和 S. Pombe. 所有距离接近1.0,平均只有30%的蛋白质即使在查询中有15个肽也可以匹配。由于增加了15次溃疡肽的数量没有提高成功率,因此我们推理〜0.5的系统发育距离代表了至少50%的未知蛋白质组的可靠覆盖率的合理限制。然而,应该谨慎对待这种估计,因为在整个蛋白质组上计算的成功率可能不适用于识别不同蛋白质家族的成员,因为他们的保护强烈不同。
      通过质谱法对蛋白质的统计学鉴定并不一定意味着生物功能的直接,明确和准确的分配。通常通过将几个MS / MS肽光谱与数据库中的蛋白质序列匹配来鉴定蛋白质,并且没有提供关于发生逃逸碎片的肽的可靠信息。通常质谱鉴定只能指向同一生物内的基因(或相关基因家族),而不是鉴定独特的蛋白质产品(
      • Rappsilber J.
      鉴定蛋白质组学中的蛋白质是什么意思?
      )。序列相似度标识也是如此。基于同源性的识别仅暗示数据库中查询和序列中的肽序列之间的统计上显着的相似性。然而,该观察结果的功能意义取决于许多间接因子,例如匹配肽的数量或用相同或相似的肽序列鉴定的蛋白质的功能多样性。虽然识别有助于制定合理的工作假设,但是蛋白质可能的功能,最终的证据总是依赖于明确的生物实验(
      • Roguev A.
      • 舍甫琴科A.
      • 谢夫D.
      • 托马斯H.
      • Stewart a.f.
      • 舍甫琴科A.
      酵母中蛋白质组学环境的比较分析 S. Cerevisiae. and.
      )。我们注意到,即使同源蛋白的全长序列是可用的(例如,来自克隆实验),它们的功能仍然可能不受自信地建立(
      • aravind l.
      • Watanabe H.
      • Lipman D.J.
      • koonin e.v.
      真核生物中功能链接基因的谱系特异性损失和分歧。
      ,
      • 罗斯特B.
      酶活性比预期的保守时间不那么保守..
      )

      结论与观点

      生物信息学和质谱中的最新发展有效地争论了常见的观念,即生物体的完整基因组的可用性是通过质谱法成功表征其蛋白质组的最终先决条件。序列相似性搜索扩展了蛋白质组学的范围,超出了基因组测序的边界,弥合了富序列信息的生物之间的空隙。在哺乳动物次阶内,通过序列相似性搜索可以肯定地鉴定超过80%的蛋白质,因为正交蛋白质共享实质性序列同一性。考虑到脊椎动物和人,小鼠,Fugu和斑马鱼基因组之间的系统发育相关性,应该已经可以覆盖该谱系的大多数蛋白质。基因组的可用性 拟南芥蒂利亚纳, Zea Mays., 奥雅萨苜蓿, 和 Tritium Aestivum.目前正在测序,将推进许多经济上重要的植物中的蛋白质组学。然而,序列相似性搜索的成功率将不可避免地较少,因为早期发散的谱系,例如真菌,以及进一步的基因组或表达的序列标签测序效果将通过质谱法开采它们的蛋白质体。
      MS Blast,而不是快速和快速,最大化原始评分,而不是最小化对准的最小的总和概率。与计算的对准的e值相反,MS BLAST使用的原始评分不受冗余和/或假肽序列的影响。 MS Blast通过串联质谱法使高通量鉴定“未知”蛋白质,因为对光谱和可靠肽序列的光谱的非常精确的解释是不再需要的。但是,准确 德诺维 测序对于克隆新基因仍然很重要(
      • Uttenweiler -Joseph S.
      • Neubauer G.
      • Christoforidis S.
      • Zerial M.
      • 威尔m。
      使用差示扫描技术自动化蛋白质的Novo测序..
      )在数据库中没有密切的同源物。
      MS Blast等搜索算法的力量如何扩展到更远方相关的生物?可以通过在自上而下的方法中分离繁殖的大蛋白质片段或甚至完整的蛋白质来推导较长的序列延伸,或者以自上而下的方法(在REF中审查。
      • 站立K.G.
      肽和蛋白质de Novo测序通过质谱法测序..
      )或使用高级LC MS / MS组合增加测序肽的数量(
      • 布鲁斯J.E.
      • 安德森G.A.
      • Harkewicz R.
      • 史密斯r.d.
      来自ESI-FTICR质谱的酶消化牛血清白蛋白的高质量测量精度和100%序列覆盖。
      )。傅立叶变换质谱技术的最新进展(参考文献综述
      • Aeberberold R.
      基于质谱的蛋白质组学..
      )对蛋白质组学中的自上而下和自下而上的蛋白质表征方法的性能产生了强烈影响,我们也可能预期从具有完全测序的基因组的生物体的物种的蛋白质可以表征高灵敏度和产量。

      致谢

      我们感谢David Drechsel,Wolfgang Zachariae,Judith Nicholls(Max Planck Cell生物学和遗传学研究所,德累斯顿,德国德累斯顿,欧洲分子生物实验室,海德堡,德国),以批判读取手稿和有用的讨论。

      补充材料

      参考

        • 格里芬T.J.
        • Aeberberold R.
        质谱法蛋白质组分析研究进展..
        J. Biol。化学。 2001; 276: 45497-45500
        • Hendrickson R.C.
        • Pandey A.
        质谱法分析蛋白质和蛋白质蛋白。
        安努。 Rev. Biochem。 2001; 70: 437-473
        • yates 3rd,J.R.
        质谱。从基因组学到蛋白质组学..
        趋势类型。 2000; 16: 5-8
        • Aeberberold R.
        基于质谱的蛋白质组学..
        自然。 2003; 422: 198-207
        • 丽思A.J.
        • 舍甫琴科A.
        与蛋白质组学中的数据库询问策略相结合质谱。
        趋势肛门。化学。 2003; 22: 291-298
        • Fenyo D.
        识别蛋白质组:软件工具..
        Curr。拍摄。 Biotechnol。 2000; 11: 391-395
        • 克劳瑟K.R.
        • 贝克P.
        • 伯灵名A.L.
        精确质量测量(+/- 10 ppm)在采用MS或MS / MS和数据库搜索的蛋白质识别策略中的作用..
        肛门。化学。 1999; 71: 2871-2882
        • 丽思A.J.
        • 舍甫琴科A.
        扩大蛋白质组学的组织范围:质谱法识别跨物种蛋白质鉴定及其含义..
        蛋白质组学。 2003; 3: 19-28
        • 舍甫琴科A.
        • 切尔诺什瓦思。
        • 威尔m。
        通过纳米电气喷雾串联质谱法从凝胶消化蛋白回收的肽的“de nogo”测序。
        摩尔。 Biotechnol。 2002; 20: 107-118
        • McNagny K.M.
        • Petterson I.
        • 罗西F.
        • Flamme I.
        • 舍甫琴科A.
        • 格拉夫T.
        血小素,一种新的细胞表面蛋白,其定义血小板和多能造血祖细胞。
        J.细胞Biol。 1997; 138: 1395-1407
        • Lingner J.
        • 休斯。
        • 舍甫琴科A.
        • Lundblad V.
        • CECH T.R.
        在端粒酶的催化亚基中逆转录酶基序..
        科学。 1997; 276: 561-567
        • 陈R.H.
        • 舍甫琴科A.
        • 默里A.W.
        主轴检查点蛋白XMAD1招募XMAD2到未附加的Kinetochores ..
        J.细胞Biol。 1998; 143: 283-295
        • 艾奥尔斯。
        • Lingner J.
        • Goodrich K.J.
        • grosshans c.a.
        • 舍甫琴科A.
        • CECH T.R.
        Euplotes端粒酶含有由明显的平移式框架产生的La Motif蛋白。
        Embo J. 2000; 19: 6230-6239
        • 泰勒J.A.
        • 约翰逊R.S.
        通过串联质谱法的自动交配De Novo肽测序的实施与用途。
        肛门。化学。 2001; 73: 2594-2604
        • 舍甫琴科A.
        • 孙耶夫斯。
        • Loboda A.
        • 舍甫琴科A.
        • Bork P.
        • 站立K.G.
        用Maldi-Quadrupole飞行时间质谱和爆炸同源搜索的未曲调基因组与未曲线基因组的蛋白质组。
        肛门。化学。 2001; 73: 1917-1926
        • 黄兰
        • 雅各布r.j.
        • PEGG S.C.
        • Baldwin M.A.
        • 王C.C.
        • 伯灵名A.L.
        • 巴比特P.C.
        20S蛋白酶组的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法..
        J. Biol。化学。 2001; 276: 28327-28339
        • Mackey A.J.
        • haystead t.a.j.
        • Pearson W.R.
        从较少的情况下获得更多信息:具有多种短肽序列的快速蛋白质鉴定的算法..
        摩尔。细胞。蛋白质组学。 2002; 1: 139-147
        • 舍甫琴科A.
        • 孙耶夫斯。
        • 丽思A.
        • Bork P.
        • 舍甫琴科A.
        纳米电气喷雾串联质谱与序列相似性寻找鉴定生物体蛋白质与未知基因组的鉴定。
        meth。摩尔。 BIOL。 2002; 211: 221-234
        • altschul s.f.
        • Madden T.L.
        • Schaffer A.A.
        • 张继夫
        • 张Z.
        • 米勒W.
        • Lipman D.J.
        Papped Blast和Psi-Blast:新一代蛋白质数据库搜索程序..
        核酸RES。 1997; 25: 3389-3402
        • Pearson W.R.
        • Lipman D.J.
        改进的生物序列比较工具..
        Proc。 Natl。阿卡。 SCI。美国。 1988; 85: 2444-2448
        • altschul s.f.
        • GISH W.
        本地对齐统计信息..
        方法酶。 1996; 266: 460-480
        • Pearson W.R.
        • 木头t.
        • 张Z.
        • 米勒W.
        DNA序列与蛋白质序列的比较。
        基因组学。 1997; 46: 24-36
        • PEVZNER P.A.
        • mulyukov z.
        • Dancik V.
        • 唐c.l.
        数据库搜索效率通过质谱法识别突变和改性蛋白质。
        Genome Res。 2001; 11: 290-299
      1. GISH,W。(1996)Wu-Blast2.0。 Baster.Wustl.edu

        • Hippler M.
        • 石碑e.j.
        • 舍甫琴科A.
        • Suemmchen P.
        • Maroto F.
        • Scigelova M.
        de Novo测序识别Fe缺乏诱导的蛋白质。
        Proc。第51个ASMS CONF。质谱。和盟军主题,蒙特利尔,加拿大。 2003; (抽象WPO-254)
        • 尼姆卡尔斯。
        • LOO J.
        MS序列数据的自动数据库搜索新算法应用识别蛋白质..
        Proc。第50岁的asms conf。质谱。和盟军主题,奥兰多佛罗里达州。 2002; (摘要TPL 334.)
        • Suckau D.
        • Revemann A.
        • Schuerenberg M.
        • HUFNAGEL P.
        • Franzen J.
        • Holle A.
        用于蛋白质组学的新型Maldi升力-TOF / TOF质谱仪..
        肛门。生物丹纳尔。化学。 2003; 376: 952-965
        • Schweiger-Hufnagel U.
        • Lubeck M.
        • Suckau D.
        • muccitelli h.
        • Baessmann C.
        整合新的肽De-Novo测序工具进行复杂数据分析..
        Proc。第51个ASMS CONF。质谱。和盟军主题,蒙特利尔,加拿大。 2003; (摘要TPA-001)
        • 丽思A.J.
        • 波波夫A.V.
        • 孙耶夫斯。
        • Coughlin P.
        • 哈德伯班B.
        • 舍甫琴科A.
        • 等等。
        基于同源性的功能蛋白质组学通过质谱:应用于 Xenopus. 微管相关蛋白质组..
        蛋白质组学。 2004; (在新闻)
        • 库珀B.
        • Eckert D.
        • 安登N.L.
        • yates j.r.
        • Haynes P.A.
        调查蛋白质组学:使用质谱法鉴定来自受感染植物的未知植物病毒..
        J.IM。 SOC。质谱。 2003; 14: 736-741
        • Wootton J.C.
        • Federhen S.
        序列数据库中的合成偏置区域分析。
        方法酶。 1996; 266: 554-571
        • 汤普森J.D.
        • 吉布森T.J.
        • Plewniak F.
        • Jeanmougin F.
        • 希金斯D.G.
        Clustal X Windows接口:由质量分析工具提供的多个序列对齐的灵活策略。
        核酸RES。 1997; 25: 4876-4882
      2. Felsenstein,J.(1993)Phylip(Phylogy Iscerifics Package)v 3.5c.evoling.genetics.washington.edu/phylip

        • 莱斯特P.J.
        • 哈贝德S.J.
        蛋白质组学中杂交鉴定完整蛋白质谱和蛋白质参数的对比生物信息分析。
        蛋白质组学。 2002; 2: 1392-1405
        • 贝尔W.
        概率论及其应用介绍。 约翰瓦里& Sons, Inc., 纽约1966
        • aravind l.
        • Watanabe H.
        • Lipman D.J.
        • koonin e.v.
        真核生物中功能链接基因的谱系特异性损失和分歧。
        Proc。 Natl。阿卡。 SCI。美国。 2000; 97: 11319-11324
        • doolittle w.f.
        系统发育分类和通用树..
        科学。 1999; 284: 2124-2129
        • Rappsilber J.
        鉴定蛋白质组学中的蛋白质是什么意思?
        趋势生物化学。 SCI。 2002; 27: 74-78
        • Roguev A.
        • 舍甫琴科A.
        • 谢夫D.
        • 托马斯H.
        • Stewart a.f.
        • 舍甫琴科A.
        酵母中蛋白质组学环境的比较分析 S. Cerevisiae. and.
        S. Pombe。摩尔。细胞。蛋白质组学。 2004; 3: 125-132
        • 罗斯特B.
        酶活性比预期的保守时间不那么保守..
        J.Mol。 BIOL。 2002; 318: 595-608
        • Uttenweiler -Joseph S.
        • Neubauer G.
        • Christoforidis S.
        • Zerial M.
        • 威尔m。
        使用差示扫描技术自动化蛋白质的Novo测序..
        蛋白质组学。 2001; 1: 668-682
        • 站立K.G.
        肽和蛋白质de Novo测序通过质谱法测序..
        Curr。拍摄。结构。 BIOL。 2003; 13: 595-601
        • 布鲁斯J.E.
        • 安德森G.A.
        • Harkewicz R.
        • 史密斯r.d.
        来自ESI-FTICR质谱的酶消化牛血清白蛋白的高质量测量精度和100%序列覆盖。
        肛门。化学。 1999; 71: 2595-2599