广告

注释人类蛋白质组

  • 桑德拉果园
    一致
    应解决对应的通信:Embl-欧洲生物信息学院,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,英国。电话:44-(0)-1223 494-675
    隶属关系
    Embl-欧洲生物信息学院,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,英国
    搜索本作者的文章
  • Henning Hermjakob.
    隶属关系
    Embl-欧洲生物信息学院,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,英国
    搜索本作者的文章
  • rolf apweiler.
    隶属关系
    Embl-欧洲生物信息学院,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,英国
    搜索本作者的文章
      人类基因组的完成使注意力从解密到编码组分的识别和表征的序列。蛋白质组的鉴定和功能注释在此具有特殊兴趣,并以鉴定基因和转录物的鉴定,作为蛋白质组注释的先决条件。基因预测在预测基因组中的大部分外显子方面非常强大,但已知和新基因的可靠基因结构预测取决于现有的转录物和蛋白质信息。许多人类蛋白质的功能已经存在大量数据,但这散落在许多资源上。公共域数据库需要管理和将此信息管理和整理并以人类和机器可读方式呈现给用户社区。
      2004年11月,一篇文章出版了 自然 通过国际人类基因组测序中心宣布整理人类基因组测序(
      • Stein L.D.
      人类基因组:开始的结束。
      )。已发表的序列覆盖了99%的欧洲基因组,仅包含341个间隙。这种令人难以置信的成就被誉为在未来几十年中作为生物医学研究的基础,但在实践中,仅仅是重复的途径的第一步,可以破译人细胞蛋白质组含量的复杂性。
      为了充分了解人类蛋白质组的工作,科学家必须首先能够鉴定这些区域编码的基因组和蛋白质的氨基酸序列中包含的每种蛋白质编码区。除了这一基本信息之外,还需要组装难以置信的元数据。例如,必须鉴定触发这些蛋白质表达的信号,实际观察和编目的实际蛋白质表达。随后的基因表达持续时间随着因素可以控制其最终抑制,MRNA转录物的稳定性以及它们被翻译成蛋白质产品的速率也必须是已知的并且理解。应鉴定蛋白质的每个潜在部位,对这些修改进行的条件并理解其生物学意义。每种蛋白质分子的生物学功能需要与这种细胞类型一起依次依次编目,其中在其表达的细胞类型和细胞生命周期内的时间位置。分子间相互作用的显着性每种蛋白质与其他蛋白质,脂质和核酸也需要在时间和功能水平中理解,并且结合了细胞内细胞内途径和过程的知识。
      所有这些信息不仅需要生成所有这些信息,而且此任务目前正在世界各地的实验室中解决,但是,需要以一种方式进行整理,注释和存储,使其能够容易地访问任何人对该领域的兴趣。虽然这些数据的许多数据已经在发布的文献中已经提供,并且正在添加到每个日记问题中,但潜在的用户应该面临令人生畏的任务,他们是否希望搜索关于特定基因产品的信息并将其与与之相关的信息进行比较其他相关序列。为了协助此任务,存在公共域数据库以收集此信息并将其愈合到类似的标准,允许在各个记录中轻松进行比较,同时允许用户访问原始底层数据。

      评估挑战的规模

      只有在人类基因组中存在多少个蛋白质编码基因一直是一个问题,这是自大尺寸测序努力开始前很久以来的感兴趣的科学家。 1994年,安特克拉估计数量为80,000(
      • antequera f.
      • 鸟A.
      预测人类基因的总数。
      )基于CPG岛的数量,而基于EST数据的近似值在35,000到64,000之间变化(
      • ewing b.
      • 绿色P.
      表达序列标签的分析表明了35,000个人基因。
      ,
      • 领域C.
      • 亚当斯M.D.
      • 白o.
      • venter J.C.
      人类基因组中有多少基因?
      )。导出准确的计数需要重新调用存储在核苷酸数据库中的大量实验确定的序列,其范围从单独排序的MRNA到大规模的CDNA集合,到输出 AB Initio. 基因预测工具。这是由Ensembl(www.ebi.ac.uk/ensembl. )(
      • Birney E.
      • 安德鲁斯T.D.
      • Bevan P.
      • CACCMOM M.
      • 陈Y.
      • 克拉克L.
      • 盖子G.
      • 袖口J.
      • Curwen V.
      • 切割T.
      • 下来
      • Eyras E.
      • Fernandez-Suarez X.M.
      • 静g
      • 吉布斯B.
      • 吉尔伯特J.
      • 哈蒙德米
      • Hotz H.R.
      • IYER V.
      • 杰科西克。
      • Kahari A.
      • Kasprzyk A.
      • Keefe D.
      • 凯恩斯。
      • Lehvaslaiho H.
      • 麦维克G.
      • MELSOPP C.
      • Meidl P.
      • 蒙丁E.
      • Pettett R.
      • 陶器S.
      • Proctor G.
      • rae m.
      • Searle S.
      • 斯拉特G.
      • Smedley D.
      • 史密斯J.
      • 勺子W.
      • Stabenau A.
      • 缠扰J.
      • 楼层r.
      • 乌雷特 - vidal a。
      • 伍德威克k.c.。
      • 卡梅隆G.
      • 德国R.
      • Cox A.
      • 哈贝德T.
      • 夹具M.
      Ensembl概述。
      ),一个组织围绕大型基因组序列的生物信息的数据库。响应于对人类基因组进行的公共努力的加速来发展,Ensembl采用两种基因预测程序:遗传,其使用类似的蛋白质序列预测基因结构(
      • Birney E.
      • 夹具M.
      • 德国R.
      遗传和基因组。
      )和基因组,它在cDNA和EST定义的拼接结构上提供了基因结构最终解析(
      • Birney E.
      • 夹具M.
      • 德国R.
      遗传和基因组。
      )。这两种算法都以牺牲某种敏感性的损失为代价提供高特异性基因预测。通过这种算法预测的蛋白质编码基因的数量随着基因组序列的每个构建和重建而变化。然而,基于最近宣布的人类基因组的编码序列数的集成序列数的电流预测为22,221,不包括伪原(释放26.35.1)。 Refseq还提供从人类基因组自动衍生的预测编码序列(www.ncbi.nlm.nih.gov/refseq/ )(
      • Pruitt K.D.
      • Tatusova T.
      • maglott d.r.
      NCBI参考序列(REFSEQ):基因组,转录物和蛋白质的愈合的非冗余序列数据库。
      )。
      这些数据集的和解由国际蛋白质指数(IPI)执行
      使用的缩写是:IPI,国际蛋白质指数。
      (www.ebi.ac.uk/ipi. )(
      • kersey p.j.
      • Duarte J.
      • 威廉姆斯A.
      • 卡拉维多奥鲁Y.
      • Birney E.
      • APWEILER R.
      国际蛋白质指数:蛋白质组学实验的集成数据库。
      ),首先开发用于原始分析人类基因组草案。 IPI合并在Uniprot序列数据库中持有的实验确定的蛋白质序列(
      • Bairoch A.
      • APWEILER R.
      • 吴C.H.
      • Barker W.C.
      • Boeckmann B.
      • 菲罗斯
      • Gasteiger E.
      • 黄鹤
      • Lopez R.
      • Magrane M.
      • 马丁M.J.
      • Natale D.A.
      • O'Donovan C.
      • redaschi n。
      • Yeh L.S.
      通用蛋白质资源(Uniprot)。
      通过Ensembl的蛋白质预测和由Refseq提供的蛋白质预测和蛋白质预测和实验衍生的数据集,以提供由每转录物的一种序列组成的最小冗余又最大成熟的人,小鼠,大鼠和斑马鱼蛋白。所有注释的剪接变体都包含在IPI中,作为单独的条目(除非它们的蛋白质序列相同)。通过基于蛋白质相似性在不同的数据集之间映射自动产生IPI,并在主数据源之间维护交叉引用。
      IPI每月更新,但维护稳定的标识符(带增量版本控制),以允许在IPI版本之间跟踪IPI中的序列。当蛋白质从源数据库中消失并且无法识别相应的序列时,IPI标识符被归档,并且可以由在特定数据集中使用标识符的研究人员进行跟踪。同样,如果由于在源数据库中更改数据的结果而合并两个IPI条目,则将保持辅助标识符以允许追溯其原始条目。
      人类IPI的3.0版表明,来自人类基因组产生的47,094个独特的成绩单(包括剪接变体),只有1,500只由预测程序建议的那些。希望这些最终1,500个基因产品的存在可以在未来几年内通过实验证实(或不编制),以提供人体转录组的完整档案,尽管预期接头变体的数量随着两者都预测其存在并通过实验证实预测的方法会增加。
      参考序列(REFSEQ)集合还旨在提供用于人蛋白质组的全面,集成,非冗余的序列,包括基因组DNA,转录物(RNA)和蛋白质产品。

      手动注释蛋白质序列和功能

      通过来自各种来源的蛋白质序列信息,包括从许多不同起源的转录物(如基因组项目,CDNA和单个基因测序)除了直接蛋白质测序产生的数据之外,出现了单一,中央的需求数据库可以将这些序列合并为唯一的条目并以额外的功能和结构信息注释。 Uniprot(www.ebi.ac.uk/uniprot/ )(
      • Bairoch A.
      • APWEILER R.
      • 吴C.H.
      • Barker W.C.
      • Boeckmann B.
      • 菲罗斯
      • Gasteiger E.
      • 黄鹤
      • Lopez R.
      • Magrane M.
      • 马丁M.J.
      • Natale D.A.
      • O'Donovan C.
      • redaschi n。
      • Yeh L.S.
      通用蛋白质资源(Uniprot)。
      )被创建以满足这一角色,并通过现有的瑞士 - prot的合并形成(
      • Boeckmann B.
      • Bairoch A.
      • APWEILER R.
      • 布尔特米尔。
      • Estreicher A.
      • Gasteiger E.
      • 马丁M.J.
      • Michoud K.
      • O'Donovan C.
      • Phan I.
      • Pilbout S.
      • 施耐德M.
      2003年SWISS-PROM蛋白基础知识库及其补充TREMBL。
      ),trembl(
      • Boeckmann B.
      • Bairoch A.
      • APWEILER R.
      • 布尔特米尔。
      • Estreicher A.
      • Gasteiger E.
      • 马丁M.J.
      • Michoud K.
      • O'Donovan C.
      • Phan I.
      • Pilbout S.
      • 施耐德M.
      2003年SWISS-PROM蛋白基础知识库及其补充TREMBL。
      )和pir(
      • 吴C.H.
      • Yeh L.S.
      • 黄鹤
      • Arminski L.
      • Castro-Alvear J.
      • 陈Y.
      • 胡Z.
      • KEKTESIESP.
      • Ledley R.S.
      • Suzek B.E.
      • vinayaka c.r.
      • 张继夫
      • Barker W.C.
      蛋白质信息资源。
      )序列数据库。 UNIPROT是在欧洲生物信息学研究所,瑞士生物信息学研究所和蛋白质信息资源,华盛顿州D.c中的合作中产生的。Uniprot由三种组成部分组成,每个组件都针对不同用途进行了优化。 UniProt知识库(UNIPROT)是广泛的策划蛋白信息的中央接入点,包括功能,蛋白质分类和交叉参考。 UNIPROT NOREDWORD参考(UNIREF)数据库将密切相关的序列与单个记录相结合以加速搜索。 UNIPROT ARCHIVE(UNIPARC)是一个全面的存储库,反映了所有蛋白质序列的历史。
      中央UNIPROT知识库包括两个核心数据库,UNIPROT / SWISS-PROD和UNIPROT / TREMBL组成。在Swiss-prot中,许多来源的蛋白质序列合并以提供单一的入口,其描述由特定物种中的个体基因产生的所有独特的蛋白质产品。序列被愈合以校准校正序列误差并鉴定两个剪接变体和多态性的位置(
      • Farriol-Mathis N.
      • Garavelli J.s.
      • Boeckmann B.
      • Duvaud S.
      • Gasteiger E.
      • GATEAU A.
      • Veuthey A.L.
      • Bairoch A.
      瑞士语科知识库中翻译后修改的注释。
      )。这些观察结果被映射并给予唯一标识符,使得可以从条目中重新创建每个原始序列。鉴定了后翻境改性的潜在部位,并记录了通过实验观察证实的潜在部位。蛋白质给予系统蛋白质和基因名称,并记录所有已知的同义词。如有必要,检查和修订分类数据和引文信息。如果有关于蛋白质的进一步信息,则该条目含有关于蛋白质的功能,酶特异性信息(催化活性,辅助剂,代谢途径,调节机制),生物相关结构域和地点等物品的详细注释分子量由质谱法测定,蛋白质的亚细胞位置,组织特异性表达,蛋白质,二次结构,季结构,与其他蛋白质的相似性,在生物技术过程中使用蛋白质,疾病相关蛋白质中的缺陷,使用蛋白质作为药物等。广泛的(和增加)使用受控词汇的使用提高了计算机可读性。
      高质量的手动注释是耗时,并限制Uniprot / Swiss-Prot DataSet可以增长的速度。 TREMBL(embl核苷酸序列数据库的翻译)于1996年建立,包括从核苷酸序列数据库中的所有编码序列的翻译中衍生的计算机注释条目,除了瑞士语编码序列。它还含有从文献中提取的那些蛋白质序列,或者由不直接输入的用户社区直接提交,这些序列不直接进入瑞士语法。 TREMBL具有一定程度的序列冗余,即来自个体物种的单个基因可以由多于一个条目表示。通过广泛的自动注释程序增强UNIPROT / TREMBL数据内容(
      • Wieser D.
      • Kretschmann E.
      • APWEILER R.
      过滤错误的蛋白质注释。
      )。 Uniprot知识库含有〜29,000人序列的非冗余集;然而,这将包括许多剪接变体,最终将合并到Uniprot / Swiss-prot中的单个条目中。
      Uniprot知识库的许多优势之一是对其他更专业的数据库的广泛交叉引用。没有一个数据库可以在蛋白质上保存所有不同的信息,但是单十字参考对60多种其他数据来源,包括模型生物,蛋白质分类和结构和疾病数据库(Fig. 1)。 UNIPROT可以被视为知识的中心中心,这延伸到许多额外的来源,以扩展源记录中总结的信息。
      图缩略图GR1.
      Fig. 1UNIPROT中的数据库链接。
      Uniprot / Swiss-Prot已启动主要项目,根据瑞士 - Prot-The人蛋白质组倡议(HPI)的质量标准注释所有已知的人序列(
      • O'Donovan C.
      • APWEILER R.
      • Bairoch A.
      人类蛋白质组学倡议(HPI)。
      )。迄今为止,在这些条目中识别出额外的4,932个剪接变体( 表I. )。
      T 有能力的 I人类蛋白质组倡议
      最大限度。每条入口每个入口平均值参赛数量
      瑞士科技的批发人体条目总数11,638
      拼接变体数量4,932320.422,696(23.17%)
      变异数量(疾病突变和多态性)19,7752441.702,642(22.70%)
      注释的后期修改数量(实验证明或潜在)28,6152122.465,265(45.24%)
      发表文章的参考数46,544(29,000个明显的参考)1434.0011,281(96.93%)
      评论块数59,071295.0811,438(98.28%)
      特征线数量 212,183 56818.2311,098(95.36%)
      交叉引用的embl protects数量49,142(49,077个不同的蛋白质)5394.2211,465(98.51%)
      交叉口的交叉引用数量27,189192.3410,677(91.74%)
      PDB的交叉引用数量(3D结构)5,5101930.471,371(11.78%)
      MIM的交叉引用数量10,181(9,648个独特的IM条目)130.878,403(72.20%)
      对生物的交叉引用数量10,697(10,585个不同的集合参赛作品)130.9210,640(91.42%)

      蛋白质分类和功能的自动注释

      如前所述,手动注释的过程必然会慢,并且只能代表在特定物种中针对给定蛋白质进行实验验证的数据。为了将一些或全部这些信息转移到相同物种或跨物种内密切相关的蛋白质,必须有一种方法可以在不具有密切相关的序列内识别密切相关的蛋白质或特定功能域或地区的蛋白质。许多组具有单独开发的基于蛋白质分类的签名和序列基于群集的方法。其中许多已被整理并合并到综合资源,迭代(www.ebi.ac.uk/Interpro/ )(
      • Mulder N.J.
      • APWEILER R.
      • Attwood T.K.
      • Bairoch A.
      • Bateman A.
      • Binns D.
      • 布拉德利P.
      • Bork P.
      • Bucher P.
      • Cerruti L.
      • Copley R.
      • 北方赛法赛
      • Das U.
      • 德国R.
      • Fleischmann W.
      • Gough J.
      • HAFT D.
      • Harte N.
      • Hulo N.
      • Kahn D.
      • 卡纳普A.
      • Krestyaninova M.
      • Lonsdale D.
      • Lopez R.
      • Leatunic I.
      • Madera M.
      • Maslen J.
      • 麦克风J.
      • 米切尔A.
      • nikolskaya a.n.
      • 果园S.
      • Pagni M.
      • 分割C.P.
      • Quevillon E.
      • Selengut J.
      • SIGRIST C.J.
      • Silventoinen V.
      • Studholme D.J.
      • 沃恩雷
      • 吴C.H.
      Interpro,2005年的进度和地位。
      )。 Interpro(版本8.1)由Prusite提供的签名形成(
      • FALQUET L.
      • Pagni M.
      • Bucher P.
      • Hulo N.
      • SIGRIST C.J.A.
      • 霍夫曼K.
      • Bairoch A.
      PROSITE数据库,其2002年的地位。
      ), 印刷 (
      • Attwood T.K.
      打印数据库:用于鉴定蛋白质家族的资源。
      ),pfam(
      • Bateman A.
      • Birney E.
      • Cerruti L.
      • 德国R.
      • Etwiller L.
      • 艾迪S.R.
      • 格里菲斯 - 琼斯S.
      • Howe K.L.
      • 马歇尔M.
      • Sonnhammer E.L.
      PFAM蛋白质家族数据库。
      ),Prodom(
      • CORETET F.
      • 仆人F.
      • Gouzy J.
      • Kahn D.
      Prodom和Prodom-CG:蛋白质结构域分析和全基因组比较的工具。
      ), 聪明的 (
      • 分割C.P.
      • Schultz J.
      • Milpetz F.
      • Bork P.
      SMART:识别和注释信号传导和细胞外蛋白序列的域。
      ),tigrfams(
      • HAFT D.H.
      • Selengut J.D.
      • 白o.
      蛋白质家族的TIGRFAMS数据库。
      ),Pirsf(
      • 黄鹤
      • 肖C.
      • 吴C.H.
      Proclass蛋白质数据库。
      )和超级家族(
      • Andreeva A.
      • 豪雨。
      • Brenner S.E.
      • 哈贝德T.J.P.
      • Chothia C.
      • Murzin A.G.
      SCOP数据库2004年:改进集成结构和序列系列数据。
      ),通过计算所有Uniprot蛋白和Uniprot条目中的交叉引用计算的Interpro蛋白质匹配。 Interpro版本8.1包含11,330个条目,代表2,933个域,8,126个家庭,222个重复,27个有源站点,21个绑定站点和20个后期改性站点。结构链接是通过用Uniprot蛋白的残留物映射自动生成的,通过残留物映射,并且有与符合Interpro进入的蛋白质的所有PDB条目的链接,只要它们覆盖了该条目中的签名。
      通过使用提供的工具,Interprocan(www.ebi.ac.uk/Interproscan/ )(
      • Zdobnov e.m.
      • APWEILER R.
      Interprocan-incripature-识别方法的集成平台。
      ),用户可以能够服用新的蛋白质序列并通过与已知的蛋白质家族的相似性递断函数,并鉴定分子内的功能域,活性位点或结合位点。 Interpro在UNIPROT中使用,作为自动将注释从手动注释的瑞士语气条目转移到类似的,密切相关的蛋白质序列在Trembl数据库中的基础。这将有价值的信息增加到目前驻留在UNIPROT / TREMBL数据库中的150万份蛋白序列的大量百分比(第28.2版)。

      捕获蛋白质表达和相互作用

      虽然人类基因组对所有潜在表达的蛋白质进行编码,但我们对治疗蛋白质表达的机制的理解仍然过于局限,以可靠地预测给定状态以给定细胞的蛋白质含量。目前在许多大型蛋白质组学项目中追求蛋白质表达的系统实验分析, 例如 Hupo血浆蛋白质组项目(
      • OPENN G.S.
      人类蛋白质组织血浆蛋白质组项目试验阶段:参考标本,技术平台比较和标准化数据提交和分析。
      )。蛋白质表达数据系统捕获中的主要挑战是该领域的实验技术和数据格式的多样性。 HUPO蛋白质组学标准倡议(PSI)(
      • 果园S.
      • Hermjakob H.
      • 朱利安Jr.,R.K.
      • runte K.
      • 谢尔曼D.
      • Wojcik J.
      • 朱W.
      • APWEILER R.
      蛋白质组学数据的常见交换标准:工具和架构的公共可用性。
      ,
      • 果园S.
      • 泰勒C.F.
      • Hermjakob H.
      • 魏明朱>Jr., Julian R.K.
      • APWEILER R.
      蛋白质组学数据共同交汇标准的发展进展。
      )制定蛋白质组学的社区标准,以促进蛋白质组学数据的捕获,分析和分布。 PSI中的MS组现在已经产生了两种数据格式:MZDATA,其允许峰值列表信息的捕获和交换,并描述蛋白质标识的蛋白质标识和所产生的相应肽。骄傲(蛋白质组学识别)数据库( www.ebi.ac.uk/pride.)实现这些标准,并为蛋白质识别数据提供公共储存库,其广泛交叉参考UNIPROT和其他外部数据来源(L.Martens,准备)。
      蛋白质不能单独起作用,蛋白质的作用可以随着分子表达的细胞循环中的点而变化,其中存在于存在的组织,以及它能够的其他分子的可用性互动。在任何一个数据库中都无法捕获这样的细节。 UNIPROT / SWISS-PRAT总结了评论行中的这些信息,但通过广泛的交叉引用到其他更专业的数据来源来增强这一点。例如,蛋白质交互数据完好无损(www.ebi.ac.uk/intact.),自由,开源数据库(
      • Hermjakob H.
      • MonteCchi-Palazzi L.
      • Lewington C.
      • Mudali S.
      • Kerrien S.
      • 果园S.
      • vingron m.
      • Roechert B.
      • Roepstorff P.
      • 瓦伦西亚A.
      • Margalit H.
      • 阿姆斯特朗J.
      • Bairoch A.
      • Cesareni G.
      • 谢尔曼D.
      • APWEILER R.
      完整:开源分子交互数据库。
      )。完整内的信息从两个来源手动策划:要么由策划小组从现有文献中提取,要么在出版物之前由实验室直接提交,并提供给读者伴随公布的读者。 Intact还可以自由地提供许多用于查看和分析数据的工具,例如proviz(
      • iRagne F.
      • Nikolski M.
      • Mathieu B.
      • Auber D.
      • 谢尔曼D.
      Proviz:蛋白质相互作用可视化和探索。
      ),一个图形可视化系统和我的矿山,一个应用程序,用于计算蛋白质集的最小连接网络。
      完整数据模型有三个主要组件:实验,交互和互动器。实验组来自一个出版物的许多相互作用,并对产生这些相互作用的实验条件进行分类。实验可能仅具有单个相互作用,或在大规模实验的情况下进行数百个相互作用。交互式器是参与相互作用的生物实体,通常是蛋白质,但可能也是DNA序列或小分子。交互包含参与交互的一个或多个互动器。广泛使用受控词汇表可以实现数据一致性,并增加计算机以容易地解析的能力和提取数据的特定部分,例如,易于选择由X射线晶体学识别的所有相互作用,或取消选择使用酵母两种产生的所有相互作用-Hybrid技术。
      完整与蛋白质组学标准初始XML交换标准完全兼容,可以在PSI-MI级别1和2中导入和导出数据(
      • Hermjakob H.
      • MonteCchi-Palazzi L.
      • 獾G.
      • Wojcik J.
      • Salwinski L.
      • CEOL A.
      • 摩尔斯。
      • 果园S.
      • 萨克斯U.
      • von meringm c.
      • Roechertm B.
      • POUX S.
      • j
      • 梅什H.
      • kersy p.
      • Lappe M.
      • 李Y.
      • 曾R.
      • rana d。
      • Nikolski M.
      • Husi H.
      • 布伦C.
      • Shanker K.
      • 格兰特S.G.
      • 砂光机C.
      • Bork P.
      • 朱W.
      • Pandey A.
      • Brazma A.
      • JACQ B.
      • vidal m.
      • 谢尔曼D.
      • 羊l
      • Cesareni G.
      • Xenarios I.
      • 艾森伯格D.
      • 斯佩赛B.
      • 高清C.
      • APWEILER R.
      HUPO PSI的分子交互格式 - 蛋白质交互数据表示的社区标准。
      )。 Intact也是IMEX联盟的创始人,互动数据库的协作,目前还包括绑定(
      • 糟糕的G.D.
      • 贝尔德D.
      • hogue c.w.v.
      绑定:生物分子交互网络数据库。
      ),倾角(
      • Xenarios I.
      • Salwinski L.
      • 段X.J.
      • Higney P.
      • 金斯。
      • 艾森伯格D.
      DIP:相互作用蛋白的数据库。一种研究蛋白质相互作用蜂窝网络的研究工具。
      ), 薄荷 (
      • Zanzoni A.
      • MonteCchi-Palazzi L.
      • Quondam M.
      • Ausiello G.
      • Helmer-Citterich M.
      • Cesareni G.
      薄荷:分子交互数据库。
      )和MIPS(MPACT)(

      Pagel,P.,Kovac,S.,Oestereld,M.,Brauner,B.,Dunger-Kaltenbach,I.,Frishman,G.,Montrone,C.,Mark,P.,Stumpflen,V.,Mewes,HW ,Ruepp,A.和Frishman,D。(2004)。 MIPS哺乳动物蛋白质 - 蛋白质相互作用数据库。 生物信息学 [epub领先]

      ),计划定期交换策划交互数据,以确保用户最终可以在任何一个成员数据库中访问相同的数据集。
      更高的信息,即这些分子参与的代谢和信号转导途径在诸如反应的途径数据库中收集和注释(www.reactome.org. )(
      • 罗伯逊M.
      反应:清晰的星空观。
      )。反弹是由生物研究人员撰写的,他们的领域专业知识,并由反应组织编辑人员维持和策划。反应组通过交联与特定的Uniprot记录来维持与底层蛋白质的链接,其与Uniprot进入的反应相应的链接,提供关于哪些途径或反应每种特定蛋白质发挥作用的信息。

      维护数据兼容性

      现在,人类蛋白质组的数据现在遍布越来越多的数据库,并且必须保持一定程度的相容性,以允许对特定蛋白质的所有信息进行解析和整理。使用稳定的蛋白质标识符,例如Uniprot登录号,或稳定的基因标识符,例如由人类基因命名委员会产生的那些(
      • 罗伯逊M.
      反应:清晰的星空观。
      ),允许一定程度的兼容性,因为蛋白质可以在所有数据库中明确识别。其他努力在很大程度上建立数据标准化的努力越来越多地利用受控词汇和本体。该领域的领导者是Go Consortium(Geneontology.org),其产生术语来描述基因产品的属性,从而实现它们的分子功能的描述,它们发挥作用的生物过程和它们所表达的细胞组分(
      • 你是
      • 郁郁葱葱的M.J.
      • Ducluzeau F.
      • khodiyar v.k.
      • Povey S.
      生物:人类基因命名数据库,2004年更新。
      )。从许多不同来源结合Go注释的Go注释项目已添加34,791手动Go注释至9,387 uniprot人蛋白。同样,手动注释缓慢,可以通过基于Interpro模式匹配的自动注释来补充该过程。以这种方式,已添加65,855个术语以22,624个人蛋白质(
      • Camon E.
      • Magrane M.
      • 巴克尔D.
      • 李五。
      • 调光e.
      • Maslen J.
      • Binns D.
      • Harte N.
      • Lopez R.
      • APWEILER R.
      基因本体注释(GOA)数据库:使用基因本体分享UNIPROT中的知识。
      )。 GO术语在整个数据库中使用了UniProt交叉引用的许多数据库,并促进数据库查询和可比性。
      该字段中的其他努力包括开发本体,以更准确地描述基因表达数据,例如EVOC组的工作,其开发了正交本体,以描述解剖系统,细胞类型,病理和发育阶段(
      • Camon E.
      • Magrane M.
      • 巴克尔D.
      • 李五。
      • 调光e.
      • Maslen J.
      • Binns D.
      • Harte N.
      • Lopez R.
      • APWEILER R.
      基因本体注释(GOA)数据库:使用基因本体分享UNIPROT中的知识。
      )以及旨在描述生物序列的显影序列本体。这些受控词汇中的许多托管在OBO(Open Biological Intolologies)网站(Obo.sourceForge.net)上托管。

      概括

      我们仍然可以从全面了解人类蛋白质组,特别是每种分子在细胞背景下发挥的特定作用,但我们的知识每天都在增加,通过小规模,详细的研究和大规模的蛋白质组学方法。正在生成丰富的数据,并通过互连的数据库阵列可公开访问。 UNIPROT / SWISS-PLAT提供了一套高质量的手动注释的蛋白质序列。它由UNIPROT / TREMBL补充,其含有自动注释的蛋白序列尚未在UniProt / Swiss-prot中。它们一起形成Uniprot蛋白质知识库,中央,高​​质量和广泛的蛋白质序列的交叉引用信息中心。 IPI将UniProt人蛋白序列与Ensembl和Refseq人序列组合成所有公知的人蛋白序列的非还规数据库。 UNIPROT和IPI提供了广泛的交叉引用,在60多个外部数据库中,其中集团BL(基因组序列),口译和GO(功能分类),普遍(蛋白质鉴定),完整(蛋白质相互作用)和反应(途径),允许以系统,结构良好的方式进入公开的人类蛋白质组知识,为新发现和研究提供坚实的基础。

      参考

        • Stein L.D.
        人类基因组:开始的结束。
        自然。 2004; 431: 915-916
        • antequera f.
        • 鸟A.
        预测人类基因的总数。
        NAT。遗传。 1994; 8: 114
        • ewing b.
        • 绿色P.
        表达序列标签的分析表明了35,000个人基因。
        NAT。遗传。 2000; 25: 232-234
        • 领域C.
        • 亚当斯M.D.
        • 白o.
        • venter J.C.
        人类基因组中有多少基因?
        NAT。遗传。 1994; 7: 345-346
        • Birney E.
        • 安德鲁斯T.D.
        • Bevan P.
        • CACCMOM M.
        • 陈Y.
        • 克拉克L.
        • 盖子G.
        • 袖口J.
        • Curwen V.
        • 切割T.
        • 下来
        • Eyras E.
        • Fernandez-Suarez X.M.
        • 静g
        • 吉布斯B.
        • 吉尔伯特J.
        • 哈蒙德米
        • Hotz H.R.
        • IYER V.
        • 杰科西克。
        • Kahari A.
        • Kasprzyk A.
        • Keefe D.
        • 凯恩斯。
        • Lehvaslaiho H.
        • 麦维克G.
        • MELSOPP C.
        • Meidl P.
        • 蒙丁E.
        • Pettett R.
        • 陶器S.
        • Proctor G.
        • rae m.
        • Searle S.
        • 斯拉特G.
        • Smedley D.
        • 史密斯J.
        • 勺子W.
        • Stabenau A.
        • 缠扰J.
        • 楼层r.
        • 乌雷特 - vidal a。
        • 伍德威克k.c.。
        • 卡梅隆G.
        • 德国R.
        • Cox A.
        • 哈贝德T.
        • 夹具M.
        Ensembl概述。
        Genome Res。 2004; 14: 925-928
        • Birney E.
        • 夹具M.
        • 德国R.
        遗传和基因组。
        Genome Res。 2004; 14: 988-995
        • Pruitt K.D.
        • Tatusova T.
        • maglott d.r.
        NCBI参考序列(REFSEQ):基因组,转录物和蛋白质的愈合的非冗余序列数据库。
        核酸RES。 2005; 33: 501-504
        • kersey p.j.
        • Duarte J.
        • 威廉姆斯A.
        • 卡拉维多奥鲁Y.
        • Birney E.
        • APWEILER R.
        国际蛋白质指数:蛋白质组学实验的集成数据库。
        蛋白质组学。 2004; 4: 1985-1988
        • Bairoch A.
        • APWEILER R.
        • 吴C.H.
        • Barker W.C.
        • Boeckmann B.
        • 菲罗斯
        • Gasteiger E.
        • 黄鹤
        • Lopez R.
        • Magrane M.
        • 马丁M.J.
        • Natale D.A.
        • O'Donovan C.
        • redaschi n。
        • Yeh L.S.
        通用蛋白质资源(Uniprot)。
        核酸RES。 2005; 33: 154-159
        • Boeckmann B.
        • Bairoch A.
        • APWEILER R.
        • 布尔特米尔。
        • Estreicher A.
        • Gasteiger E.
        • 马丁M.J.
        • Michoud K.
        • O'Donovan C.
        • Phan I.
        • Pilbout S.
        • 施耐德M.
        2003年SWISS-PROM蛋白基础知识库及其补充TREMBL。
        核酸RES。 2003; 31: 365-370
        • 吴C.H.
        • Yeh L.S.
        • 黄鹤
        • Arminski L.
        • Castro-Alvear J.
        • 陈Y.
        • 胡Z.
        • KEKTESIESP.
        • Ledley R.S.
        • Suzek B.E.
        • vinayaka c.r.
        • 张继夫
        • Barker W.C.
        蛋白质信息资源。
        核酸RES。 2003; 31: 345-347
        • Farriol-Mathis N.
        • Garavelli J.s.
        • Boeckmann B.
        • Duvaud S.
        • Gasteiger E.
        • GATEAU A.
        • Veuthey A.L.
        • Bairoch A.
        瑞士语科知识库中翻译后修改的注释。
        蛋白质组学。 2004; 4: 1537-1550
        • Wieser D.
        • Kretschmann E.
        • APWEILER R.
        过滤错误的蛋白质注释。
        生物信息学。 2004; 20: I342-I347
        • O'Donovan C.
        • APWEILER R.
        • Bairoch A.
        人类蛋白质组学倡议(HPI)。
        趋势生物技术。 2001; 19: 178-181
        • Mulder N.J.
        • APWEILER R.
        • Attwood T.K.
        • Bairoch A.
        • Bateman A.
        • Binns D.
        • 布拉德利P.
        • Bork P.
        • Bucher P.
        • Cerruti L.
        • Copley R.
        • 北方赛法赛
        • Das U.
        • 德国R.
        • Fleischmann W.
        • Gough J.
        • HAFT D.
        • Harte N.
        • Hulo N.
        • Kahn D.
        • 卡纳普A.
        • Krestyaninova M.
        • Lonsdale D.
        • Lopez R.
        • Leatunic I.
        • Madera M.
        • Maslen J.
        • 麦克风J.
        • 米切尔A.
        • nikolskaya a.n.
        • 果园S.
        • Pagni M.
        • 分割C.P.
        • Quevillon E.
        • Selengut J.
        • SIGRIST C.J.
        • Silventoinen V.
        • Studholme D.J.
        • 沃恩雷
        • 吴C.H.
        Interpro,2005年的进度和地位。
        核酸RES。 2005; 33: 201-205
        • FALQUET L.
        • Pagni M.
        • Bucher P.
        • Hulo N.
        • SIGRIST C.J.A.
        • 霍夫曼K.
        • Bairoch A.
        PROSITE数据库,其2002年的地位。
        核酸RES。 2002; 30: 235-238
        • Attwood T.K.
        打印数据库:用于鉴定蛋白质家族的资源。
        简短生物形式。 2002; 3: 252-263
        • Bateman A.
        • Birney E.
        • Cerruti L.
        • 德国R.
        • Etwiller L.
        • 艾迪S.R.
        • 格里菲斯 - 琼斯S.
        • Howe K.L.
        • 马歇尔M.
        • Sonnhammer E.L.
        PFAM蛋白质家族数据库。
        核酸RES。 2002; 30: 276-280
        • CORETET F.
        • 仆人F.
        • Gouzy J.
        • Kahn D.
        Prodom和Prodom-CG:蛋白质结构域分析和全基因组比较的工具。
        核酸RES。 2000; 28: 267-269
        • 分割C.P.
        • Schultz J.
        • Milpetz F.
        • Bork P.
        SMART:识别和注释信号传导和细胞外蛋白序列的域。
        核酸RES。 1999; 27: 229-232
        • HAFT D.H.
        • Selengut J.D.
        • 白o.
        蛋白质家族的TIGRFAMS数据库。
        核酸RES。 2003; 31: 371-373
        • 黄鹤
        • 肖C.
        • 吴C.H.
        Proclass蛋白质数据库。
        核酸RES。 2000; 28: 273-276
        • Andreeva A.
        • 豪雨。
        • Brenner S.E.
        • 哈贝德T.J.P.
        • Chothia C.
        • Murzin A.G.
        SCOP数据库2004年:改进集成结构和序列系列数据。
        核酸RES。 2004; 32: D226-D229
        • Zdobnov e.m.
        • APWEILER R.
        Interprocan-incripature-识别方法的集成平台。
        生物信息学。 2001; 17: 847-848
        • OPENN G.S.
        人类蛋白质组织血浆蛋白质组项目试验阶段:参考标本,技术平台比较和标准化数据提交和分析。
        蛋白质组学。 2004; 4: 1235-1240
        • 果园S.
        • Hermjakob H.
        • 朱利安Jr.,R.K.
        • runte K.
        • 谢尔曼D.
        • Wojcik J.
        • 朱W.
        • APWEILER R.
        蛋白质组学数据的常见交换标准:工具和架构的公共可用性。
        蛋白质组学。 2004; 4: 490-491
        • 果园S.
        • 泰勒C.F.
        • Hermjakob H.
        • 魏明朱>Jr., Julian R.K.
        • APWEILER R.
        蛋白质组学数据共同交汇标准的发展进展。
        蛋白质组学。 2004; 4: 2363-2365
        • Hermjakob H.
        • MonteCchi-Palazzi L.
        • Lewington C.
        • Mudali S.
        • Kerrien S.
        • 果园S.
        • vingron m.
        • Roechert B.
        • Roepstorff P.
        • 瓦伦西亚A.
        • Margalit H.
        • 阿姆斯特朗J.
        • Bairoch A.
        • Cesareni G.
        • 谢尔曼D.
        • APWEILER R.
        完整:开源分子交互数据库。
        核酸RES。 2004; 32: D452-D455
        • iRagne F.
        • Nikolski M.
        • Mathieu B.
        • Auber D.
        • 谢尔曼D.
        Proviz:蛋白质相互作用可视化和探索。
        生物信息学。 2005; 21: 272-274
        • Hermjakob H.
        • MonteCchi-Palazzi L.
        • 獾G.
        • Wojcik J.
        • Salwinski L.
        • CEOL A.
        • 摩尔斯。
        • 果园S.
        • 萨克斯U.
        • von meringm c.
        • Roechertm B.
        • POUX S.
        • j
        • 梅什H.
        • kersy p.
        • Lappe M.
        • 李Y.
        • 曾R.
        • rana d。
        • Nikolski M.
        • Husi H.
        • 布伦C.
        • Shanker K.
        • 格兰特S.G.
        • 砂光机C.
        • Bork P.
        • 朱W.
        • Pandey A.
        • Brazma A.
        • JACQ B.
        • vidal m.
        • 谢尔曼D.
        • 羊l
        • Cesareni G.
        • Xenarios I.
        • 艾森伯格D.
        • 斯佩赛B.
        • 高清C.
        • APWEILER R.
        HUPO PSI的分子交互格式 - 蛋白质交互数据表示的社区标准。
        NAT。 Biotechnol。 2004; 22: 177-183
        • 糟糕的G.D.
        • 贝尔德D.
        • hogue c.w.v.
        绑定:生物分子交互网络数据库。
        核酸RES。 2003; 31: 248-250
        • Xenarios I.
        • Salwinski L.
        • 段X.J.
        • Higney P.
        • 金斯。
        • 艾森伯格D.
        DIP:相互作用蛋白的数据库。一种研究蛋白质相互作用蜂窝网络的研究工具。
        核酸RES。 2002; 30: 303-305
        • Zanzoni A.
        • MonteCchi-Palazzi L.
        • Quondam M.
        • Ausiello G.
        • Helmer-Citterich M.
        • Cesareni G.
        薄荷:分子交互数据库。
        费用。 2002; 513: 135-140
      1. Pagel,P.,Kovac,S.,Oestereld,M.,Brauner,B.,Dunger-Kaltenbach,I.,Frishman,G.,Montrone,C.,Mark,P.,Stumpflen,V.,Mewes,HW ,Ruepp,A.和Frishman,D。(2004)。 MIPS哺乳动物蛋白质 - 蛋白质相互作用数据库。 生物信息学 [epub领先]

        • 罗伯逊M.
        反应:清晰的星空观。
        药物讨论。今天。 2004; 9: 684-685
        • 你是
        • 郁郁葱葱的M.J.
        • Ducluzeau F.
        • khodiyar v.k.
        • Povey S.
        生物:人类基因命名数据库,2004年更新。
        核酸RES。 2004; 32: D255-D257
        • Camon E.
        • Magrane M.
        • 巴克尔D.
        • 李五。
        • 调光e.
        • Maslen J.
        • Binns D.
        • Harte N.
        • Lopez R.
        • APWEILER R.
        基因本体注释(GOA)数据库:使用基因本体分享UNIPROT中的知识。
        核酸RES。 2004; 32: D262-D266