真核蛋白质简单序列的丰富和分布*

  • 金兰西姆
    脚注
    隶属关系
    肯塔基顿大学肯塔基州肯塔基州大学分子和细胞生物化学系,肯塔基州40536-0298
    搜索本作者的文章
  • Trevor P. Creamer.
    一致
    应解决对应的通信:肯塔基大学,肯塔基州大学分子和细胞生物化学部门的结构生物化学部门,800玫瑰St.,Lexington,Ky 40536-0298。电话:859-323-6037;传真:859-323-1037;电子邮件:
    隶属关系
    肯塔基顿大学肯塔基州肯塔基州大学分子和细胞生物化学系,肯塔基州40536-0298
    搜索本作者的文章
  • 作者脚注
    *本工作是由国家科学基金会拨款MCB-00110720(T.P. C.)的支持。本文的出版费用部分按付款方式部分支付。因此,本文必须明白“广告“按照18 U.S.C.第1734节仅表明这一事实。
    ‡部分由Pharmacia Corp.的计算基因组学中的博士后研究授予支持。
      蛋白质简单序列是序列的低复杂性区域的亚类,其高度富集在一种或几种残留物类型中。这种序列在转录调节蛋白中常见于结构蛋白质,蛋白质中参与核酸相互作用的蛋白质,以及介导蛋白质 - 蛋白质相互作用。在这项工作中调查了含有≥50%的单余残留物的10个或更多残基的简单序列。对真核和原核蛋白质蛋白酶的重点进行了重点。在调查的所有生物体中发现了大量的此类序列。结果发现,每蛋白质的真核生物具有比原核生物的更简单的序列。原核生物显示含有简单序列和蛋白质组大小的蛋白质数之间的线性关系,而蛋白质组的数量是蛋白质尺寸的线性关系,而且尚不清楚这种关系适用于真核生物。令人惊讶的是,发现每个真核生物都具有自己独特的简单序列分布。在那些分布中,发现在某些残留物类型中富集的简单序列显然是青睐,而其他人则尽可能明确歧视。观察到的偏好与残留物发生不相关。已知功能蛋白类别的分析表明,简单的序列发生和分布可能与蛋白质功能有关。基于该分析,上面发现的大量简单序列是预期的简单统计模型,加上了许多这样的序列的已知功能重要性,它假设真核生物不仅容忍大量的简单序列但是还要要求他们。
      蛋白质简单序列是高度富集的序列的序列,其在一种或几种残留物类型中。这些序列形成低复杂性序列的主要子类(
      • Wootton J.C.
      • Federhen S.
      序列数据库中的合成偏置区域分析。
      )。这些序列在转录调节蛋白中是常见的,它们通常富含谷氨酰胺,脯氨酸或带电残余物,并且往往是高度保守的(
      • 布伦德尔五。
      • 卡林S.
      电荷簇与细胞转录因子功能域的结合。
      ,
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ,
      • 克什y.
      • 国王D.
      • Soller M.
      简单的序列重复作为定量遗传变异的源。
      ,
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      )。富含谷氨酰胺的序列被认为是最常见的简单序列(
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      ,
      • 绿色H.
      • 王恩。
      密码子重新研究和蛋白质的演变。
      )并与许多人类神经疾病如亨廷顿氏病(
      • Cummings C.J.
      • Zoghbi H.Y.
      三核苷酸重复:机制和病理生理学。
      ,
      • 卡林S.
      • 击败C.
      三核苷酸在基因和蛋白质中重复和长同牙质,与神经系统疾病和发育相关。
      ,
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      ,
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      )。已知富含富含脯氨酸的序列具有作为结构元素的重要作用和介导蛋白质 - 蛋白质相互作用(
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      ,
      • 威廉姆森M.P.
      蛋白质中富含脯氨酸区的结构和功能。
      )。在带电残余物中富集的序列已与DNA和RNA加工,染色质结构,离子结合和蛋白质 - 蛋白质相互作用有关(
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ,
      • 卡林S.
      蛋白质中序列模式的统计显着性。
      )。各种简单序列被涉及蛋白质结构域接头(
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      )或作为无序蛋白质的标志物(
      • 罗梅科州
      • Obradovic Z.
      • 李X.
      • Garner e.c.
      • 棕色c.j.
      • Dunker A.K.
      无序蛋白质的序列复杂性。
      ,
      • Dunker A.K.
      • Obradovic Z.
      • 罗梅科州
      • Garner e.c.
      • 棕色c.j.
      完全基因组中的内在疾病。
      )。显然,这种序列具有重要功能作用的许多情况。此外,喀什 等等。 (
      • 克什y.
      • 国王D.
      • Soller M.
      简单的序列重复作为定量遗传变异的源。
      )已注意到DNA简单序列是遗传变异的潜在来源。这些DNA序列中的一些落在编码区内,导致蛋白质水平的变化。最近在可用的基因组和因此蛋白质组学数据中的爆炸已经提供了在未以前可能的细节水平下检查蛋白质简单序列的发生和分布。在这里,我们展示了在四种真核生物的蛋白质组中,在蛋白质组中培养了对蛋白质简单序列的蛋白质简单序列的发生调查,其基因组已被完全测序。将真核简单序列的发生与26个原核生物蛋白质蛋白质组中的这种序列的发生进行比较。
      以前对蛋白质简单序列的研究已经使用了一些有限的蛋白质数据库,并且不一定不一定比较生物体(
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      ,
      • 绿色H.
      • 王恩。
      密码子重新研究和蛋白质的演变。
      ,
      • Saqi M.
      低复杂性段的结构实例分析。
      ,
      • Meyer e.f.
      • Tollet Jr.,W.J.
      wwwywwy做自然口吃吗?重复氨基酸股线的调查。
      )。其他调查已经考虑了整个蛋白质蛋白,但通常去除被认为是冗余的序列(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      ,
      • Golding G.B.
      简单的序列在真核蛋白质中丰富。
      )。存在许多调查,其中已经检查了特定残留型或与特定功能相关的简单序列(
      • 布伦德尔五。
      • 卡林S.
      电荷簇与细胞转录因子功能域的结合。
      ,
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ,
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      ,
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      )。最近的一些研究专注于生物之间的比较(
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ,
      • Marcotte e.m.
      • Pellegrini M.
      • yeates t.o.
      • 艾森伯格D.
      蛋白质重复的人口普查。
      ,
      • Katti M.v.
      • ranjekar p.k.
      • Gupta V.S.
      真核基因组序列中简单序列重复的微分分布。
      ,
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      )但大多数只考虑了均聚物序列。我们目前的研究与事先工作不同,因为我们仅使用完全序列的基因组的完整蛋白质组,包括作为假设蛋白的注释的序列。我们仅关注不重叠的简单序列,10个或更多的残留物的长度,高度富集在单一残留物(≥50%的组成)中。该方法提供了该组蛋白质简单序列的分布的非偏见视图,以及允许准备比较其在所检查的生物体中的发生。调查的真核生物,即酵母,蠕虫,果蝇和植物,包括一系列真核生物王国的各种样本。鉴于当前完成的不确定状态,我们选择不包括人类蛋白质组。此外,对于比较,我们已经调查了26种原核生物,其中包括12个古痤疮,两个蓝细菌和六个革兰氏阴性和六革兰氏阳性细菌。
      我们发现,在所有检查的所有有机体中,高度富集的简单序列非常常见。发现真核生物比每种蛋白质的更简单序列,而不是与其他群体的结果保持联系(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      ,
      • Marcotte e.m.
      • Pellegrini M.
      • yeates t.o.
      • 艾森伯格D.
      蛋白质重复的人口普查。
      ,
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      )。含有简单序列的原核蛋白质的发生与蛋白质组大小线性相关。鉴于检查有限数量的生物体,目前尚不清楚是真核生物的情况。也许最特别地,检查的每个生物都具有自己独特的简单序列分布。我们发现简单的序列显示令人惊讶的长度依赖性与一些优先填充长简单序列区域的残留物,而其他序列则清楚地更喜欢短暂的简单序列。与残留物发生没有可辨别的相关性。例如,尽管亮氨酸是大多数生物中最常见的残留物,但富含富含富含富氨酸的序列似乎被歧视。一些观察到的长度依赖性可以在结构和功能术语中解释,尽管许多人保持神秘。我们还发现简单的序列分布根据功能分组而变化。例如,尽管在整体分布中被歧视,但富含少氨酸的区域是膜相关蛋白中最常见的简单序列。从纯粹的数字中可以清楚地发现,所有的生物体检查,特别是真核生物,耐受性,甚至需要大量的蛋白质简单序列。这里提出的数据将为未来的这些普遍且潜在的重要序列的研究提供基础。

      实验步骤

      我们的研究中使用了来自四种真核的完全测序基因组和26个原基的完全蛋白质蛋白酶(表I.)。获得序列是来自欧洲生物信息学研究所的Fasta格式文件(www.ebi.ac.uk/genomes/)。我们将整个蛋白质组用于每种生物,包括标记为“假设”,“推定”或“可能”的所有蛋白质,也是没有注释的所有蛋白质。这是蛋白质组的例外 拟南芥蒂利亚纳 (AT),
      使用的缩写是:在, 一种。 Thaliana.; AF, 一种。 乌吉斯; agt, 一种。 Tumefaciens. C58; AP, 一种。 Pernix. K1; BH, B. Halodurans.; BM, B. Melitensis. 16M CHR1; BS, B.枯草芽孢杆菌;加利福尼亚州, C.乙酰丁基 ATCC824; CE, C. Elegans.; DM, D. Melanogaster.;博士, D. radiodurans. CHR1;欧共体, 大肠杆菌 K-12;你好, H.流感;生命值, H. Pylori. 26695; HS, 哈杆菌 sp。 NRC-1; Mg, M. Genitalium.; MJ, M. Jannaschii.; MP, M.肺炎;公吨, M. Thermoautotrophicum; NOS, nostoc sp。 PCC7120; PA, P. Abyssi.; PAE, P. Aerophilum.; pH, P. Horikoshii.; SC, S. Cerevisiae.; SS, Synechocytis. sp。 PCC6803; SSOL, S. solfataricus.;英石, S. Tokodaii.;塔, T. acidophilum.;电视, 火山; VC, V.霍乱 chr1.
      发现其中782个蛋白质序列是不完全的(蛋白质组的3%)。因此,我们仅在蛋白质组中使用了26,496个完整的序列。
      表I.对蛋白质简单序列进行调查的生物,每个蛋白质组中的蛋白质数,发现的简单序列总数(SStot)和含有至少一种简单序列的蛋白质数量(ProtSS.)
      生物双字母代码类型蛋白质组中的蛋白质数量SS.totprotSS.SS.tot/ prot.SS.
      酿酒酵母酿酒酵母SC.真核生物6,2037,1773,2932.18
      Caenorhabditis elegans.ce21,96223,29511,1252.09
      果蝇黑胶基DM.13,60824,7257,9893.09
      一种。 Thaliana.
      a 一些在蛋白质序列处不完全并且不包括在分析中。所列蛋白质的数量对应于所用的数量。
      26,49627,54214,6371.88
      synechocytis sp。 PCC6803SS.蓝杆菌3,1691,4931,0341.44
      nostoc sp. PCC7120n5,3682,4971,7621.42
      大肠杆菌 K-12EC.革兰氏阴性细菌4,2892,0641,6361.26
      嗜血杆菌流感你好1,7096144761.29
      霍乱霍乱 chr1vc.2,7361,2198811.38
      幽门螺杆菌 26695生命值1,5666995001.40
      Brucella melitensis. 16M chr1BM.2,0591,0677561.41
      农杆菌肿瘤术 C58AGT.2,7221,6101,0781.49
      枯草芽孢杆菌BS.革兰氏阳性细菌4,3671,7231,2701.36
      Bacillus halodurans.BH.4,0661,5971,1821.35
      支原体肺炎MP.6883602421.49
      mycoplasma Genitalium.4802511701.48
      Deinococcus radiodurans. chr1博士2,5792,2741,3111.73
      乙酰苯乙烯酯酸梭菌 ATCC824加利福尼亚州3,6721,5501,1321.37
      archaeoglobus fulgidus.AF.archaea.2,4219907471.32
      Aeropyrum Pernix. K1AP2,6941,8271,1761.55
      Methanobacterium Thermoutotrophicum公吨1,8696915311.30
      Methanococcus jannaschii.MJ.1,7158756411.36
      Pyrococcus abyssi.pa1,7658476131.38
      Pyrococcus horikoshii.ph2,0649737301.33
      哈杆菌 sp. NRC-1HS.2,0581,7851,0601.68
      热血药草嗜酸钙TA.1,4785113951.29
      热血药物火山电视 1,5264523761.20
      Pyrobaculum erophilum.paE.2,6051,2208661.41
      Sulfolobus tokodaii.英石2,8261,2038661.39
      Sulfolobus solfataricus.SS.OL.2,9941,3359621.39
      a 一些在蛋白质序列处不完全并且不包括在分析中。所列蛋白质的数量对应于所用的数量。
      我们任意将简单的序列定义为序列的延伸,其中1)的长度至少为10个残基,2)由单一类型的残留物的≥50%组成,3)开始和结束感兴趣的残留物,4)没有差距(跑步 没有 感兴趣的残留物的长度超过5个残留物。
      我们代表了长度的蛋白质序列 L 作为一个字符串, a1a2a3a4 。 。 。 aL, 在哪里 ai 是在位置的残留物 i。当搜索在某种残留型中富集的简单序列时,首先产生该残留物的蛋白质串中的数值位置作为一串 i 价值观。基于位置的位置提取推定的简单序列 i 鉴于在简单的顺序内不允许长度为6或更多残留的空隙的值。全部识别许多长度的推定简单序列 i 对应于流动的残留物的值。由于仅选中感兴趣的残留物,因此该过程仅自动产生从感兴趣的残留物开始和结束的序列。随后过滤除去较长10个残基的序列。测试剩余序列以满足感兴趣的残留物的≥50%阈值。进一步分析不满足标准的序列以确定满足我们标准的短简单序列是否在其中。整个过程导致鉴定满足上述所有四个标准的蛋白质谱系内的所有非重叠简单序列。用于识别简单序列的计算机程序是用Python / C ++编写的,并在硅图形工作站上执行。
      我们使用泊松分布(
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      ,
      • SOPER H.E.
      泊松指数限制的表格。
      )为了模拟含有给定残留物类型的简单序列的概率,在真核蛋白质组中。这是给出的
      f(n)= emmnn!
      (eq 1)


      在哪里 f(n)是发生事件的可能性 n 时代。在我们的研究中 l 是简单序列的长度, n 是阈值,和 m is derived from
      m = l×(% occurrence of residue)100 
      (eq 2)


      预期的简单序列的数量 l 然后在蛋白质组中
      SSexpect=f(n)×Tl 
      (eq 3)


      在哪里 Tl 是长度的序列窗口的总数 l in the proteome.
      SS.的简单序列的实际数量之间的差异tot,长度 l 发现了泊松分布的数字
      Δ=SSTotSSexpect 
      (eq 4)


      对于SS的简单序列超过约25个残留物预计 基本上是零,在这种情况下,Δ等于发现的简单序列的数量。最后,为了比较生物体中的简单序列的发生,我们定义δR as follows:
      ΔR= ΔNumber of proteins in proteome 
      (eq 5)


      结果和讨论

       简单的序列定义

      我们鉴定蛋白质简单序列的标准可确保我们找到满足简单序列的任何定义的序列,例如Wootton和合作工人的低复杂度措施(
      • Wootton J.C.
      • Federhen S.
      序列数据库中的合成偏置区域分析。
      )或金色使用的定义(
      • Golding G.B.
      简单的序列在真核蛋白质中丰富。
      )。我们选择使用这种定义,因为它相对简单申请,所识别的序列本质上是明确的。选择使用的允许间隙(5个或更少残留物),因为这是10-残基序列中可能的最大间隙,最短的考虑,同时仍然满足我们≥50%的阈值要求。 ≥50%的阈值确保即使蛋白质序列中随机性也相对不太可能发生较短的序列。如下所述,对于许多残留物,所获得的Δ值趋于大且阳性,表明我们确实识别了比预期的更多序列,其是随机的性质中随机的序列。如果阈值降低至≥30%,则我们在所有长度中发现了更简单的序列;然而,许多这些,特别是短序列,通过使用泊松分布模型(数据未示出)预期的数量来计算。如果阈值增加到≥70%,我们会发现相对较少的序列(数据未显示)。

       包含可能不正确的蛋白质序列

      我们选择在我们检查过的蛋白质粒中包含所有完整的蛋白质序列。这包括那些标记的假设,推定或可能尚未注释的蛋白质。还包括冗余序列。这种选择是为了能够对蛋白质组进行更完整的分析,导致“无偏”的观点。发现的一些简单序列可能来自未表达为蛋白质的序列。 Bork和Copley(
      • Bork P.
      • Copley R.
      填补空白。
      )指出,难以识别序列基因组中的基因。对于真核生物基因特别难以识别出口的易于忽略。理想情况下,应重复下面提出的分析留出那些标记的蛋白质标记为假设或未注释。然而,由于用于表示这种推定的蛋白质序列的各种注释,这是极其困难的。因此,我们选择用警告呈现完整蛋白质部分的分析,即一些结果可以通过不正确的蛋白质序列存在稍微倾斜。

       丰富的蛋白质简单序列

      调查的所有有机体在其蛋白质谱中具有显着数量的简单序列(表I.)。在蛋白质组的蛋白质组中,在Mg(480蛋白)的小蛋蛋白质中,发现的数量为251,在蛋蛋白质组中(26,496蛋白序列调查)。此外,每个蛋白质组中的蛋白质的显着级数具有至少一种简单的顺序。 图。1A 是具有一种或多种简单序列的蛋白质数量的曲线图。SS.,针对每个蛋白质组中的蛋白质数量。乍一看,可以推断出在含简单序列的蛋白质的数量和蛋白质总数之间存在线性关系。最适合绘制的线 图。1A 相关系数为0.99。然而,真核生物具有比原核生物的显着更大的蛋白质素,因此具有更简单的序列。实际上,将数据变为适合于五点,四个真核生物基本上是单点的基本上。
      图缩略图GR1.
      Fig. 1a 显示具有至少一种绘制蛋白质组中蛋白质总数的至少一种简单序列的蛋白质的数量。 b 仅显示代理的数据。计算出最佳拟合线,不包括HS和DR。 c 是单个序列与每个生物体具有简单序列的蛋白质数量的比例的条形图。这 虚线 表示原核生物的平均值(1.40)。提供了真核生物的比率和两个外围原核生物(HS和DR)。
      如果只考虑到调查的四个真核仪,则通过数据的最佳合适 图。1A 将产生0.99的相关系数。但是,这只是一个四点合适,并且可能是真核生物蛋白质组大小和prot之间没有线性关系SS.。显然,一旦他们获得,需要检查更多真核生物的完整蛋白质蛋白质,以更好地了解这种关系。可以从这个数字结束,数据 表I.,调查的真核蛋白质中的蛋白质中的蛋白质数量是至少一种如此工作中定义的简单序列。个体量为SC中的53%,CE中的51%,59%,55%,55%。为什么DM将具有明显更高的蛋白质蛋白质,至少一种简单的顺序尚不清楚。卡林 等等。 (
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ),在最近对蛋白质≥200个残留物的均聚有次数的调查中,发现DM具有比其他真核生物更多的更远。他们还发现,尽管有更多的蛋白质调查,但人类蛋白质的蛋白质比来自CE的蛋白质更多的蛋白质。这些数据表明,人蛋白质组还可以具有比在本作作品中观察到的平均值的含有简单序列的较大蛋白质。
      图。1B is a plot of ProtSS. 针对调查的26个原核生物的每个蛋白质组中的蛋白质数量。存在明显的线性相关性与具有0.92的相关系数的最佳拟合线。两种原核生物,古代症状Hs和细菌博士似乎是异常值。从拟合中排除这些结果导致0.96的相关系数。对原核生物观察到的强烈的线性相关性可能表明这些简单序列通过随机事件出现,导致随机分布仅取决于每个蛋白质组中的蛋白质数量。然而,如下面将展示的,我们的数据表明,简单序列的发生和分布本质上不是随机的,并且这些序列中的许多可能具有生物学意义。
      图1C.,SS发现的简单序列数量的条形图tot,来说SS. 对于调查的每种生物来说,针对原核生物和真核生物中的蛋白质简单序列的发生差异。原核生物比真核生物的每种蛋白质的简单序列更少。在所有情况下,原核生物的简单序列比其蛋白质组中的蛋白质总数较少,而真核素质具有更多(表I.)。原核生物平均1.40每种蛋白质的简单序列,具有至少一种简单序列(该 虚线图1C.)。再次,HS和DR是前货核结的明确异常值,拥有SStot/ prot.SS. 比率为1.68和1.73的比例,两个值大于2个标准偏差,从原核生物的平均值偏差。真核生物的比率在Ce和2.18中的1.88次,2.18英寸高达3.09的每种蛋白质的简单序列,在DM中至少有一种简单的顺序。真核生物显然不仅容忍这些序列的显着较高,而不是原核生物,它们也更有可能在每种蛋白质中具有多种简单序列。
      比率SS.tot/ prot.SS. 当然依赖于我们对蛋白质简单序列的定义。人们可以想象,增加允许间隙的大小(目前设定为5个或更少的残留物)将导致一些简单的序列合并,导致总体较少,但更长序列的数量增加。结果将是SS的较低值tot/ prot.SS. for each proteome.
      许多组检测了均聚序列的序列的发生,并注意到每种蛋白质的真核生物比原核生物更多(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      ,
      • Marcotte e.m.
      • Pellegrini M.
      • yeates t.o.
      • 艾森伯格D.
      蛋白质重复的人口普查。
      ,
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      )。 Nishizawa. 等等。 (
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      )注意,与古代蛋白质相比,“现代”组织特异性蛋白质具有高达20个残基的均聚物长度的趋势。他们继续假设这种重复性增强了分子间相互作用的机会。该假设是通过观察结果来支持,所述观察结果通常在转录调节蛋白的蛋白质相互作用域中发现富含谷氨酰胺,脯氨酸或带电残基的简单序列(
      • 布伦德尔五。
      • 卡林S.
      电荷簇与细胞转录因子功能域的结合。
      ,
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ,
      • 克什y.
      • 国王D.
      • Soller M.
      简单的序列重复作为定量遗传变异的源。
      ,
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      )富含脯氨酸的序列是常见的蛋白质 - 蛋白质相互作用域(
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      ,
      • 威廉姆森M.P.
      蛋白质中富含脯氨酸区的结构和功能。
      )。然后,似乎是真核生物,特别是多细胞生物,已经进化到需要许多用于功能目的的蛋白质简单序列。
      目前尚不清楚为什么HS和DR将成为原核生物中的异常值 Fig. 1。 HS是一个极端的嗜戟(
      • ng w.v.
      • 肯尼迪S.P.
      • 马赫拉斯G.G.
      • 伯特奎斯特B.
      • 潘米
      • Shukla H.D.
      • Lasky S.R.
      • Baliga N.S.
      • Thorsson V.
      • Sbrogna J.
      • Swartzell S.
      • 奇怪的。
      • 大厅J.
      • dahl t.a.
      • Welti R.
      • gooy.a.
      • Leithauser B.
      • Keller K.
      • Cruz R.
      • 丹森M.J.
      • Hough D.W.
      • Maddocks D.G.
      • Jablonski P.E.
      • Krebs M.P.
      • 古老的下午
      • 戴尔H.
      • isenbarger t.a.
      • Peck R.F.
      • Pohlschroder M.
      • spudich J.L.
      • jung k.w.
      • Alam M.
      • 弗雷塔斯特
      • 侯S.
      • 丹尼尔斯C.J.
      • 丹尼斯P.P.
      • omer a.d.
      • eBhardt H.
      • 低于下午
      • 梁子
      • 莱利M.
      • 引擎盖L.
      • Dassarma S.
      卤素物种NRC-1的基因组序列。
      ),被调查的生物体中唯一的一个。假设HS可能具有更高比例的简单序列,因为在这样一个不寻常的环境中不断生存。 NG. 等等。 (
      • ng w.v.
      • 肯尼迪S.P.
      • 马赫拉斯G.G.
      • 伯特奎斯特B.
      • 潘米
      • Shukla H.D.
      • Lasky S.R.
      • Baliga N.S.
      • Thorsson V.
      • Sbrogna J.
      • Swartzell S.
      • 奇怪的。
      • 大厅J.
      • dahl t.a.
      • Welti R.
      • gooy.a.
      • Leithauser B.
      • Keller K.
      • Cruz R.
      • 丹森M.J.
      • Hough D.W.
      • Maddocks D.G.
      • Jablonski P.E.
      • Krebs M.P.
      • 古老的下午
      • 戴尔H.
      • isenbarger t.a.
      • Peck R.F.
      • Pohlschroder M.
      • spudich J.L.
      • jung k.w.
      • Alam M.
      • 弗雷塔斯特
      • 侯S.
      • 丹尼尔斯C.J.
      • 丹尼斯P.P.
      • omer a.d.
      • eBhardt H.
      • 低于下午
      • 梁子
      • 莱利M.
      • 引擎盖L.
      • Dassarma S.
      卤素物种NRC-1的基因组序列。
      )指出,HS蛋白质组中36%的推定蛋白质与此时的任何先前报道的蛋白质无关,并且这些蛋白质可以很好地提供HS可以存活极端盐浓度的机制。然而,HS蛋白质组织尚未详细分析,以知道这些蛋白质是否特别富集在简单序列中,因此我们无法在这一点上得出任何结论。
      博士绰号为“柯南的细菌”,以实现其抗拒非常高剂量的电离辐射和紫外线照射的能力
      • 白o.
      • eisen J.A.
      • Heidelberg J.F.
      • 你好CKEY E.K.
      • 彼得森J.D.
      • Dodson R.J.
      • HAFT D.H.
      • Gwinn M.L.
      • 纳尔逊W.C.
      • Richardson D.L.
      • Moffat K.S.
      • 秦H.
      • 姜L.
      • Pamphile W.
      • 克罗斯比姆
      • 沉M.
      • vamathevan J.J.
      • 灯。
      • 麦当劳L.
      • 彻底侵回
      • Zalewski C.
      • Makarova K.S.
      • aravind l.
      • 戴利姆。
      • 孟顿K.W.
      • Fleischmann R.D.
      • Ketchum K.A.
      • 纳尔逊K.E.
      • Salzberg S.
      • 史密斯H.O.
      • venter J.C.
      • 弗雷泽下午
      放射性细菌的基因组序列 Deinococcus radiodurans. R1.
      )并且是唯一调查的有机体拥有这些显着的特征。据推测,DR的辐射抗性是由于其独特的息肉类性质和其基因组中的丰富的DNA重复元素。这些DNA重复可用于调节对该生物体损伤后的DNA降解。在该物种中鉴定的大量蛋白质简单序列可以归因于这种重复虽然不是博士的息肉状性质。这种有机体具有更简单的序列 每种蛋白质 而不是其他原核生物(表I.)。仅仅具有每个基因的多个副本不会提高每种蛋白质的简单序列的数量。由于DNA修复装置在暴露于诸如辐射的极端条件之后,DNA修复装置的DNA修复装置的误差随着DNA修复装置的误差而导致蛋白质简单序列可能随着时间的推移而被出现。另一方面,这些简单序列中的一些可能在DR开发的生存机制中发挥积极作用。对DR蛋白质组的进一步功能分析是为了更好地理解为什么这种生物体具有如此多的蛋白质简单序列。
      出于清晰和重点的原因,本文的其余部分将重点关注真核生物中蛋白质简单序列的发生和分布。

       总长度分布

      Fig. 2,针对简单序列长度的简单序列数的数量的对数图,是在检查的四个真核中观察到的显着简单序列长度分布的清晰图示。原核生物显示相似的长度分布,但通常最长的原核简单序列短于最长的真核序列(数据未显示)。在较短的简单序列中,长度可以在与相邻偶数长度相比相比的时间较少的情况下看到数据中的周期性。这是用于识别简单序列的算法的结果。作为示例,给定≥50%的阈值,简单的序列11残留物长必须具有至少6个给定类型的残基。该量至少为55%的富集,而12-残基简单序列也可以具有6个残基,导致至少50%的富集。这种周期性倾向于以长的简单序列长度延迟。
      图缩略图GR2.
      Fig. 2每个真核生物中的简单序列总数的记录曲线图绘制了符合简单序列长度。
      毫不奇怪地存在随着长度的增加而发现的简单序列的数量急剧下降。较短的简单序列非常常见。当然,这种观察部分部分是我们对蛋白质简单序列的定义的结果。降低或提高≥50%的富集的阈值将改变这些数字,因为改变推定简单序列之间的差距。尽管如此,在单个残留物中高度富集的蛋白质简单序列非常常见。
      在AT中发现最长的简单序列,是410个残留物,并在甘氨酸中富集。在具有显着长的简单序列的情况下并不孤单。 SC中最长的是246个残留物,富含丝氨酸。 CE中最长的是富氨基浓度,长度为291个残留量,而DM具有322-残基长的富含甘氨酸的序列。值得注意的是,这些简单序列中的所有四种都发生在已被解析的蛋白质中。发现的大部分简单序列当然比这些更短,绝大多数是60或更少的残留物(~99.5%; Fig. 2)。
      Fig. 3 是蛋白质组中蛋白质数量的单数的条形图,作为四种真核生物的长度的函数。通过蛋白质组大小允许直接比较生物体。数据分为三个长度; 10-20个残留物(图3A),20-40(图3B.)和40-60(图3C.)。观察到的周期性 Fig. 2 是显而易见的 图3A 并且可以看到已经消退 图3B.。从中很清楚 Fig. 3 DM在所有长度上平均每种蛋白质的更简单序列,而不是其他生物,尽管具有更多的总共和CE具有相似的数量(表I.)。实际上,DM具有两倍以上的数量≥20个蛋白质≥20个残留物的两倍多于检查的其他三种真核生物。显然DM已经发展以忍受大量的简单序列。不完全清楚的是,这种观察是否与DM的功能要求相关联。 Nishizawa. 等等。 (
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      已经指出,神经和免疫系统特异性蛋白质具有更高的倾向,其具有完全由一种残留型组成的短脉冲序列。人们可以合理地期望这将延伸到本调查中发现的高度富集的简单序列。如果是这样,与所检查的其他真核相比,DM可能并不令人惊讶的是,DM具有如此丰富的这些简单序列。分析具有简单序列的DM中蛋白质的功能将在此揭示其它真核生物的蛋白质蛋白质蛋蛋白质。
      图缩略图GR3.
      Fig. 3对于各种简单的序列长度,将简单序列的总数与每个蛋白质组中的蛋白质数量的比例。 a 是10-20个残基的简单序列的数据, b 是20-40个残留物,和 c 是40-60个残留物。
      什么也许是最令人惊讶的 Fig. 3 是SC在其蛋白质组中具有第二大蛋白质的蛋白质,其几乎所有长度高达60个残基的单个简单序列。通常具有最少的。 Huntley和Golding(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      )先前指出,SC具有高比例的蛋白质简单序列,尽管它们无法解释原因。来自的常见主题 Fig. 3 是,所检查四种真核的蛋白质中的许多蛋白质具有简单的序列区域。事实上,它先前已经观察到蛋白质简单序列是真核生物中最常见的序列模式(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      )。 Huntley和Golding(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      )表明蛋白质简单序列是相当于“垃圾DNA”,服务几乎目的。但是,考虑到发现的简单序列数与其中一些中的已知功能耦合(
      • 布伦德尔五。
      • 卡林S.
      电荷簇与细胞转录因子功能域的结合。
      ,
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ,
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ,
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      ,
      • 威廉姆森M.P.
      蛋白质中富含脯氨酸区的结构和功能。
      ),假设真核生物耐受,甚至需要大量简单序列的功能原因很容易诱人。

       残留长度依赖性

      图。 23 似乎检查的四种真核生物具有类似的蛋白质简单序列分布,尽管具有相对丰度的差异。当在单个残留物类型的水平下考虑简单的序列分布时,揭示了生物体之间的突出差异。 Fig. 4 显示上面发现的简单序列数量的比率预期从泊松分布到每个生物蛋白质组中的蛋白质数量,δR,针对每个残基绘制简单的序列长度。将序列长度纳入范围:10-20(图4A),21-40(图4B.)和41多(图4C.)残留物。省略了半胱氨酸,蛋氨酸和色氨酸的数据,因为我们发现含有这些稀有残留物的很少的简单序列。比率δR 是每种真核生物蛋白质组中的每种蛋白质的普通简单序列是如何高于泊松分布预测的衡量标准。该比率允许轻松比较生物体。更高的δR 表明即使发现可能与其他生物相比,与其他生物相比,生物体中给定长度的简单序列更为常见。 δ的负值R 表明那些简单的序列比从泊松分布从泊松分布所预测的那些简单的序列。由于各种原因,可能会歧视这些序列。
      图缩略图GR4.
      Fig. 4上面发现的简单序列数量的比率从泊松分布模型,δR,对于每种残基型绘制的每种真核蛋白质组中的蛋白质数量。 由于这些残留物发现的单数序列,除去半胱氨酸,甲硫氨酸和色氨酸的数据。 a shows ΔR 对于简单的序列10-20个残留物, b 显示21-40个残留物,和 c 显示41个或更多残留物。

       检查所有真核生物共用的功能 -

      在考虑每个生物的简单序列分布的差异之前,所有四种真核表都有一些特征,值得关注 Fig. 4。也许最明显的常见特征是δ的负值R 在短的长度(10-20个残基)中观察到小型脱液残留物异亮氨酸,亮氨酸和缬氨酸(图4A)。这些负值表明,泊松分布可能预期的这种简单序列较少。最引人注目的观察是对于亮氨酸,最常见的残留物。我们在短长度上发现了数百少数少数序列。对于SC和AT,这对于-585和-1523的δ值特别明显。 CE和DM还具有大的负δ值(分别为-497和-397)。对于21-40个残基的简单序列(图4B.),δR 亮氨酸,异氨酸和缬氨酸的值变为正,但很小。对于δ更长的长度R 值为零或非常小。我们似乎观察到对这些小型无恶劣残留物高度富集的简单序列的歧视。这是由绿色和王观察到的(
      • 绿色H.
      • 王恩。
      密码子重新研究和蛋白质的演变。
      ),Katti. 等等。 (
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      )和卡林 等等。 (
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ),世卫组织众所周知,这些残留物的长度长于10个残留物的延长。在这些研究中,残留物的运行定义为单独组成,除了在Katti的研究中除外 等等。 (
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      )允许10%不匹配的序列长度超过20个残基。我们可能会在此观察到生物物理学效果。 10-20个残基的序列长度为≥50%亮氨酸,异氨酸或缬氨酸将是高度疏水的,可能对含有它们的蛋白质产生聚集风险。因此,它们正在进化地歧视。中等长度,21至〜30个残留物变得更有可能,因为此类序列可以充当施瓦茨所建议的跨越地区 等等。 (
      • Schwartz R.
      • istrails。
      • 国王J.
      球状蛋白序列中氨基酸串的频率表示连续疏水性残留物的抑制。
      )。
      我们应该注意到发现的实际亮氨酸,异氨酸和富含富含缬氨酸的简单序列可能相当大。例如,在DM中,我们发现1841,96和223个简单序列,分别在这些残留物中的每一个中富集的长度为10个残基。然而,由于这些残留物的相对丰度,泊松分布预测也很大(分别为1445,95和218),导致δ和δ的小或负值R.
      值得注意的是,我们找到δ的正值R 对于短,中等甚至长长度的苯丙氨酸和酪氨酸(Fig. 4)。富硒酸富碱基序列特别令人惊讶,因为这是罕见的残基之一。人们可能期望在这种大型疏水性残留物中富集的序列可能不容残杀,但情况似乎不是这种情况。目前尚不清楚为什么会容忍这种序列。
      仔细检查 Fig. 4 揭示了丝氨酸,谷氨酸,赖氨酸和丙氨酸高度富集的序列似乎受到在短长度的所有四种真核生物(图4A)。在中等长度,富含富含丙氨酸的序列变得不那么常见(图4B.),而长度长,富含甘氨酸的序列似乎受到青睐。通过绿色和王观察含有这些残基的序列的序列的类似分布(
      • 绿色H.
      • 王恩。
      密码子重新研究和蛋白质的演变。
      )和卡蒂 等等。 (
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      )但是,尽管这些作者没有使他们的残留物数据正常化,但对于在自然中随机的序列是可能预期的。对于丝氨酸高度富集的序列,甚至需要通过真核生物耐受血清,尽管当然存在富含蛋白质结构域的实例,但甚至需要在这种残留物中含有重要蛋白质结构域的序列。一个这样的例子是RNA聚合酶II的C-末端结构域,其在功能上必需的,并且由各种生物(
      • Corden J.L.
      RNA聚合酶II的尾部。
      )。有趣的是,已知该富含丝氨酸的区域(〜43%丝氨酸)与富含脯氨酸的地区相互作用(
      • 威廉姆森M.P.
      蛋白质中富含脯氨酸区的结构和功能。
      )以及一系列丝氨酸/精氨酸富含蛋白质(
      • Yuryev A.
      • Patturajan M.
      • Litingtung Y.
      • Joshi R.V.
      • 外邦粉
      • Gebara M.
      • Corden J.L.
      RNA聚合酶II最大亚基的C-末端结构域与新型的丝氨酸/精氨酸富蛋白质相互作用。
      )。 Wootton和Drummond(
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      已经表明,富含丝氨酸的序列可以充当蛋白质结构域之间的柔性接头,与富含甘氨酸的序列的假设相同。
      富含带电残基的序列,例如赖氨酸和富含谷氨酸的富序列被真核生物(Fig. 4),已与DNA和RNA加工,染色质结构,离子结合和蛋白质 - 蛋白质相互作用有关(
      • 卡林S.
      蛋白质中序列模式的统计显着性。
      )。因此,这种简单序列在各种功能角色中的参与可能会解释它们的相对丰富。众所周知,丙氨酸是α-螺旋中最能充满活力的残留物(
      • 极光r.
      • 奶油霜T.P.
      • Srinivasan R.
      • 罗斯G.D.
      蛋白质折叠的局部相互作用。来自α-螺旋的课程。
      ,
      • Chakrabartty A.
      • Kortemme T.
      • Baldwin R.L.
      在丙氨酸基肽中测量的氨基酸的螺旋施力,无需螺旋稳定的侧链相互作用。
      )。因此,人们期望组合物中50%或更高丙氨酸的序列将具有α-螺旋的趋势,尽管当然当然会被序列中的其他残留物的性质以及由三级结构进行调节它们是部分的蛋白质。我们观察到的短丙氨酸丰富的序列的偏好可能与二级结构要求有关。富含富含甘氨酸的序列,可能出于相反的原因容忍;也就是说,这些最有可能代表蛋白质结构域之间的灵活接头。
      其中一个更令人惊讶的观察 Fig. 4 是在组氨酸中高度富集的简单序列。虽然所有长度都有许多这些,但我们在上面发现的数字是重要的。其中一些很长。例如,DM中的四个最长的组氨酸含量为46,51,54和56个残留物。在CE中,虽然这些最长的最长为50,51,84和251个残留物,但这些最长是在一个被解释的蛋白质中,实际上可能表明这不是表达的蛋白质。组氨酸是最罕见的残留物之一,其中占四种蛋白质组中所有残留物的2.2-2.7%。相比之下,甲硫氨酸具有相似的发生水平,但我们发现在泊松分布预测的这种残留物中几​​乎没有富集的简单序列。同样,我们发现非常少量的色氨酸和半胱氨酸富集的序列。人们可能假设富含组氨酸的序列具有某种离子结合功能,尽管这尚未证明这一点。

       检查的分布差异检查 -

      它从中立即显而易见 Fig. 4 与其他三个真核生物相比,DM具有显着不同的简单序列分布。 DM的数据证明了富含丙氨酸,谷氨酰胺,甘氨酸和丝氨酸的所有长度的简单序列的偏好。短至中等长度,10-40个残留物(图4,A和B.),DM还显示出对天冬酰胺,脯氨酸,苏氨酸的一些偏好,并且可能是最令人惊讶的富含组氨酸富集的序列。在较小程度上,还可以存在富含天冬氨酸和精氨酸和精氨酸的序列的偏好。这些观察到的偏好是对“异常”高SS负责的大部分负责tot/ prot.SS. 观察到DM的比率(图1C.)。大量谷氨酰胺和米尔西特和魏斯曼的DM中的富含天冬酰胺的序列(
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      ),谁建议其中许多可以充当蛋白质蛋白质相互作用域。目前尚不清楚为什么DM将耐受,也许甚至需要大量的丙氨酸,甘氨酸和富含丝氨酸的序列。
      虽然DM显然比其他三个真核生物不同,但假设对其他生物观察到的分布没有显着差异是错误的。 SC在所有长度中对天冬酰胺和富含天冬氨酸和天冬氨酸富集的序列的偏好以及对富含丝氨酸的序列中的中等长度的引人注目的偏好。此外,SC不耐用亮氨酸和异氨酸富含曲线,而不是其他真核生物,并且含有富含精氨酸,甘氨酸和富含脯氨酸和富含脯氨酸的序列的含量略微较小。这些偏好背后的原因并不总是清晰。例如,对富含长度的富含丝氨酸的序列的较大偏好的原因是未知的。 Wootton和Drummond(
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      )表明富含含有蛋白质结构域之间的丝氨酸柔性接头的序列。如果这是真的,则SC中富含丝氨酸序列的偏好可以与观察到的富含甘氨酸序列的较低耐受性联系(Fig. 4)。 SC可能已经进化以使用富含丝氨酸的序列作为接头,而不是富含甘氨酸的序列,即其他真核生物似乎更喜欢。下面讨论富含丝氨酸地区的另一个潜在作用。 Michelitsch和Weissman(
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      )之前观察到SC和其他真核生物中大量的富含天冬酰胺序列。这些作者假设这些地区作为蛋白质 - 蛋白质相互作用的调节剂。为什么SC将需要更大的富含天冬酰胺的富含芦酰胺的序列,与真核生物相比不清楚。富含脯氨酸序列的耐受性较低,可能是由于SC的单细胞性质。它不需要富含多细胞真核生物的脯氨酸细胞外结构蛋白。对富含亮氨酸和异氨酸和异氨酸富含序列的原因以及富含精氨酸的序列的耐多平仍然是神秘的。
      蠕虫CE还具有其独特的蛋白质简单序列分布。从 Fig. 4 可以看出,CE对富含苯丙氨酸和富含谷氨酰胺和丝氨酸和丝氨酸和富集的序列的偏好。 Ce也似乎耐受富含天冬酰胺的序列的耐受性而不是SC,DM,并且可能比DM和富含脯氨酸的序列的耐受性更少。对富含苏氨酸的序列和富含谷氨酰胺的序列的耐受性几乎没有耐受(Fig. 4)。与其他真核生物相比,在任何长度级别的任何特定简单序列中似乎没有高度偏好。
      很明显,检查的四种真核生物中的每一个都具有自己独特的简单序列分布(Fig. 4)。基于Karlin执行的均聚运行的分析 等等。 (
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      )由Kreil和Kreil进行分析(
      • Kreil D.P.
      • Kreil G.
      芦笋蛋白质的重复是罕见的哺乳动物蛋白质。
      )富含天冬酰胺的序列,似乎清楚的是,人蛋白质组也将显示独特的简单序列分布。为可理解的原因检查了对四个真核生物观察到的一些差异。例如,由于SC以来所检查的其他真核生物,因此不能预期富含脯氨酸的序列,因此不能预期富含脯氨酸的序列。然而,如重复上述所指出的,观察到的许多各种简单序列偏好的原因是不知道的。由于其他生物使用不同的残留物,因此使用特定残留物的特定残留物的生物体产生一些差异。例如,如图所示,SC可以利用富含丝氨酸的地区作为CE,DM和使用富含甘氨酸的序列的柔性接头。对简单序列区域的保护的详细分析将有助于解决这些问题。 Huntley和Golding(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      )已经注意到,简单的序列是蛋白质之间最常见的共同特征,但序列内残留物的身份可以在生物之间变化。

       蛋白质简单序列发生的功能分析 -

      我们对真核生物(和原核生物)蛋白质蛋白质的调查导致鉴定巨大数量的蛋白质简单序列,远远超过预期的序列是随机的。假设许多这些序列发挥了某种功能作用。该假设由有限的实验和生物信息证据支持(
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ,
      • Katti M.v.
      • Sami-Subbu R.
      • ranjekar p.k.
      • Gupta V.S.
      蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
      ,
      • Michelitsch M.D.
      • Weissman J.s.
      谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
      ,
      • 卡林S.
      • Brocchieri L.
      • 伯格曼A.
      • MRAZEK J.
      • 胶水A.J.
      氨基酸在真核蛋白质组和疾病协会中运行。
      ,
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      ,
      • 威廉姆森M.P.
      蛋白质中富含脯氨酸区的结构和功能。
      ,
      • Corden J.L.
      RNA聚合酶II的尾部。
      ,
      • Yuryev A.
      • Patturajan M.
      • Litingtung Y.
      • Joshi R.V.
      • 外邦粉
      • Gebara M.
      • Corden J.L.
      RNA聚合酶II最大亚基的C-末端结构域与新型的丝氨酸/精氨酸富蛋白质相互作用。
      ,
      • tonjum t.
      • 持久性D.A.
      • 邓汉斯。
      • Koomey M.
      与脑膜炎脑膜炎术术的高多态性结构域相关的重复序列元素的结构和功能。
      )。为了进一步检查该问题,我们研究了已知功能蛋白质中简单序列的分布。具体地,我们已经从Swiss-Prot数据库中注释的四种真核生物中的每一个收集了所有蛋白质的序列(
      • Bairoch A.
      • APWEILER R.
      Swiss-prot蛋白序列数据库:其与人类分子医学研究的相关性。
      ,
      • Bairoch A.
      • Boeckmann B.
      Swiss-Prot蛋白质序列数据库。
      )作为参与蛋白质课程(例如 膜蛋白或一组方法(例如 转录)。然后使用上述完整蛋白质组的方法分析这些蛋白质中简单序列的发生和分布。结果显示在 表二。注意,所示的数据高度依赖于瑞士 - PROL中的注释的完整性和准确性以及学习的特定类别在每个生物中的蛋白质。由于这些限制,我们在大多数情况下发现了相对较少的蛋白质序列。此外,一些蛋白质可能出现在一个以上的分类中 表二。因此,难以在类之间直接比较,以及生物之间发现的简单序列的数量。但是,考虑发现最常见的简单序列是可行的(表二)。
      表二根据课程或过程进行分组的蛋白质中的简单序列分布
      关键词
      a 用于搜索相关蛋白质的Swiss-prat数据库的关键字。
      SC.ceDM.
      蛋白质SS.成立蛋白质SS.成立蛋白质SS.成立蛋白质SS.成立
      细胞周期10217711917371110
      代谢755921111652716
      信号229455189202251399201176
      转录27467787101177838105130
      运输44044914885102133160118
      1,0041,192399388426642311298
      最常见的简单序列类型(找到的数字)
      细胞周期SER(64)阿拉(3)SER(11)SER(3)
      代谢阿拉(13)GLY(4),雷乌(4)val(2)SER(6)
      信号SER(173),THR(133)Pro(34),Ser(24),Leu(24),Glu(24)Leu(63),Ser(55),GLN(48),ALA(40)Pro(61),黎鲁(42)
      转录SER(138),ASN(114)SER(42)SER(194),GLN(161),ALA(136),GLY(99)SER(35),ALA(21)
      运输SER(88),Leu(75)艾拉(16),黎鲁(16)雷(22),阿拉(21)ALA(32),SER(20)
      SER(283),LEU(235),THR(111)Leu(77),Ser(47)Leu(178),Ser(77),GLY(71),ALA(63)雷乌(85),阿拉(45)
      a 用于搜索相关蛋白质的Swiss-prat数据库的关键字。
      立即明显 表二 是几乎所有检查的蛋白质中富含丝氨酸富含序列的丰富。富含丝氨酸的序列是所有四种生物中最常见的,特别是在最丰富的短长度尺度上(Fig. 4),所以也许这一发现并不令人惊讶。然而,富含丝氨酸的序列的作用尚不清楚。如上所述,已经提出了这种序列可以充当蛋白质结构域之间的柔性接头(
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      )或作为蛋白质相互作用域(
      • Corden J.L.
      RNA聚合酶II的尾部。
      ,
      • Yuryev A.
      • Patturajan M.
      • Litingtung Y.
      • Joshi R.V.
      • 外邦粉
      • Gebara M.
      • Corden J.L.
      RNA聚合酶II最大亚基的C-末端结构域与新型的丝氨酸/精氨酸富蛋白质相互作用。
      )。含有富含丝氨酸和精氨酸的蛋白质含有富含丝氨酸和精氨酸的区域涉及mRNA剪接控制(
      • Manley J.L.
      • 塔克罗。
      SR蛋白和拼接控制。
      )。富含丝氨酸的区域还可以用作某种形式的磷酸化开关,就像RNA聚合酶II的C末端结构域一样,操作(
      • Corden J.L.
      RNA聚合酶II的尾部。
      )。
      考虑到每类蛋白质 表二,可以看出,鉴定的有限细胞周期蛋白组中最常见的简单序列是富含丝氨酸的。除了SC的情况外,还发现了很少的细胞周期蛋白,这可能是用于研究这些过程的模型系统。发现的102个SC细胞周期蛋白总共具有177个简单序列,其中三分之一(64)是富含丝氨酸的。这是与SC中的简单序列的总体分布相比,这种序列的清晰富集( Fig. 4)。这些序列的潜在角色如上所述。
      我们发现了相对较少的蛋白质在他们的注释中有关键词“新陈代谢”(表二)。随着前面的发现作为一种警告,值得注意的是,在新陈代谢相关蛋白质中的每种蛋白质(明显小于每种蛋白质)的单纯蛋白质的简单序列少于完整蛋白质组的平均值(略高于每种蛋白质; 表I.)。这将表明,与其他蛋白质类别相比,新陈代谢相关蛋白质中通常不需要简单的序列通常不需要它们。然而,如前所述,在本课程中发现了很少的蛋白质,我们可以简单地观察统计数据的变幻物。
      使用“信号”作为关键字,我们在所有四个真核生物中识别了大量蛋白质(表二)。这些蛋白质具有大量的简单序列,最常见的是富含丝氨酸,苏氨酸,脯氨酸,也许令人惊讶的亮氨酸。鉴于信号转导过程涉及大量磷酸化和去磷酸化事件,可能没有如此显着,即富含丝氨酸和苏氨酸的序列在信号传导蛋白中是常见的。在信号传导过程中还存在许多小蛋白质相互作用域(例如 SRC同源性3个域)与富含脯氨酸的序列(
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      ),导致该类中等序列中的富集。因此,在这类蛋白质中丝氨酸,苏氨酸和富含脯氨酸的序列的发生似乎是生物学上的显着性的。大量的富含亮氨酸含量的序列首先是令人费解的,特别是考虑到这些序列在低于使用我们的泊松分布模型(Fig. 4)。然而,该阶级中的合理数量的蛋白质可能具有膜跨越段,如下所述,可以是富含亮氨酸的。
      还确定了大量的转录相关蛋白质(表二)。值得注意的是,SC和DM中的转录相关蛋白质具有巨大数量的简单序列(分别在177个蛋白质中的274个蛋白质中的677个,分别为838蛋白)。虽然在CE和AT中没有看到相同水平的富集,但假设大量简单序列表明转录过程中的重要功能作用很诱人。实际上,已知这种蛋白质通常具有富含谷氨酰胺的序列(
      • 格柏H.P.
      • Seipel K.
      • Georgiev O.
      • Hofferer M.
      • 拥抱M.
      • Rusconi S.
      • Schaffner W.
      通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
      ),因此,这种序列在DM转录相关蛋白质中常见并不令人惊讶。我们还发现大量富含丝氨酸的序列(表二)。也许是作为磷酸化开关的富含丝氨酸的区域的最着名的例子是RNA聚合酶II(
      • Corden J.L.
      RNA聚合酶II的尾部。
      )。虽然在我们的调查中未富集丝氨酸,但是该区域众所周知,当不磷酸化时,该区域众所周知与各种转录因子相互作用。当丝氨酸变为磷酸化时,这些相互作用和随后转录被中断。在其他转录相关蛋白质中可能存在类似的富含丝氨酸的开关/相互作用区域。
      还发现了合理数量的交通相关的蛋白质(表二)。这些具有大致相同的简单序列数,这是预期的四个真核生物的总体平均值(表I.)。亮氨酸 - ,丙氨酸和丝氨酸富含序列是最常见的。鉴于通过膜的分子运输是一种常见和重要的方法,将与膜相关的大量的传输相关的蛋白质。然后,大量的亮氨酸和富含丙氨酸的地区最可能指示施瓦茨建议的膜跨越区域 等等。 (
      • Schwartz R.
      • istrails。
      • 国王J.
      球状蛋白序列中氨基酸串的频率表示连续疏水性残留物的抑制。
      )。
      最后,我们已经鉴定了许多膜相关蛋白质,其中许多含有简单序列(表二)。据推测,由于上述原因,在这类蛋白质中发现了大量富含亮氨酸的序列。事实上,许多这些富含亮氨酸的地区被注释为这些蛋白质的瑞士 - Prom文件中的膜跨越。为什么富裕的地区是如此丰富,这不清楚。其中一些可能发现在与膜相关的信号蛋白中(见上文),而其他可能是用作分离可口膜结构域的柔性接头的柔性接头。 Wootton和Drummond(
      • Wootton J.C.
      • 德拉蒙德米
      Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
      )假设富含丝氨酸的地区充当柔性接头。值得注意的是,富含甘氨酸的地区,也认为作为接头,在DM膜相关蛋白中是常见的。也许富含丝氨酸的地区被富含甘氨酸的富含物体(表二)。

       简单的序列结构 -

      知道蛋白质简单序列采用的结构类型是有用的。不幸的是,关于这种序列的结构性特性很少。 Saqi(
      • Saqi M.
      低复杂性段的结构实例分析。
      )最近亨特利和昂贵(
      • 亨特利M.A.
      • Golding G.B.
      蛋白质数据库中的简单序列很少见。
      )已经寻找蛋白质数据库中的蛋白质结构中的所有简单序列(
      • 伯恩斯坦F.C.
      • Koetzle T.F.
      • 威廉姆斯G.J.B.
      • Meyer Jr.,E.F.
      • Brice M.D.
      • 罗杰斯J.R.
      • 肯纳德o.
      • Shimanouchi T.
      • Tasumi M.
      蛋白质数据库:基于计算机的归档文件,用于大分子结构。
      )。很少有人发现。 Huntley和Golding(
      • 亨特利M.A.
      • Golding G.B.
      蛋白质数据库中的简单序列很少见。
      )指出,在蛋白质数据库中,简单的序列在蛋白质数据库中表示,并假设这表明这种区域是本质上无序的。蛋白质的本质无序区域是结构测定的障碍,因此由结构生物学家常规缺失蛋白质。简单的序列,特别是相对较长的序列,达格和同事的工作得到了紊乱(
      • 罗梅科州
      • Obradovic Z.
      • 李X.
      • Garner e.c.
      • 棕色c.j.
      • Dunker A.K.
      无序蛋白质的序列复杂性。
      ,
      • Dunker A.K.
      • Obradovic Z.
      • 罗梅科州
      • Garner e.c.
      • 棕色c.j.
      完全基因组中的内在疾病。
      ,
      • Dunker A.K.
      • 劳森J.D.
      • 棕色c.j.
      • 威廉姆斯下午
      • 罗梅科州
      • 哦,J.S.
      • oldfield c.j.
      • 坎贝恩上午
      • ratliff c.m.
      • Hipps K.W.
      • Ausio J.
      • NISSEN M.S.
      • Reeves R.
      • 康C.
      • 基辛格C.R.
      • Bailey R.W.
      • Griswold M.D.
      • 邱W.
      • Garner e.c.
      • Obradovic Z.
      本质无序的蛋白质。
      ),使用低复杂性序列作为本机蛋白质的标识符。然而,存在指示,并非所有蛋白质简单序列都是非结构化的。例如,含有亮氨酸的膜跨越序列将高度结构化,最可能在膜中α-螺旋。相信富含脯氨酸的地区,并且在许多情况下已经显示出来,采用左手多脯氨酸II螺旋构象(
      • 凯斯。
      • 威廉姆森M.P.
      • Sudoss M.
      脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
      )。假设所有简单序列都是非结构化的,这将是一个错误。这是一个清楚需要进一步调查的区域。

      结论

      这里我们在这里介绍了四种真核生物蛋白质蛋白质组中高度富集的蛋白质简单序列的调查。为了比较,我们还调查了26个原核生物的蛋白质。在调查的所有有机体中发现了一个惊人的大量简单序列(表I.)。我们发现真核生物平均每种蛋白质的一个或多个如此简单的序列,而原核生物平均蛋白质组中的每种蛋白质的平均序列少于一种简单的顺序。此外,真核生物中的蛋白质在刚性下略高于每种蛋白质的略高于三于三个简单序列之间的至少一个简单序列平均值。这些发现与他人的工作一致(
      • 亨特利M.
      • Golding G.B.
      蛋白质中简单序列的演变。
      ,
      • Marcotte e.m.
      • Pellegrini M.
      • yeates t.o.
      • 艾森伯格D.
      蛋白质重复的人口普查。
      ,
      • Nishizawa K.
      • Nishizawa M.
      • Kim K.S.
      现代蛋白质中氨基酸用药局部重复趋势。
      )。原核生蛋白质蛋白质蛋白质中的简单序列的数量与蛋白质素中的蛋白质数强烈相关(图。1B)。鉴于我们只调查了四个蛋白质,目前尚不清楚线性关系将适用于真核性。
      真核生物中,我们发现DM每种蛋白质具有比其他三个真核生物中的任何一种更简单的序列(表I.)。这对于所有简单的序列长度都是如此(Fig. 3)。通过比较,Sc,Ce,和AT具有每种蛋白质的相似数量的单个序列,SC可能显示出一些偏好对长简单序列(Fig. 3)。在完整蛋白质组的分布中,我们发现富含某些残留物,例如丙氨酸,谷氨酰胺,谷氨酸,甘氨酸和丝氨酸的简单序列似乎受到青睐,而其他残基,特别是亮氨酸,异亮氨酸和缬氨酸是区分的反对。这些偏好与残留物发生不相关。这些观察到的偏好中的一些可以在结构和/或功能方面合理化,而其他人则保持神秘。
      这些调查中最值得注意的发现是每个真核生物都具有自己独特的蛋白质简单序列分布。我们发现每个生物显然对某些残留物中富集的简单序列的偏好有时不适用于富含其他残基的简单序列。目前尚不清楚为什么这些真核生物已经进化为具有不同的简单序列分布。然而,鉴于发现这种序列的纯粹数量加上已经详细研究的那些简单序列的已知功能重要性,它很诱人注意,不仅有真核生物而发展以容忍大量简单序列,而且它们需要许多这些。对蛋白质类别简单序列的简单分析表明,一些课程可以赞成在某些残留物中富集的简单序列(表二)。
      这里提出的数据提出了只能通过进一步研究和分析来回答的问题。例如,在简单序列和功能的类型之间有关联吗?数据in. 表二 是暗示的,但绝不是决定性的。不同的生物体是否使用不同类型的简单序列进行相同的功能?每个生物都拥有独特的分布的事实意味着这可能是这种情况,但我们没有直接证据。这种序列的结构性是什么?目前可用的结构数据很少,但很明显,假设所有简单序列都会混乱,这将是不正确的。对这些问题的答案,这些问题将在这里突出显示的简单序列的丰富和分布。

      致谢

      我们感谢Brian Chellgren,Marnie Campbell,David Rodgers,Rajeev Aurora,乔治富裕讨论。

      参考

        • Wootton J.C.
        • Federhen S.
        序列数据库中的合成偏置区域分析。
        方法酶。 1996; 266: 554-571
        • 布伦德尔五。
        • 卡林S.
        电荷簇与细胞转录因子功能域的结合。
        Proc。 Natl。阿卡。 SCI。美国。 1989; 86: 5698-5702
        • 格柏H.P.
        • Seipel K.
        • Georgiev O.
        • Hofferer M.
        • 拥抱M.
        • Rusconi S.
        • Schaffner W.
        通过均聚谷氨酰胺和脯氨酸延伸调节的转录活化。
        科学。 1994; 263: 808-811
        • 克什y.
        • 国王D.
        • Soller M.
        简单的序列重复作为定量遗传变异的源。
        趋势类型。 1997; 13: 74-78
        • Katti M.v.
        • Sami-Subbu R.
        • ranjekar p.k.
        • Gupta V.S.
        蛋白质序列中的氨基酸重复模式:它们的多样性和结构功能含义。
        蛋白质SCI。 2000; 9: 1203-1209
        • 绿色H.
        • 王恩。
        密码子重新研究和蛋白质的演变。
        Proc。 Natl。阿卡。 SCI。美国。 1994; 91: 4298-4302
        • Cummings C.J.
        • Zoghbi H.Y.
        三核苷酸重复:机制和病理生理学。
        安努。 Rev. Genomics Hum。遗传。 2000; 1: 281-328
        • 卡林S.
        • 击败C.
        三核苷酸在基因和蛋白质中重复和长同牙质,与神经系统疾病和发育相关。
        Proc。 Natl。阿卡。 SCI。美国。 1996; 93: 1560-1565
        • Michelitsch M.D.
        • Weissman J.s.
        谷氨酰胺/天冬酰胺的地区人口普查:对其保守功能的影响和新的小朊病毒的预测。
        Proc。 Natl。阿卡。 SCI。美国。 2000; 97: 11910-11915
        • 卡林S.
        • Brocchieri L.
        • 伯格曼A.
        • MRAZEK J.
        • 胶水A.J.
        氨基酸在真核蛋白质组和疾病协会中运行。
        Proc。 Natl。阿卡。 SCI。美国。 2002; 99: 333-338
        • 凯斯。
        • 威廉姆森M.P.
        • Sudoss M.
        脯氨酸的重要性:富含富含富含脯氨酸的基序与其同源结构域的信号蛋白相互作用。
        Faseb J. 2000; 14: 231-241
        • 威廉姆森M.P.
        蛋白质中富含脯氨酸区的结构和功能。
        生物学习。 j。 1994; 297: 249-260
        • 卡林S.
        蛋白质中序列模式的统计显着性。
        Curr。拍摄。结构。 BIOL。 1995; 5: 360-371
        • Wootton J.C.
        • 德拉蒙德米
        Q-Linker:在细菌多群体调节蛋白中发现的一类互补序列。
        蛋白质工程。 1989; 2: 535-543
        • 罗梅科州
        • Obradovic Z.
        • 李X.
        • Garner e.c.
        • 棕色c.j.
        • Dunker A.K.
        无序蛋白质的序列复杂性。
        蛋白质。 2001; 42: 38-48
        • Dunker A.K.
        • Obradovic Z.
        • 罗梅科州
        • Garner e.c.
        • 棕色c.j.
        完全基因组中的内在疾病。
        基因组通知。 Ser。研讨会基因组通知。 2000; 11: 161-171
        • Saqi M.
        低复杂性段的结构实例分析。
        蛋白质工程。 1995; 8: 1069-1073
        • Meyer e.f.
        • Tollet Jr.,W.J.
        wwwywwy做自然口吃吗?重复氨基酸股线的调查。
        Acta Crystallogr。教派。 D生物。 Crystallogr。 2001; 57: 181-186
        • 亨特利M.
        • Golding G.B.
        蛋白质中简单序列的演变。
        J.Mol。 evol。 2000; 51: 131-140
        • Golding G.B.
        简单的序列在真核蛋白质中丰富。
        蛋白质SCI。 1999; 8: 1358-1361
        • Marcotte e.m.
        • Pellegrini M.
        • yeates t.o.
        • 艾森伯格D.
        蛋白质重复的人口普查。
        J.Mol。 BIOL。 1999; 293: 151-160
        • Katti M.v.
        • ranjekar p.k.
        • Gupta V.S.
        真核基因组序列中简单序列重复的微分分布。
        摩尔。 BIOL。 evol。 2001; 18: 1161-1167
        • Nishizawa K.
        • Nishizawa M.
        • Kim K.S.
        现代蛋白质中氨基酸用药局部重复趋势。
        J.Mol。 BIOL。 1999; 294: 937-953
        • SOPER H.E.
        泊松指数限制的表格。
        Biometrika。 1914; 10: 25-35
        • Bork P.
        • Copley R.
        填补空白。
        自然。 2001; 409: 818-820
        • ng w.v.
        • 肯尼迪S.P.
        • 马赫拉斯G.G.
        • 伯特奎斯特B.
        • 潘米
        • Shukla H.D.
        • Lasky S.R.
        • Baliga N.S.
        • Thorsson V.
        • Sbrogna J.
        • Swartzell S.
        • 奇怪的。
        • 大厅J.
        • dahl t.a.
        • Welti R.
        • gooy.a.
        • Leithauser B.
        • Keller K.
        • Cruz R.
        • 丹森M.J.
        • Hough D.W.
        • Maddocks D.G.
        • Jablonski P.E.
        • Krebs M.P.
        • 古老的下午
        • 戴尔H.
        • isenbarger t.a.
        • Peck R.F.
        • Pohlschroder M.
        • spudich J.L.
        • jung k.w.
        • Alam M.
        • 弗雷塔斯特
        • 侯S.
        • 丹尼尔斯C.J.
        • 丹尼斯P.P.
        • omer a.d.
        • eBhardt H.
        • 低于下午
        • 梁子
        • 莱利M.
        • 引擎盖L.
        • Dassarma S.
        卤素物种NRC-1的基因组序列。
        Proc。 Natl。阿卡。 SCI。美国。 2000; 97: 12176-12181
        • 白o.
        • eisen J.A.
        • Heidelberg J.F.
        • 你好CKEY E.K.
        • 彼得森J.D.
        • Dodson R.J.
        • HAFT D.H.
        • Gwinn M.L.
        • 纳尔逊W.C.
        • Richardson D.L.
        • Moffat K.S.
        • 秦H.
        • 姜L.
        • Pamphile W.
        • 克罗斯比姆
        • 沉M.
        • vamathevan J.J.
        • 灯。
        • 麦当劳L.
        • 彻底侵回
        • Zalewski C.
        • Makarova K.S.
        • aravind l.
        • 戴利姆。
        • 孟顿K.W.
        • Fleischmann R.D.
        • Ketchum K.A.
        • 纳尔逊K.E.
        • Salzberg S.
        • 史密斯H.O.
        • venter J.C.
        • 弗雷泽下午
        放射性细菌的基因组序列 Deinococcus radiodurans. R1.
        科学。 1999; 286: 1571-1577
        • Schwartz R.
        • istrails。
        • 国王J.
        球状蛋白序列中氨基酸串的频率表示连续疏水性残留物的抑制。
        蛋白质SCI。 2001; 10: 1023-1031
        • Corden J.L.
        RNA聚合酶II的尾部。
        趋势生物化学。 SCI。 1990; 15: 383-387
        • Yuryev A.
        • Patturajan M.
        • Litingtung Y.
        • Joshi R.V.
        • 外邦粉
        • Gebara M.
        • Corden J.L.
        RNA聚合酶II最大亚基的C-末端结构域与新型的丝氨酸/精氨酸富蛋白质相互作用。
        Proc。 Natl。阿卡。 SCI。美国。 1996; 93: 6975-6980
        • 极光r.
        • 奶油霜T.P.
        • Srinivasan R.
        • 罗斯G.D.
        蛋白质折叠的局部相互作用。来自α-螺旋的课程。
        J. Biol。化学。 1997; 272: 1413-1416
        • Chakrabartty A.
        • Kortemme T.
        • Baldwin R.L.
        在丙氨酸基肽中测量的氨基酸的螺旋施力,无需螺旋稳定的侧链相互作用。
        蛋白质SCI。 1994; 3: 843-852
        • Kreil D.P.
        • Kreil G.
        芦笋蛋白质的重复是罕见的哺乳动物蛋白质。
        趋势生物化学。 SCI。 2000; 25: 270-271
        • tonjum t.
        • 持久性D.A.
        • 邓汉斯。
        • Koomey M.
        与脑膜炎脑膜炎术术的高多态性结构域相关的重复序列元素的结构和功能。
        摩尔。微生物。 1998; 29: 111-124
        • Bairoch A.
        • APWEILER R.
        Swiss-prot蛋白序列数据库:其与人类分子医学研究的相关性。
        J.Mol。 Med。 1997; 75: 312-316
        • Bairoch A.
        • Boeckmann B.
        Swiss-Prot蛋白质序列数据库。
        核酸RES。 1991; 19: 2247-2249
        • Manley J.L.
        • 塔克罗。
        SR蛋白和拼接控制。
        基因开发。 1996; 10: 1569-1579
        • 亨特利M.A.
        • Golding G.B.
        蛋白质数据库中的简单序列很少见。
        蛋白质。 2002; 48: 134-140
        • 伯恩斯坦F.C.
        • Koetzle T.F.
        • 威廉姆斯G.J.B.
        • Meyer Jr.,E.F.
        • Brice M.D.
        • 罗杰斯J.R.
        • 肯纳德o.
        • Shimanouchi T.
        • Tasumi M.
        蛋白质数据库:基于计算机的归档文件,用于大分子结构。
        J.Mol。 BIOL。 1977; 112: 535-542
        • Dunker A.K.
        • 劳森J.D.
        • 棕色c.j.
        • 威廉姆斯下午
        • 罗梅科州
        • 哦,J.S.
        • oldfield c.j.
        • 坎贝恩上午
        • ratliff c.m.
        • Hipps K.W.
        • Ausio J.
        • NISSEN M.S.
        • Reeves R.
        • 康C.
        • 基辛格C.R.
        • Bailey R.W.
        • Griswold M.D.
        • 邱W.
        • Garner e.c.
        • Obradovic Z.
        本质无序的蛋白质。
        J.Mol。图形。模型。 2001; 19: 26-59