从少量越来越多地获得更多

具有多个短肽序列的快速蛋白质鉴定的算法*
  • Aaron J. Mackey.
    脚注
    隶属关系
    弗吉尼亚大学微生物科,弗吉尼亚州夏洛茨维尔22908
    搜索本作者的文章
  • 蒂莫西A.J.草艇
    脚注
    隶属关系
    弗吉尼亚州夏洛茨维尔弗吉尼亚大学生物化学与分子遗传学系22908
    搜索本作者的文章
  • 威廉R. Pearson
    一致
    部分支持来自国家医学图书馆的授予LM04969,康柏计算机公司的额外支持。应该解决对应的通信。电话:434-924-2818;传真:434-924-5069
    隶属关系
    Duke University药理学系,达勒姆,北卡罗来纳州27710
    搜索本作者的文章
  • 作者脚注
    *本文的出版成本部分按付款方式部分支付。因此,本文必须明白“广告“按照18 U.S.C.第1734节仅表明了这一事实。本文的在线版本(可用 http://www.mcponline.org)含有补充材料。
    §由国家健康机构的授予T32AI07046支持。
    ∥由国家健康机构的补助金HL19242-24和DK52378-04支持。
      我们描述了两种新颖的序列相似性搜索算法,快速和FastF,其使用多个短肽序列来识别蛋白质或DNA数据库中的同源序列。快速搜索未知顺序的肽序列,通过基于质谱的测序获得的,评估肽的所有可能的布置。用混合肽序列进行快速搜索,如肽的未分子混合物的Edman测序所产生的。使用贪婪的启发式进行Cutnvolutes混合物,允许快速识别高得分对齐,同时减少探索替代品的总数。这两种算法都使用启发式FastA比较策略来加速搜索,但使用对准概率,而不是相似度得分,作为对准最优性的标准。使用对理论概率的经验校正来计算统计估计。这些计算的估计在我们的测试数据集中的FAST和1000的FAST倍数内准确。快速只需要在三个或四种肽中只需要15-20个总残留物,以稳健地识别共用50%或更高蛋白质序列同一性的同源物。 FASTF比快速增加大约25%的序列数据以获得等效灵敏度,但额外的序列数据通常可从混合Edman实验中获得。因此,两种算法都可以识别多年前发散的同源物,允许来自未对其基因组的生物体鉴定的蛋白质组学鉴定。
      来自生物分离株的蛋白质的快速和准确鉴定是现代蛋白质组学的主要目标(图。1A)。各种质谱技术,包括基质辅助激光解吸/电离 - 飞行时间和液相色谱 - 电喷雾电离,可以快速获得可以与源自初级序列数据库衍生的理论光谱相匹配的肽质量映射(
      • ENG J.K.
      • mccormack a.l.
      • YALES III,J.R.
      一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
      )。但是,女士
      使用的缩写是:MS,质谱; MS / MS,串联质谱。
      1使用的缩写是:MS,质谱; MS / MS,串联质谱。
      基于大规模匹配需要与成功的数据库序列进行几乎完全匹配,使其在生物体中使用的是不切实际的,其基因组未对高质量或识别鉴定可替代的基因产物。用于基于频谱搜索的更复杂的算法是突变容忍(
      • PEVZNER P.A.
      • Dancik V.
      • 唐c.l.
      通过质谱法识别突变蛋白质。
      ),但效率仅具有最小突变(
      • PEVZNER P.A.
      • Dancik V.
      • 唐c.l.
      通过质谱法识别突变蛋白质。
      ,
      • PEVZNER P.A.
      • Dancik V.
      • mulyukov z.
      • 唐c.l.
      突变数据库搜索的效率与串联质谱。
      )。
      图缩略图GR1.
      Fig. 1用短的无序肽和肽混合物搜索。 快速和快速发现未知蛋白质(a)使用从MS / MS获得的序列数据(b)或混合Edman测序(c)。混合肽测序从每种切割/分析循环产生多个残基。通过抗突变对准与相关序列进行有序和肽混合物进行排序,肽混合物脱泛溶解和有序(d)。
      或者,串联质谱(MS / MS)实验能够产生少量序列(
      • MLEFFERTY F.W.
      • Fridriksson E.K.
      • 喇叭d.m.
      • Lewis M.A.
      • Zubarev R.A.
      生物分子质谱。
      );利益蛋白质酶促切割成在碰撞诱导的解离之前通过质量分离的多种肽片段,产生每种肽的MS / MS光谱。每个频谱都可以解释为获得 德诺维 部分主要序列数据(
      • Dancik V.
      • addona t.a.
      • 克劳瑟K.R.
      • vath J.E.
      • PEVZNER P.A.
      德诺维 通过串联质谱进行肽测序。
      ,

      Chen,T.,Kao,M.,Tepel,M.,Rush,J.和Church,GM(2000)在ACM-Siam讨论会上的公共校长,旧金山,2000,PP。389-398, ACM Press,纽约

      )(图。1B),可以执行基于序列的数据库搜索(
      • 威尔m。
      肽序列标签序列数据库中肽鉴定耐腐蚀鉴定。
      )。以前的方法来识别 德诺维 肽序列用每种肽序列执行多个独立数据库搜索,随后报告所有肽之间最常发生的数据库序列(
      • 黄兰
      • 雅各布r.j.
      • Pegg S.C.-h.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20 S蛋白酶的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法。
      )。虽然这种方法适用于具有在数据库中完全或近乎精确匹配的片段,但标准序列相似性搜索算法难以识别仅为单个短肽(三至六氨基酸)的进化相关的相关序列共享不到90%的同一性,因为关于搜索查询的有限信息内容(
      • altschul s.f.
      氨基酸替代基质从信息理论的角度看。
      ,
      • altschul s.f.
      • Boguski M.S.
      • GISH W.
      • Wootton J.C.
      搜索分子序列数据库中的问题。
      )。因此,具有较低身份较低的肽的搜索结果可以增加比同源性的噪声比分析更多。在这里,我们描述了一种改进的算法,快速,用于使用所有MS衍生的数据库搜索 德诺维 肽序列同时,在通过使用基于概率的评分来最大化有限查询的信息内容的条件下。
      部分蛋白质序列也可以通过常规的N-末端EDMADMEN测序测定肽的未分子混合物(
      • damer c.k.
      • 鹧J.
      • Pearson W.R.
      • haystead t.a.j.
      混合肽测序和数据库搜索快速鉴定蛋白质磷酸酶1结合蛋白。一种新型蛋白质磷酸酶1的新型核心形式的表征。
      )(图1C.)。因为没有涉及片段分离步骤,但起始材料的毫微微胶体足以进行10-12个测序循环,其中每个循环从每种肽产生在该循环中存在的所有氨基酸的混合物。混合肽测序通常获得比MS为基于MS的更长的序列读数 德诺维 测序并对翻译后修改不太敏感。然而,任何单独的肽的确切线性序列仍然是未知的,需要在每个位点处的残基进行去卷积以重建每种肽的原始序列。之前 (
      • damer c.k.
      • 鹧J.
      • Pearson W.R.
      • haystead t.a.j.
      混合肽测序和数据库搜索快速鉴定蛋白质磷酸酶1结合蛋白。一种新型蛋白质磷酸酶1的新型核心形式的表征。
      ),我们简要介绍了执行此任务的FASTF算法;在这里,我们提供FastF算法的进一步细节,并通过引入基于概率的分数来改善以前的方法对先前方法的敏感性。
      快速和快速延长FASTA算法(
      • Pearson W.R.
      • Lipman D.J.
      改进的生物序列比较工具。
      )并且可用于FASTA软件包,用于序列数据库搜索。这两种算法最大化搜索灵敏度(a)使用具有高信息内容的评分矩阵(b)限制生成的校准种类,并且(c)使用严格的概率标准来实现最佳对准,这显着提高了算法对传统相似性的最大化方法的算法的灵敏度和特异性。最重要的是,这些算法计算精确的统计估计,提供了从大规模蛋白质组学测序努力中鲁布利地识别同源蛋白质的能力。

      实验步骤

       快速和快速算法 -

      FAST和FASTF使用Fasta启发式策略(
      • Pearson W.R.
      • Lipman D.J.
      改进的生物序列比较工具。
      ) (看 表I.)快速搜索数据库以获得指示同源性的高质量对齐。在初始阶段,使用查找表识别对每个肽具有高同一性的区域。然后使用这些区域用作使用PAM型产生未授子的子程的焦点(
      • Schwartz r.m.
      • Dayhoff M.
      )评分矩阵(FAST自动修改评分矩阵以考虑ILE / LEU和LYS / GLN ISOBARS)。在这个副期间,快速和快速与Fasta不同;虽然Fasta在该地区寻找最佳局部未拍摄的对齐,快速,快速,自动强制在库序列内的单个肽的未拍摄全局对齐。
      T有能力的 IFasta,Fast和FastF算法
      Fasta.禁食Fastf.
      1.识别查询和库序列共享的相同区域,其中包含查找表识别相同的地区识别每个位置的任何匹配的相同区域
      2.使用评分矩阵重新扫描相同区域,以找到没有间隙的最佳局部对齐Rescan在查询中需要全局对齐的相同区域Rescan相同的区域在每个位置选择最佳得分残留物
      2b.再次重新扫描,从最佳得分区域开始,从定位混合物中消耗残留物
      3.加入非重叠,有序地区,以产生最佳评分对齐加入非重叠区域以产生最低概率对齐加入非重叠区域以产生最低概率对齐
      4.计算带限量史密斯 - 水曼分数
      在下一个阶段,Fasta加入子程化区域,总结其相似度分数以找到最佳评分,不重叠和适当的排序对齐, IE。 对齐的区域在查询和库序列中线性排序。由于快速使用的查询肽的真实顺序是未知的,所以快速只需要对准的肽不重叠。此外,快速加入子程序以产生最低概率总结,而不是最高的相似性分数(请参见下文“对准概率”)。 Fasta包括第四个和最后阶段,以产生与间隙的间隙的史密斯 - 水工对齐,而是约束在以最高评分初始区域为中心的对角线带内。快速不执行第四步,因为在对齐的肽中不允许间隙。总之,快速简单地扩展了快速查找和加入策略,并使用更严格的加入标准对准无序肽来对准无序肽。
      Fastf.使用相同的策略作为快速,但还必须将由Edman降解反应的每个循环中提供的氨基酸残基的混合物作出去抵消。这种碎屑需要额外的阶段(2B 表I.)为了确保每个循环的每个残留物仅在肽取向中仅使用一次。因为在第1阶段和阶段2中未知残留到肽的分配,因为FastF首先通过选择在每个高标识区域中产生最高匹配得分的氨基酸来计算最佳的相似性评分,无论选择是否选择以前使用过氨基酸。例如,如果残留物L,K和S作为在查询中的两个位置存在的氨基酸,并且在第二阶段与文库残留物L,R和M对齐,则查询残留物L会对齐对于库L(使用MDM20评分矩阵的+20分数()
      • 琼斯D.T.
      • 泰勒W.R.
      • 桑顿金。
      蛋白质序列的快速产生突变数据矩阵。
      ))和库M(分数为-2),并且查询渣数K会与库R(得分为0)对齐,而查询渣数S将保持未使用。
      在第2B阶段的Rescan期间,肽对准“消耗”可用的最佳残留物,具有来自阶段2a的得分度最高的区域,从而首先选择。在最佳情况下,库残留物L应该消耗查询残留物L,因为L:L对准具有最高分,并且将首选查询残留物占用; k应接下来与r对齐,然后是m(得分为-12)。然而,如果包含库M(M区)的区域的总分数高于包含库残留物L(L区)的区域,则M区将首先在阶段2B中选择其查询残留物;查询渣油L将在L型区域可以使用它之前由M区消耗,强制库L对准不同(更糟糕的评分)查询残留物。因此,这种“贪婪”的去卷积方法可以产生次优分数,这导致报告的对齐中的明显错误(如上所述,在两对L:L和S:M可以被错误地对齐为L:M和S:L) 。贪婪的方法可能会降低快速的灵敏度。然而,由于问题的组合性质,对肽比对的最佳分配比肽对准的比较相当耗时。

       对准概率 -

      与CastA,BLAST和其他序列相似性搜索程序产生的相似性分数不同,可以计算本地对齐的程序,快速和FASTF计算其分数是全局和局部相似性分数的组合的对齐。为单个肽取向计算全局评分,但肽可以留出最终取向;全局对准段的局部对准使得污染肽被排除在外。这些混合全球/局部对准分数不是常规爆炸,快速和史密斯 - 水曼相似分数的极端值分布(
      • 卡林S.
      • altschul s.f.
      通过使用普通评分方案评估分子序列特征的统计显着性的方法。
      ,
      • altschul s.f.
      • GISH W.
      本地对齐统计。
      )(数据未显示)。为了估计对准的统计学意义,我们首先计算它的理论概率,假设它是通过不采用启发式的最佳算法获得的。随后缩放该概率以反映经验观察到的对准分布。
      在数据库搜索的上下文中,快速或快速评分的统计期望由两个术语的乘积决定:1)在单对对齐中获得对准分数的概率,以及2)所考虑的替代对准的数量,取决于所涉及的序列长度和比较的查询数量和数据库序列的数量。术语1,单对对准分数的概率 S, P(Sx), 或者 PS,可以从每个氨基酸的频率和评分矩阵的频率计算(
      • mclachlan a.d.
      基因重复分析在肌体棒中重复。
      ,
      • Staden R.
      计算序列中查找模式的概率的方法。
      ,
      • Tatusov R.L.
      • altschul s.f.
      • koonin e.v.
      检测蛋白质中的保守段:对准块的序列数据库迭代扫描。
      ,
      • Bailey T.L.
      • Gribskov M.
      结合证据使用 P-值:应用程序序列同源性搜索。
      )。有两个替代对齐来源有助于快速和快速的“搜索空间”术语2 :(a)通过文库序列的长度和(b)并非所有肽的可能性将是对齐的。
      K 总长度的肽 M 可以与一系列长度对齐 LNA = ((LM)+ K)!(LM)!方法。如果是 NA 替代对准分数独立地分布,配对对准概率变为 (PSx|NA = 1  exp(NAPS) 当考虑替代对准搜索空间项时(
      • artatia r.
      • Gordan L.
      • Waterman M.S.
      鄂尔多斯 - 瑞士法在分布中,用于硬币折叠和序列匹配。
      )。然而,由于Fasta启发式策略,并非所有这些可能的位置都将被探索,从而减少实际对准搜索空间。而且,这是 NA 由于局部成分效应和更高阶序列依赖性,不同的对准不会产生真正独立的分数。在一起,这意味着 NA 太大了;校正高估对准搜索空间,并导致太多保守的统计估计。
      既不是快速也不快速要求所有查询肽对齐;这允许污染肽或同时分析蛋白质复合物。这增加了另一个级别的查询复杂性;对于快速, NQ = 2K - 可以从包含的查询获得1个独特的肽选择 K 肽。该因子代表在子程期间探讨的最大组合搜索空间。然而,通过这些组合可获得的分数之间存在强的依赖性,因此校正再次是保守的。对于FastF,独特的肽选择和去折叠的数量 K 肽,每个长度 M 并拥有 K 每个位置的独特残留如下 等式1.
      [NQ=K!M× i=1K(Ki)!M/I!
      (eq。1)


      代表的数字 等式1 以查询中存在的肽数量和呈指数的肽的数量以肽的长度呈现因子。第二调整再次太大;它没有考虑到FASTF使用的贪婪残留消耗方法探索的大量减少数量。
      对齐搜索空间纠正概率 PS|NA 用于在初始搜索期间选择最佳对齐。然后缩放这些对准概率以反映表观组合搜索空间大小。快速,快速使用初始 PS|NA 对准概率来估计经验组合搜索空间校正。最高可能是由于机会的最高概率的95%的对齐适合等式,LN( PS|NA)= aln(PO)+ BP.O + c, 在哪里 PO 是观察到的频率比或等于的概率 PS|NA, 和 a, b, 和 c 是由多个线性回归估计的参数。这种关系拟合在其整个范围内观察到的概率分布(数据未示出)并类似于混合指数衰减;这是有些预期的,因为FastA算法旨在找到高质量的最佳校准,同时不会在任何时间优化已经低质量的对齐。获得参数估计后 一种,b和ĉ,对齐概率 PS|NA 缩放以产生最终概率 P 每个对齐。此值用于报告统计预期估计, E = PN., 在哪里 N 是在数据库中搜索的序列数。

       数据库用快速搜索并快速

      用FAST搜索并FASTF使用具有高信息内容的浅分量矩阵(MDM20(
      • 琼斯D.T.
      • 泰勒W.R.
      • 桑顿金。
      蛋白质序列的快速产生突变数据矩阵。
      由于每个查询中的序列含量少量少量的序列内容,对于蛋白质数据库或MDM10进行搜索。没有使用任何差距罚款。 Pasta.bioch.virginia.edu可在程序中提供给程序的Web界面,源代码可通过FTP.Virginia.edu/fasta/通过FTP作为Fasta源分发的一部分提供。
      提高搜索灵敏度的概率对齐策略是耗时的; Runtime选项可用,其中最初没有计算对齐概率;只有原始对准分数被用作对准最优标准。搜索数据库后,使用正常概率驱动的对齐方法并采用报告,重新调整10%的序列。为了获得先前描述的执行经验缩放步骤的对准概率的分布,使用概率驱动的对准,用次次查询重新调整额外的随机选择的数据库序列。对于所有FastF搜索,并且对于那些快速搜索,为每个库序列重新计算成分频率,使用原始对齐分数作为真实对齐概率的替代品,在数据库的初始搜索期间,将运行时间提高了10或更多的倍数没有大量影响灵敏度(数据未显示)。

       建设测试数据库和查询 -

      快速和快速的性能评估了Swissprot V34的蛋白质子集(
      • Bairoch A.
      • Boechmann B.
      Swissprot蛋白质序列数据库。
      )编码DNA序列的数据库也可从GenBank获得TM值.
      M.-Q.黄和W. R. Pearson,稿件准备。
      111个蛋白质(由他们的俯视定义)(
      • Bairoch A.
      普利斯特:蛋白质中的网站词典和模式。
      )和pfam(
      • Sonnhammer E.L.
      • 艾迪S.R.
      • 德国R.
      PFAM:基于种子对齐的蛋白质域家族综合数据库。
      从测试数据库中选择的注释是满足以下标准:从每个家庭,可以选择一个代表序列,以超过50%的序列标识,超过50个残留物的区域,至少有15个其他家庭成员。另外,选择代表性序列能够使用Smith-Waterman搜索算法识别作为统计上显着的非注释序列的任何家庭被认为是不完全的,并且从进一步使用中丢弃。
      在每个代表性序列中,从鉴定的序列同一性的鉴定区域内提取五等间隔的非重叠10-MEL肽。这些111个疑问,由五种肽组成,用于产生含有较少肽和较短长度的持续较小的疑问。继续该过程,直到在两种和五种肽和每种肽之间的所有可能的嵌套查询和每个肽和每个残留物之间的长度之间。所描述的序列数据库和查询数据集可通过ftp.virginia.edu/fasta/data/fastsf_data.tar.gz获取匿名FTP。

       等价号计算和标志测试 -

      使用等价号码评估搜索性能,测量搜索中的相关序列数量的量度(
      • Pearson W.R.
      蛋白质序列数据库的方法比较。
      )。如果所有相关序列排列高于所有不相关的序列,则等效数为0.对于所有其他排序,对于给定查询的1和族的大小之间的等效数范围为0。我们使用非参数符号测试统计信息来评估所表现的任何差异,这些性能随着独立查询的等效号码的分布和减少。

       快速和MS-Shotgun之间的比较 -

      十四毫秒/ ms派生的快速查询 锥虫瘤布鲁斯群 20秒的蛋白质体蛋白,在REF中公布。 8,用于搜索国家生物技术信息中心(NCBI)非冗余蛋白数据库(2001年10月11日获得)。我们从考虑中删除所有击中来自生物体的序列 Kinetoplastida. 分类子女群(包括 T. Brucei.),由ncbi.nlm.nih.gov/taxonomy的NCBI的分类数据库确定。禁食 p 从报告的期望计算值(E)值为 P = 1 − exp(−E)。通过将全长查询序列对准到快速标识的最佳相关序列来获得百分比。对准间隙不计入百分比计算。对于快速报告任何相关序列的斑点,使用相应的全长查询序列用于搜索 Kinetoplastida. - 使用FASTA的非冗余数据库。 MS-Shotgun. p 值如参考文献报告。
      • 黄兰
      • 雅各布r.j.
      • Pegg S.C.-h.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20 S蛋白酶的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法。
      。通过使用全长候选文库序列搜索完整的非冗余蛋白质数据库来鉴定出质量的最高评分无关库序列,从中发现e≤10的对蛋白质体序列的次数−3.

      结果

       用快速搜索并快速

      使用实验获得的序列查询的快速和FastF搜索如下所示。 FASTS查询使用如下所示的修改的Fasta格式,逗号分离查询肽。
      对运行GNU / Linux OS的1 GHz Pentium III计算机执行此搜索,并在运行GNU / Linux操作系统的一个GHz Pentium III计算机上执行,并完成~10s。下面显示了顶部得分命中列表,将蛋白质鉴定为血清白蛋白。
      程序还输出顶部命中的计算对齐。
      FastF使用与快速相同的格式,随机分配在每个循环中识别的残留物到特定肽。因此,在下面所示的FASTF查询中,在循环1(m是第一个残留物中获得的D,G,T和L残留物,因为染色剂由溴化吡啶裂解产生)被任意分配给肽1至4。 FastF将每个列读取为一个位置(忽略列内残留物的垂直顺序)。
      使用此查询搜索NCBI非冗余蛋白数据库(699,616个序列)占用了80秒。对齐表明,FastF已将查询识别为ZIP-Kinase(期望2.7×10−8)并在保留由查询定义的位置组合物的同时对输入序列进行解作消化。然而,在这种情况下,对准仅涉及四种肽中的三种。

       统计学意义估算的准确性 -

      自引入爆炸计划以快速序列相似性搜索(
      • altschul s.f.
      • GISH W.
      • 米勒W.
      • 迈尔斯。
      • Lipman D.J.
      基本的局部比对搜索工具。
      ),最广泛使用的序列比较方案提供了估计对准分数偶然的频率。如果统计估计是准确的,那么不相关的序列应该具有对准分数,期望 E 约1%的独立搜索,期望为0.01 E 如果获得最高评分的不相关序列,则应在1000等中看到≤0.001。如果获得的最高序列获得 E ≤0.1只有1000个搜索只有一次,估算过于保守,并且可能错过相关序列作为假否定(II型错误)。相反,如果不相关的序列收到一个 E 每个搜索中≤0.01,很可能发生许多假阳性(I型)错误。因此,在评估序列比较策略的性能时,重要的是检查其统计估计的准确性。
      为了评估快速和快速统计估计的准确性,我们使用了我们的测试查询来搜索了注释的蛋白质和DNA数据库,检查了每个搜索中得分最高的得分不相关序列的预期估计值(Fig. 2)。使用FastF,独立查询共享相同的肽数和长度可以表现出Imperest I类型的I统计错误(图2A);大多数快速估计都非常可靠。 FASTF估计不太准确,通常以20-50的因素降低。统计不准确性取决于肽的长度和数量,并且翻译的序列比较(TFASTS和TFASTF)提供了不准确的统计估计(图。2B)。误差随着查询内容的总增加而增加,并且对于对DNA数据库的搜索,较差大约10倍,这是标准翻译的DNA搜索算法中也看到的效果(
      • Pearson W.R.
      • 木头t.
      • 张Z.
      • 米勒W.
      DNA序列与蛋白质序列的比较。
      )。
      图缩略图GR2.
      Fig. 2快速准确性和快速统计估计。A,将111个独立查询中的每一个,其中具有三种肽8个肽,与注释的蛋白质序列数据库进行比较。预测频率的最高评分不相关序列对准在纵坐标上绘制针对观察到的对准概率的频率。理想情况下,预测和观察的频率将是相同的,如所示 对角线。当预测的频率太低时(点以下对角线),匹配的统计显着性将被高估。这 虚线垂直线 表示95百分位的搜索,用于评估准确性 B. B,对于111个独立测试查询中的每一个,以不同的顺序内容(总残留物)执行复制搜索。肽数从2到5变化;肽长度从3到10变化。为肽长度和数量和蛋白质的每个组合显示在第95百分位的最高评分不相关序列的预测频率中观察到的误差比 相对 翻译DNA搜索使用TFASTS和TFASTF。 数据点 从查询集共享共享相同数量的肽 实线.
      图。2B 提供一种选择适合算法和查询内容的保守期望阈值的指南;例如,为了获得0.01的误报率为0.01,对于由三个或四个肽组成的平均快速查询,每个肽的长度为四个或五个残基,保守期望阈值将是10−3 对于TFasts搜索,另外10倍。对于长度10的三种肽的平均快速查询含量,阈值10−4 使用tfastf时,将是合适的,另外10倍以下。

       评估对准概率作为最优标准 -

      大多数序列对齐算法,包括一些设计用于MS / MS衍生序列(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • Bork P.
      • 站立K.G.
      用MALDI-Quadrupole飞行时间质谱和爆破同源搜索用未曲线基因组的生物体的蛋白质组。
      ),最大化对齐的总相似度得分,而不是最小化偶然获得对齐的概率(
      • altschul s.f.
      • erickson b.w.
      子程相似性的非线性测量及其意义水平。
      ,
      • althschul s.f.
      • erickson b.w.
      使用非线性相似函数的局部最佳子程。
      ,
      • altschul s.f.
      • erickson b.w.
      使用非线性相似函数的生物序列比较的显着水平。
      )。然而,在具有多种肽的搜索中,涉及与较高相似度分数的对齐中的任何单一肽都会导致得分的较低概率 PS,将第二肽添加到现有对准中可能不会在我们描述的统计模型下产生更统计学上的对齐;额外的肽增加了对准搜索空间调整 NA。考虑到这一潜在的罚款,快速和快速使用调整后的概率 PS|NA 加入子程时。这种最优性标准需要多肽对准,由更高的评分子程组成,不包括低(但正)评分子程,否则将使整体对准质量(通常称为“马赛克效果”(
      • Arslan A.N.
      • Egecioglu O.
      • PEVZNER P.A.
      序列比较的一种新方法:归一化序列对齐。
      )))。
      通过快速和快速,我们发现,除了具有消失的序列内容的查询外,概率校准提供比仅基于同样分数的子程加入更好的歧视力(Fig. 3)。我们还测量了概率评分对敏感性阈值的敏感性的直接效应,并且可以通过概率对准优化确定多达80-100%的身份的相关序列;然而,在50-70%的身份中,可以看到更适度的10%的改善。
      图缩略图GR3.
      Fig. 3概率的对准比基于刻度的对齐更敏感。 该图表示使用等效数测量的对准概率或相似度分数时快速和快速区分与不相关序列相关的能力(参见“实验程序”)。显示的是从比较的符号测试Z值,从变化的总序列内容(从2到5个长度为3-10件的片段),使用所有111测试查询策划蛋白质数据库。 数据点 从具有相同数量的肽的查询通过 线。正标志测试Z值表示概率校准的更好性能。 z的性能差异> 2.0 or Z <-2.0在统计上有重要 p = 0.05 threshold.

       算法的敏感性 -

      我们还在特定进化距离处检查了快速和快速的敏感性,按照平均百分比标识(Fig. 4)。这两种算法都容易识别远方相关序列之间的统计上显着的对齐。即使在~70%身份的靶标的靶标中,快速也可以使用长度5的四或五个肽鉴定数据库中的50%相关序列。通常,FASTF搜索需要更多的序列含量以类似,需要三个或四种肽长度9在前面的示例中实现与快速相同的敏感性。这些长度和肽数要求在每个目标实验中可实现的序列数据的范围内。
      图缩略图GR4.
      Fig. 4FAST和FASTF在具有适度查询内容的相关家庭成员之间识别统计上显着的对齐。 示出了每种算法以使用不同序列内容的查询的不同进化距离识别统计上有效的家庭成员的能力。绘制在这一边 y 轴是由算法识别的每个百分比上的家庭成员的平均分数,其预期优于10−4,使用默认参数。 数据点 从查询集共享共享相同数量的肽 实线. 数据点 标记为Fasta的几何速度从10个单独的FastA搜索(使用未修饰的MDM20评分矩阵和默认间隙惩罚),从每个家庭的参考序列中随机提取单肽。
      针对等同的DNA测试数据库,TFASTS和TFASTF实现灵敏度水平几乎与基于蛋白质序列的搜索一样好(数据未示出)。这是预期的,因为我们的DNA测试数据库主要由CDNA核苷酸序列组成,因此数据库总搜索空间(〜6倍)的增加不足以大大减少统计上显着的同源序列的数量。因此,FAST和FASTF可用于搜索表达的序列标签或未完成的未完成的未经内容的基因组数据库。
      较少数量的较长肽的搜索更敏感,特别是在更大的进化距离。对更多肽的敏感性降低,大部分地反映了理论的增加 NQ 术语和助理增加 PS|NA 缩放。通过快速查询,对额外肽的惩罚相对较小,并且通过额外残留物提供的总信息内容的增益很容易抵消。因此,快速敏感性几乎总是随着相似长度的额外肽而增加(Fig. 4)。当来自MS / MS实验的数据未能找到显着的命中时,可以从额外的MS片段谱的解释中获得的序列数据应该提高灵敏度。相比之下,随着肽长度的增加,FASTF查询遭受大规模的惩罚,甚至更糟糕地变得更糟(Fig. 4)。然而,与MS / MS实验不同,在混合的Edman降解实验中,对获得序列的肽的数量几乎没有控制。幸运的是,通过EDMAN测序产生克服组合罚分的较长肽序列的能力来减轻这种效果。

       快速比较替代方法 -

      既快乐(CIENTIFY)
      • 泰勒J.A.
      • 约翰逊R.S.
      序列数据库通过 德诺维 通过串联质谱测序肽测序。
      ))和爆炸(MS-BLAST(
      • 舍甫琴科A.
      • 孙耶夫斯。
      • Loboda A.
      • Bork P.
      • 站立K.G.
      用MALDI-Quadrupole飞行时间质谱和爆破同源搜索用未曲线基因组的生物体的蛋白质组。
      ),MS-Shotgun(
      • 黄兰
      • 雅各布r.j.
      • Pegg S.C.-h.
      • Baldwin M.A.
      • 王C.C.
      • 伯灵名A.L.
      • 巴比特P.C.
      20 S蛋白酶的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法。
      ))已通过以前的方法使用,以搜索具有MS / MS衍生的序列数据的数据库。这些前面的方法使用各种形式的一致性分析来识别具有最高评分的数据库序列,并且最常抵抗每个查询中的肽序列。在这三个中,只有MS-Shotgun试图同时对齐所有查询肽(通过重复喷射爆炸搜索,并通过查询的肽顺序的所有可能的置换)并为结果分配统计学意义。因此,我们通过重复在REF中进行的分析比较了MS-ShotgUN的快速比较。 8. 18天实验获得20 S蛋白酶体亚基的MS / MS肽序列询问 T. Brucei. 用于搜索国家生物技术信息中心的蛋白质序列的非冗余数据库,所有分类邻近 Kinetoplastida. sequences removed.
      虽然快速和MS-Shotgun表演类似(表二),快速统计估计比MS-Shotgun产生的统计估计更准确。快速搜索中得分的最高评分无关序列 p 值范围为0.22至1.0; MS-Shotgun. p 值范围从10−5 1.0。这个广泛的 p 不相关序列的值困扰,试图识别明确同源的数据库序列。可以清楚地看到精确统计估计的重要性,在斑点5的MS-Shotgun结果中可以清楚地看出,其中与相关序列的显着对准具有比不相关序列的概率更差;快速没有这样的困难。虽然在ref。 8个斑点2,12和15都确定是可识别的,得分最高的同源物 p values worse than 10−4,相关序列在相关和无关序列之间的概率差异小于100倍。
      T有能力的 IIT.Brucei 20 S蛋白质蛋白的快速和MS-Shotgun鉴定
      长度% 身份最好的MS-Shotgun P最好的速度 P
      有关的无关有关的无关
      1755476.58.0×10−128.5×10−39.1×10−281.00
      477950.23.8×10−243.8×10−41.1×10−210.95
      1167757.12.5×10−167.5×10−42.2×10−200.89
      134655.67.9×10−61.7×10−23.5×10−140.98
      745355.32.5×10−117.0×10−51.2×10−130.75
      15
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      22246.82.6×10−21.007.8×10−90.97
      655540.74.9×10−80.951.7×10−60.78
      5
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      76741.58.8×10−37.0×10−65.0×10−60.22
      2
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      54947.13.4×10−44.0×10−32.0×10−30.99
      12
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      43544.61.3×10−21.3×10−22.5×10−30.98
      3
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      44842.06.4×10−23.6×10−24.9×10−20.99
      9
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      43944.3
      b 通过Fasta确定和测量。
      3.9×10−21.8×10−21.001.00
      13
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      32964.1
      b 通过Fasta确定和测量。
      1.000.251.001.00
      8
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      32739.8
      b 通过Fasta确定和测量。
      1.000.611.000.80
      a MS-Shotgun难以识别的查询(Prel./Punr > 10−2)。
      b 通过Fasta确定和测量。
      不确定四个未认出的查询(斑点3,8和9)中的三个,因为它们最近的同源物太远;查询与数据库中最近的同源物共享40-50%的身份。斑点13确实具有最近的同源物,总体上占65%的同一性,但查询肽源自序列的不良部分,序列的份额小于50%的本地身份。这些结果表明,观察到鲁棒检测的50%同一性阈值 Fig. 4 与实际数据的性能一致,与更大的数据库。

      讨论

      速度旨在解释 德诺维 来自缺乏综合蛋白质组序列数据的生物的MS / MS数据, 例如 除了人和小鼠或植物之外的哺乳动物 拟南芥。基于结果 Fig. 4,我们预计如果30个氨基酸,我们预计快速可靠地识别超过80%的序列,其中包括30个氨基酸 德诺维 序列数据可用;对于平均分歧率的蛋白质(每1百万%的10-30%)65%的身份包括在过去150-500万年中发散的蛋白质。
      虽然快速考虑到单余残留的ISOBARS(I / L和Q / K),但它不正确的频谱误解序列误差源(例如 二肽等值,逆转序列顺序)。如果此类误差来源可能在实验中,则可以将反映这些替代方案的额外的肽序列添加到快速查询中。这些额外的肽序列将产生额外的组合复杂性的小额罚款;对于具有五种肽的查询,添加五个逆转的肽序列将通过2倍提高搜索时间,并降低2的匹配统计显着性5 = 32倍。因为添加每个额外的肽的添加减少了两倍的显着性,所以包含所有可能的序列变体(然而不太可能)是不可取的。这种快速包含可能不参与任何特定蛋白质对准的肽的鲁棒性使其成为同时鉴定来自混合物的多种蛋白质的理想工具(
      • 链接A.J.
      • ENG J.
      • Schieltz D.M.
      • 卡马克E.
      • mize g.j.
      • 莫里斯D.R.
      • Garvik下午
      • YALES III,J.R.
      用质谱法直接分析蛋白质复合物。
      );我们在几个实验中同时鉴定了多个无关的蛋白质。未来的快速版本可以设计用于分析来自更复杂的混合物的肽数据。
      目前不存在算法等效于FastF。突变敏感模式或图案搜索算法可用于搜索具有混合Edman劣化导出的序列数据的数据库,但是所有匹配序列仍然需要进一步处理以确定哪个对准程序集满足查询的组成要求,类似于子程。加入FastF执行。我们目前正在探索生成最佳快速对齐的方法,以便显示,纠正贪婪对齐启发式的这些错误。然后,我们还将评估是否花时间计算数据库搜索期间的最佳对准对灵敏度有任何可测量的影响。
      快速的概率最优性标准提高了基于单独的总相似度分数的方法的搜索灵敏度(参见 Fig. 3, 例如 Cittify和MS-Blast)。在具体的例子中,由GBB3_RAT的总长度35的五种肽组成的查询(guanine核苷酸 - b吲哚蛋白 bETA,亚基 3)实现对包括VGL2_CVBV的各种冠状病毒糖蛋白的几乎完全对齐。
      检查对准表明这是一个潜在的同源匹配;它具有非常高的相似性评分(init = 170)。但是,快速提供的统计例外仅为2.9。较低得分(init = 153)更大的对齐(e< 8.8 × 10−5)以真正的GBB3_RAT同源物。概率评分与准确的统计估算相结合,使得快速选择基于得分的替代品。
      通过最大化查询的搜索潜力,高信息内容评分矩阵,未拍摄的全局肽对齐以及用于对准最优性的严格概率标准,实现高灵敏度。通过减少检查的库序列组可以改善灵敏度,例如通过近似分子量或等电点(PI)范围来过滤数据库或通过选择数据(哺乳动物,植物,真菌)的分类副本。这些选项全部可用于FastA搜索包中。

      致谢

      我们感谢Stephen Altschul最初建议使用用于评估每种肽子程的统计学意义的方法。我们感谢Ming-Qian Huang为Combinatorics专业知识构建我们策划的Swissprot子集数据库和Raphaëlclifford。 Ken Mitchelhill提供了实验获得的快速查询示例。

      补充材料

      参考

        • ENG J.K.
        • mccormack a.l.
        • YALES III,J.R.
        一种与蛋白质数据库中氨基酸序列相关的肽串联质谱数据的方法。
        J.IM。 SOC。质谱。 1994; 5: 976-989
        • PEVZNER P.A.
        • Dancik V.
        • 唐c.l.
        通过质谱法识别突变蛋白质。
        J. COPPLE。 BIOL。 2000; 7: 777-787
        • PEVZNER P.A.
        • Dancik V.
        • mulyukov z.
        • 唐c.l.
        突变数据库搜索的效率与串联质谱。
        Genome Res。 2001; 11: 290-299
        • MLEFFERTY F.W.
        • Fridriksson E.K.
        • 喇叭d.m.
        • Lewis M.A.
        • Zubarev R.A.
        生物分子质谱。
        科学。 1999; 284: 1289-1290
        • Dancik V.
        • addona t.a.
        • 克劳瑟K.R.
        • vath J.E.
        • PEVZNER P.A.
        德诺维 通过串联质谱进行肽测序。
        J. COPPLE。 BIOL。 1999; 6: 327-342
      1. Chen,T.,Kao,M.,Tepel,M.,Rush,J.和Church,GM(2000)在ACM-Siam讨论会上的公共校长,旧金山,2000,PP。389-398, ACM Press,纽约

        • 威尔m。
        肽序列标签序列数据库中肽鉴定耐腐蚀鉴定。
        肛门。化学。 1994; 66: 4390-4399
        • 黄兰
        • 雅各布r.j.
        • Pegg S.C.-h.
        • Baldwin M.A.
        • 王C.C.
        • 伯灵名A.L.
        • 巴比特P.C.
        20 S蛋白酶的功能分配 锥虫瘤布鲁斯群 使用质谱和新的生物信息学方法。
        J. Biol。化学。 2001; 276: 28327-28339
        • altschul s.f.
        氨基酸替代基质从信息理论的角度看。
        J.Mol。 BIOL。 1991; 219: 555-565
        • altschul s.f.
        • Boguski M.S.
        • GISH W.
        • Wootton J.C.
        搜索分子序列数据库中的问题。
        NAT。遗传。 1994; 6: 119-129
        • damer c.k.
        • 鹧J.
        • Pearson W.R.
        • haystead t.a.j.
        混合肽测序和数据库搜索快速鉴定蛋白质磷酸酶1结合蛋白。一种新型蛋白质磷酸酶1的新型核心形式的表征。
        J. Biol。化学。 1998; 273: 24396-24405
        • Pearson W.R.
        • Lipman D.J.
        改进的生物序列比较工具。
        Proc。 Natl。阿卡。 SCI。美国。 1988; 85: 2444-2448
        • Schwartz r.m.
        • Dayhoff M.
        Dayhoff M. 蛋白质序列和结构的图谱。 卷。 5,提供。 3。 国家生物医学研究基础,银泉, m1978: 353-358
        • 琼斯D.T.
        • 泰勒W.R.
        • 桑顿金。
        蛋白质序列的快速产生突变数据矩阵。
        计算。苹果。 Biosci。 1992; 8: 275-282
        • 卡林S.
        • altschul s.f.
        通过使用普通评分方案评估分子序列特征的统计显着性的方法。
        Proc。 Natl。阿卡。 SCI。美国。 1990; 87: 2264-2268
        • altschul s.f.
        • GISH W.
        本地对齐统计。
        方法酶。 1996; 266: 460-480
        • mclachlan a.d.
        基因重复分析在肌体棒中重复。
        J.Mol。 BIOL。 1983; 169: 15-30
        • Staden R.
        计算序列中查找模式的概率的方法。
        计算。苹果。 Biosci。 1989; 5: 89-96
        • Tatusov R.L.
        • altschul s.f.
        • koonin e.v.
        检测蛋白质中的保守段:对准块的序列数据库迭代扫描。
        Proc。 Natl。阿卡。 SCI。美国。 1994; 91: 12091-12095
        • Bailey T.L.
        • Gribskov M.
        结合证据使用 P-值:应用程序序列同源性搜索。
        生物信息学。 1998; 14: 48-54
        • artatia r.
        • Gordan L.
        • Waterman M.S.
        鄂尔多斯 - 瑞士法在分布中,用于硬币折叠和序列匹配。
        安。统计。 1990; 18: 539-570
        • Bairoch A.
        • Boechmann B.
        Swissprot蛋白质序列数据库。
        核酸RES。 1991; 19(提供。): 2247-2249
        • Bairoch A.
        普利斯特:蛋白质中的网站词典和模式。
        nuc。酸res。 1991; 19(提供。): 2241-2245
        • Sonnhammer E.L.
        • 艾迪S.R.
        • 德国R.
        PFAM:基于种子对齐的蛋白质域家族综合数据库。
        蛋白质。 1997; 28: 405-420
        • Pearson W.R.
        蛋白质序列数据库的方法比较。
        蛋白质SCI。 1995; 4: 1145-1160
        • altschul s.f.
        • GISH W.
        • 米勒W.
        • 迈尔斯。
        • Lipman D.J.
        基本的局部比对搜索工具。
        J.Mol。 BIOL。 1990; 215: 403-410
        • Pearson W.R.
        • 木头t.
        • 张Z.
        • 米勒W.
        DNA序列与蛋白质序列的比较。
        基因组学。 1997; 46: 24-36
        • 舍甫琴科A.
        • 孙耶夫斯。
        • Loboda A.
        • Bork P.
        • 站立K.G.
        用MALDI-Quadrupole飞行时间质谱和爆破同源搜索用未曲线基因组的生物体的蛋白质组。
        肛门。化学。 2001; 73: 1917-1926
        • altschul s.f.
        • erickson b.w.
        子程相似性的非线性测量及其意义水平。
        公牛。数学。 BIOL。 1986; 48: 617-632
        • althschul s.f.
        • erickson b.w.
        使用非线性相似函数的局部最佳子程。
        公牛。数学。 BIOL。 1986; 48: 633-660
        • altschul s.f.
        • erickson b.w.
        使用非线性相似函数的生物序列比较的显着水平。
        公牛。数学。 BIOL。 1988; 50: 77-92
        • Arslan A.N.
        • Egecioglu O.
        • PEVZNER P.A.
        序列比较的一种新方法:归一化序列对齐。
        生物信息学。 2001; 17: 327-337
        • 泰勒J.A.
        • 约翰逊R.S.
        序列数据库通过 德诺维 通过串联质谱测序肽测序。
        迅速交流。质谱。 1997; 11: 1067-1075
        • 链接A.J.
        • ENG J.
        • Schieltz D.M.
        • 卡马克E.
        • mize g.j.
        • 莫里斯D.R.
        • Garvik下午
        • YALES III,J.R.
        用质谱法直接分析蛋白质复合物。
        自然生物科技。 1999; 17: 672-682