深度覆盖 大肠杆菌 彩易福彩组可以在简单的突果实学实验中评估假发现率*

      质谱(MS)的最近进展导致霰弹枪彩易福彩组学的应用增加了基因组注释的改进。典型的“proteo-genomic”工作流程依赖于肽MS / MS光谱的映射到通过基因组序列的六帧平移衍生的数据库。这些数据库含有大部分寄生蛋白序列,这使得所得肽光谱的统计置信难以评估。在这里,我们对此进行了全面的分析大肠杆菌彩易福彩组使用LTQ-orbitrap MS并将相应的MS / MS光谱映射到六帧的翻译中大肠杆菌基因组。我们假设彩易福彩编码部分大肠杆菌基因组接近完全注释,并且大多数六种帧特异性(新)肽谱匹配可以被认为是假阳性鉴定。我们通过表明新颖性命中的后误差概率分布几乎与逆转(诱饵)命中几乎相同;这使我们能够估计典型的细菌蛋白基因组数据集中的敏感性,特异性,准确性和假发现率。我们使用两个补充计算框架进行MS / MS数据的处理和统计评估:MaxQuant和Trans-Qualeomic管道。我们表明MaxQuant实现了一种更敏感的六帧数据库搜索,具有可接受的假发现率,因此非常适用于全球基因组型成果应用,而杂种管道达到更高的特异性并且非常适合高置信度验证。使用小且良好的注释的细菌基因组使我们能够解决在最先进的细菌彩易福彩组学中实现的基因组覆盖:映射到所有表达的肽序列大肠杆菌彩易福彩,但涵盖了31.7%的彩易福彩编码基因组序列。我们的研究结果表明,甚至可以基本低估了错误的发现率“simple”通过高精度MS获得的彩易福彩 - 基因组实验,并指向基于MS的方法的覆盖肽序列的进一步改进的必要性。
      基于MS的彩易福彩组学已成为学习的不可或缺的工具 体内 全球范围内的彩易福彩表达(
      • Aeberberold R.
      基于质谱的彩易福彩组学。
      )。简而言之,在典型的“霰弹枪”彩易福彩组学实验中,通过蛋白酶提取和消化生物体的整个彩易福彩组(例如 胰蛋白酶)。在电离之前,通常通过液相色谱(LC)进一步分离并分离所得复合肽混合物,并在质谱仪中分析。 MS技术最近的创新(
      • Michalski A.
      • 达莫e.
      • Hauschild J.P.
      • lange O.
      • Wieghaus A.
      • Makarov A.
      • Nagaraj N.
      • Cox J.
      • 角horn
      基于质谱的彩易福彩组学使用Q辐射,高性能台式四轴锻体质谱仪。
      ,
      • Michalski A.
      • 达莫e.
      • lange O.
      • Denisov E.
      • 挖掘D.
      • Muller M.
      • Viner R.
      • 施瓦茨J.
      • 弥补P.
      • 贝尔福德米
      • DUNYACH J.J.
      • Cox J.
      • 角horn
      • Makarov A.
      超高分辨率线性离子捕集器(orbitrap Elite)(orbitrap Elite)促进顶部下降LC MS / MS和通用肽碎片模式。
      ,
      • 奥尔森J.V.
      • 施瓦茨J.C.
      • Griep-raming J.
      • Nielsen M.L.
      • 达莫e.
      • Denisov E.
      • lange O.
      • 弥补P.
      • 泰勒D.
      • 灿烂的玉米
      • Wouters e.r.
      • Senko M.
      • Makarov A.
      • 角horn
      具有非常高的测序速度的双压力线性离子阱Orbitrap仪器。
      )高肽测序率高,具有高质量精度和灵敏度,将整个彩易福彩常规的常规分析放置在覆盖范围内(
      • De Godoy L.M.
      • 奥尔森J.V.
      • Cox J.
      • Nielsen M.L.
      • 哈伯纳N.C.
      • Frohlich F.
      • Walther T.C.
      综合质谱型彩易福彩组定量单倍体与二倍体酵母。
      ,
      • Picotti P.
      • Bodenmiller B.
      • 穆勒L.N.
      • Domon B.
      • Aeberberold R.
      靶影科酿酒酵母的全动态范围彩易福彩组分析。
      )。
      现代基因组注释使用计算 AB Initio. 从原始测序数据预测编码区域和基因模型的方法(
      • 弗里什曼D.
      • 瓦伦西亚A.
      ,
      • 布伦特M.R.
      基因组注释过去,现在和未来:如何在每个轨迹处定义ORF。
      )。由于基因表达的最终证据是检测其产品,转录组数据通常用于培训基因预测算法(
      • 斯坦克M.
      • Diekhans M.
      • 鲍克斯赫R.
      • Haussler D.
      使用本机和同情映射的cDNA对齐,以改善De Novo基因发现。
      )。类似地,基于MS的彩易福彩组学越来越多地用于基因组注释。在典型的PROFEO-基因组学实验中,搜索肽的MS / MS光谱与通过通过的数据库搜索 在Silico. 全基因组序列的六帧翻译(
      • Kuster B.
      • Mortensen P.
      • 安德森J.S.
      质谱允许在大型基因组中直接鉴定彩易福彩。
      ,
      • armengaud J.
      Proteo-Genomics和Systems生物学:寻求最终缺失的部分。
      ,
      • yates 3rd,J.R.
      • ENG J.K.
      • mccormack a.l.
      采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
      ,
      • Castellana N.
      • BAFNA V.
      PROFEO-基因组学发现基因组的完整编码含量:计算视角。
      ,
      • 坦纳S.
      • 沉Z.X.
      • NG J.
      • Florea L.
      • 瓜罗·罗
      • Briggs S.P.
      • BAFNA V.
      使用肽质谱改善基因注释。
      )。这种方法已被单独或与转录组数据组合应用,以便在若干生物中改进基因组注释,包括 C. Elegans. (
      • Merrihew G.E.
      • 戴维斯C.
      • ewing b.
      • 威廉姆斯G.
      • Kall L.
      • Frewen B.E.
      • 贵族W.S.
      • 绿色P.
      • 托马斯J.H.
      • maccoss m.j.
      使用霰弹枪彩易福彩组学的鉴定,确认和校正C. Elegans基因注释。
      ), P. Pacificus. (
      • 博赫特N.
      • Dieterich C.
      • 克鲁格克。
      • Schutz W.
      • Nordheim A.
      • Sommer R.J.
      • MACEK B.
      Pristionchus pacificus的Proteo-Genomics揭示了线虫模型的明显彩易福彩组结构。
      ), S. Cerevisiae. (
      • Oshiro G.
      • 娃娃娃
      • Washburn M.P.
      • yates j.r.
      • 洛克哈特D.J.
      • Winzeler E.A.
      酿酒酵母酿酒酵母新基因的平行鉴定。
      ), S. Pombe. (
      • Bitton D.A.
      • 木头V.
      • Scutt p.j.
      • 格尔特A.
      • yates t.
      • 史密斯D.L.
      • 哈根I.M.
      • 米勒C.J.
      增强诠释的Schizosaccharomyces Pombe基因组揭示了生长和活力所需的额外基因。
      ), A. Thaliana. (
      • Castellana N.E.
      • Payne S.H.
      • 沉Z.X.
      • 斯坦克M.
      • BAFNA V.
      • Briggs S.P.
      PROFEO-基因组学发现和修订拟南芥基因。
      ), S. Nodorum. (
      • 推杆S.
      • 霍恩J.K.
      • 凯西T.
      • Tan K.C.
      • Lipscombe R.
      • 所罗门P.S.
      • 奥利弗r.p.
      深素基因组学;通过从真菌小麦病原体粒子孢子术中彩易福彩色谱法和质谱法验证高通量基因验证。
      ), T. Gondii. (
      • 夏D.
      • 桑德森S.J.
      • 琼斯A.R.
      • 普里诺J.H.
      • yates j.r.
      • Bromley E.
      • TOMLEY F.M.
      • Lal K.
      • 辛保人R.E.
      • Brunk B.P.
      • Roos D.S.
      • 浪费准噶。
      弓形虫的彩易福彩组:与基因组的整合为基因表达和注释提供了新的洞察力。
      ), A.Gambiae. (
      • Kalume D.E.
      • Peri S.
      • reddy r.
      • 钟杰。
      • obulate m.
      • Kumar N.
      • Pandey A.
      使用质谱衍生数据的AnophelesGambia的基因组注释。
      ), 鼠 (
      • 麸皮
      • 桑德斯G.I.
      • Frankish A.
      • 柯林斯M.O.
      • yu l.
      • 赖特J.
      • Verstraten R.
      • 亚当斯D.J.
      • 哈罗J.
      • CH.oudhary J.s.
      • 哈贝德T.
      霰弹枪彩易福彩组学有助于发现小鼠基因组中的新型彩易福彩编码基因,替代剪接和“复活”假生素。
      )和人类(
      • Bitton D.A.
      • 史密斯D.L.
      • Connolly Y.
      • Scutt p.j.
      • 米勒C.J.
      集成的质谱管线识别人类基因组中的新型彩易福彩编码区。
      ,
      • 费尔明D.
      • 艾伦B.B.
      • Blackwell T.W.
      • Menon R.
      • Adamski M.
      • 徐Y.
      • ulintz p.
      • OPENN G.S.
      • 国家D.J.
      新型基因和基因模型检测彩易福彩组学中全基因组开放阅读框分析。
      )。由于其相对简单的基因组结构和小基因组尺寸,细菌特别适用于MS辅助基因组注释,这导致典型的彩易福彩组学实验中的总体更好的序列覆盖率(
      • armengaud J.
      微生物学和彩易福彩组学,获得两个世界的最佳!
      ,
      • armengaud J.
      完美的基因组注释在彩易福彩组学和基因组学联盟范围内。
      ,
      • 陈W.B.
      • Laidig K.E.
      • 公园Y.
      • 公园K.
      • yates j.r.
      • Lamont R.J.
      • Hackett M.
      用肽碎片质谱搜索卟啉单胞菌牙龈基因组。
      ,
      • 王R.
      • 王子J.T.
      • Marcotte e.m.
      M. Smogmatis彩易福彩组的质谱:彩易福彩表达水平与功能,操纵子和密码子偏压相关。
      ,
      • de souza g.a.
      • 马尔根H.
      • 软电T.
      • Saelensminde G.
      • Prasad S.
      • jonassen我。
      • WIKER H.G.
      高精度质谱分析作为使用结核分枝杆菌的验证和改善基因注释的工具作为一个例子。
      ,
      • de souza g.a.
      • 软电T.
      • koehler c.j.
      • Zhiede B.
      • WIKER H.G.
      通过串联质谱法通过完整的翻译数据集和肽鉴定来验证分枝杆菌基因组的发散ORF注释。
      ,
      • Kelkar D.S.
      • Kumar D.
      • Kumar P.
      • Balakrishnan L.
      • Muthusamy B.
      • Yadav A.K.
      • Shrivastava P.
      • Marimuthu A.
      • 安德斯。
      • Sundaram H.
      • Kingsbury R.
      • Harsha H.C.
      • Nair B.
      • Prasad T.S.
      • CH.auhan D.S.
      • 卡扎克。
      • 卡扎赫五。
      • CH.aerkady R.
      • Ramachandran S.
      • 划伤D.
      • Pandey A.
      高分辨率质谱法分枝杆菌的蛋白基因组分析。
      ,
      • verter e。
      • 史密斯r.d.
      • Payne S.H.
      细菌和古代的彩易福彩基因组分析:46个生物案例研究。
      )。
      在PROTEO-GENOMICS实验中使用六帧数据库是挑战,因为它们的大尺寸增加,这增加了搜索空间,影响了数据库搜索的敏感性(
      • 克鲁格克。
      • nahnsen s.
      • MACEK B.
      彩易福彩组学和基因组学界面处的质谱。
      )。另外,这些数据库包含由未被转录的帧产生的高比例的人工序列(
      • Castellana N.
      • BAFNA V.
      PROFEO-基因组学发现基因组的完整编码含量:计算视角。
      ,
      • Blakeley P.
      • overton i.M.
      • 哈贝德S.J.
      寻址核苷酸衍生蛋白数据库中的统计偏见,用于ProTeo-Genomic搜索策略。
      )。这些寄生彩易福彩序列难以区分真正的彩易福彩序列,这使得所得肽光谱匹配(PSM)的统计置信度
      使用的缩写是:abc
      碳酸氢铵
      ACN.
      乙腈
      FDR.
      假发现率
      MMA
      混合模型方法
      ORF.
      开放阅读框架
      PEP.
      后误差概率
      PSM
      肽谱匹配
      TDA.
      目标 - 诱饵方法
      TPP.
      反式彩易福彩组学管道。
      1使用的缩写是:abc
      碳酸氢铵
      ACN.
      乙腈
      FDR.
      假发现率
      MMA
      混合模型方法
      ORF.
      开放阅读框架
      PEP.
      后误差概率
      PSM
      肽谱匹配
      TDA.
      目标 - 诱饵方法
      TPP.
      反式彩易福彩组学管道。
      难以计算。
      在这里,我们利用小尺寸(4.6 MB),简单的架构和高注释级别 大肠杆菌 基因组并用它作为Proteoomic数据解释的基准模型。我们派生了在指数增长的彩易福彩的综合数据集 大肠杆菌 并将相应的MS / MS光谱映射到六帧翻译上 大肠杆菌 基因组。我们假设彩易福彩编码部分 大肠杆菌 基因组接近完整的注释,我们将六种特定于帧的(新颖)PSM视为错误识别。这使我们能够估计在一个简单的突蛋白实验中的事实假发现率。我们表明新型肽的后误差概率(PEP)分布几乎与诱饵(逆转)命中的次数相同,这验证了我们的假设和指向在新的肽鉴定中的假阳性PSM的积累。我们的数据集包含2600 大肠杆菌 彩易福彩,接近鉴定在指数增长期间表达的完整彩易福彩组(
      • iwasaki m.
      • Miwa S.
      • Ikegami T.
      • Tomita M.
      • 塔卡卡N.
      • Ishihama Y.
      与串联质谱偶联的一维毛细管液相色谱分离揭示了在微阵列规模上的大肠杆菌彩易福彩组。
      )但仅涵盖31.7%的彩易福彩编码基因组序列。

      实验步骤

       细菌细胞培养

      野生型 大肠杆菌 菌株K12(分离BW25113)(
      • 巴巴T.
      • 一只老鼠。
      • Hafegawa M.
      • 塔凯y.
      • 好的umura Y.
      • 巴巴米
      • Datsenko K.A.
      • Tomita M.
      • Wanner B.L.
      • 森林。
      大肠杆菌k-12框内的构建,单基因敲除突变体:Keio收集。
      在37℃下在37℃下接种在5ml溶酶体肉汤水中/米勒培养基中,剧烈摇动24小时(A600 = 1.9),然后在260×下旋转1毫升的固定培养物 g 10分钟以除去来自Luria / Miller培养基的任何剩余物。将细菌细胞用M9盐组成的M9最小培养基洗涤两次(6.78g / L Na2HPO.4,3 g / l kh24,0.5g / l NaCl,1 g / l nh4Cl,Sigma-Aldrich)补充额外的0.5%(w / v)葡萄糖,33μm thiamine, 1 mm MgSO4,0.1米m CaCl2。接下来,将所得沉淀重悬于1ml M9的最终体积中。在此之后,使用5μl该培养物用于接种含有0.25mg / ml赖氨酸(Sigma-Aldrich)的5ml新鲜M9培养基。过夜,在剧烈摇动到37℃下在37℃下生长最小的培养基细胞培养物 A600 = 0.5并用于接种(1:100稀释)125mL含有0.25mg / ml赖氨酸的新鲜最小培养基。细胞培养物生长为 A600 = 0.5,通过以3345×离心收获 g 10分钟,用磷酸盐缓冲盐水洗涤,并在液氮中捕获冷冻。

       彩易福彩提取

      将冷冻电池粒料重悬于含有2mg / ml溶菌酶(Sigma-Aldrich)的3至5ml裂解缓冲液(pH7.5)中的50米m Tris/HCl buffer, 1 mm EDTA, and 5 mm 以下每种磷酸酶抑制剂:甘油-2-磷酸盐,氟化钠(Sigma-Aldrich Karlsruhe,Germany)和脱苯甲酸钠(Alfa AESAR)。在37℃下在37℃下进行细胞壁裂解15分钟,并通过苯共酶(1875u)(Merck)粉碎DNA另外10分钟。对于膜蛋白的溶解,将十二烷基硫酸锂(Sigma-Aldrich)加入到最终浓度为1%(w / v)中,并在37℃下在剧烈摇动下在37℃下孵育样品15分钟。通过以3345×离心除去细胞碎片 g 5分钟并重复将上清液以11,300×离心 g 10分钟。粗彩易福彩提取物是甲醇/氯仿沉淀,彩易福彩沉淀物在含有6的变性缓冲液中重新溶解 m 尿素/ 2 m硫脲在10米m TRIS缓冲区。为了估计彩易福彩浓度,通过Bradford测定(Bio-rad)测量每种提取物。

       SDS-PAGE和IN-GEL消化

      如前所述进行凝胶消化(
      • 博赫特N.
      • Dieterich C.
      • 克鲁格克。
      • Schutz W.
      • Nordheim A.
      • Sommer R.J.
      • MACEK B.
      Pristionchus pacificus的Proteo-Genomics揭示了线虫模型的明显彩易福彩组结构。
      )。简而言之,在Nupage BIS-TRIS 4-12%梯度凝胶(Invitrogen)上分离提取的彩易福彩。用Coomassie蓝色染色凝胶,随后切成15个切片。通过用10米洗涤三次来抵抗所得凝胶碎片m 碳酸氢铵(ABC)和乙腈(ACN)(1:1,V / V)。然后用10米减少彩易福彩m 20米的二硫醇(DTT)m ABC在56℃下45分钟,并用55米烷基化m 碘乙酰胺在20米m ABC在室温下在黑暗中持续30分钟。用5米洗两次后m ABC和ACN一次,将凝胶片脱水在真空离心机中。用胰蛋白酶(Promega Fitchburg,Wi)或Lys-C(Wako Neuss,Germany)消化彩易福彩(20米的12.5ng /μlm ABC)在37℃过夜。所得肽在随后的三个步骤中用以下溶液萃取:(i)3%TFA在30%ACN,(II)80%ACN中的0.5%乙酸,(III)100%ACN。在真空离心机中蒸发ACN后,使用阶段 - 提示脱盐肽级分(
      • Ishihama Y.
      • Rappsilber J.
      模块化止动件,并在彩易福彩组学中具有堆叠磁盘的提取提示。
      )。

       溶液消化

      在室温下将彩易福彩提取物减少1小时,1米m DTT随后用1米烷基化m 碘乙酰胺在黑暗中在室温下为1小时。在室温下用Lys-C(1:100w / w)预先消化彩易福彩3小时。用4个20米稀释后稀释后m ABC,用胰蛋白酶(1:100W / W)或Lys-C(1:100W / W)在室温下消化彩易福彩过夜。

       离凝胶等电聚焦

      根据制造商的说明,根据其等电点,根据其等电点分离衍生自溶液溶液消化的肽。使用具有pH 3-10梯度(GE Healthcare)的13厘米的固定性干燥剂(GE Healthcare)将肽混合物分离成12个级分。在50μA的最大电流下进行分离直至达到50kVH。用酸性溶液(30%AcN,5%乙酸和10%TFA在水中)酸化肽级分,并使用阶段提示脱盐。

       强阴离子交换色谱

      使用固相萃取脱静溶液消化的肽。如别处所述进行强阴离子交换色谱法(
      • wisniewski J.R.
      • 邹格曼A.
      FASP和基于STAGETIP的分馏的组合允许对海马膜彩易福彩组进行深入分析。
      )。简而言之,将脱盐肽在pH 11处加载到含有六层媒体/盘阴离子交换(3M,St.Paul MN)的阴离子交换柱中,在200μL移液管尖端中。用于调节和洗脱,布里顿&罗宾逊通用缓冲器(0.02 m Ch3COOH,0.02 m H34和0.02 m H33)制备pH 3,4,5,6,8和11。用甲醇活化柱并用1调节 m naoh后跟缓冲(ph 11)。通过酸性溶液酸化流动并在阶段尖端上酸化。肽在pH8,6,5,4和3处洗脱,用酸性溶液酸化,并使用阶段尖端脱盐。

       纳米LC-MS / MS分析

      所有肽级分都在易于达到壁图Velos质谱仪(Thermo Fisher Scientific)的Easy-NLC II纳米LC(丹麦)上测量所有肽级分。在15cm picotip熔融二氧化硅发射器上进行色谱分离,内径为75μm,8μm尖端的内径(新物镜Woburn,MA),填充内部的内部Reprosiil-pur C18-AQ 3 -μm树脂(Maisch GmbH博士Ammerbuch-Entrigen,德国)。使用最大280巴的最大压力,在700nl / min下用溶剂A(0.5%乙酸)注入柱子中。然后使用81分钟或221分钟的分段梯度为5%-50%溶剂B(0.5%乙酸中80%AcN)的梯度以200nl / min的流速洗脱肽。质谱仪以数据相关模式操作。调查MS光谱的全部扫描以300至2000汤普森在60,000的分辨率之间记录,目标值为1E6收费。从调查扫描的15个最强烈的峰被选中用于碰撞诱导的解离的碎片,其目标值为5000个电荷。将片段光谱记录在线性离子阱中。选择的群众包含在90秒的动态排除列表中。

       MS数据处理

      获取的MS数据被MaxQuant(v.1.2.2.9)预处理(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和彩易福彩组含彩易福彩定量。
      )为了生成可以提交给数据库搜索的峰值列表。派生的峰值列表被提交给Andromeda(
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      和romeda:肽搜索引擎集成到最大环境中。
      )和吉祥物v2.2.0(矩阵科学,伦敦,英国)搜索引擎查询将基因组数据库翻译成所有六个阅读框架。基因组序列 大肠杆菌 (
      • 莱利M.
      • ab
      • Arnaud M.B.
      • Berlyn M.K.
      • blattern f.r.
      • chaudhuri r.r.
      • Glasner J.D.
      • Horiuchi T.
      • keseler i.M.
      • Kosuge T.
      • 森林。
      • perna n.t.
      • Plunkett 3,G。
      • rudd K.E.
      • Serres M.H.
      • 托马斯G.H.
      • 汤姆森N.R.
      • 愿望D.
      • Wanner B.L.
      大肠杆菌 K-12: a cooperatively developed annotation snapshot—2005.
      ,
      • Hayashi K.
      • Morooka N.
      • Yamamoto Y.
      • 富士群K.
      • ISONO K.
      • 崔S.
      • ohtsubo E.
      • 巴巴T.
      • Wanner B.L.
      • 森林。
      • Horiuchi T.
      大肠杆菌K-12菌株Mg1655和W3110的高度准确基因组序列。
      )从NCBI主页下载(登录号码 nc000913.2.)。通过使用浮雕软件包的TRANSEQ工具施用细菌和植物质粒码(翻译表XI)来从止芯密码子完成到所有六个阅读框架中的翻译。
      • 米饭P.
      • 龙班I.
      • Bleasby A.
      浮雕:欧洲分子生物学开放式软件套件。
      )。对于每个所产生的推定开放阅读框(ORF),我们需要最小长度的六个氨基酸,其对应于我们在数据库搜索中所需的最小肽长度。对于该数据库,我们使用具有MaxQuant软件的SequencereVerse.exe工具添加了诱饵序列。得到的数据库由263,159个推定ORF,248个常见的实验室污染物和263,407个逆转序列组成。
      为Andromeda和吉祥物数据库搜索分别使用设置为6和7 ppm的前体质量公差来执行数据库搜索。对于两个搜索引擎,将片段离子质量容差设定为0.5Da。需要对胰蛋白酶和Lys-C的全酶特异性,允许允许两种错过的裂解。甲硫氨酸的氧化和彩易福彩N-末端乙酰化定义为可变的修饰,并且半胱氨酸的氨基甲酰化定义为固定改性。
      通过MaxQuant和Trans-Quoteomic管道进一步处理所得PSM列表(V4.5 Rapture Rev 0)(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )。 MaxQuant计算的andromeda数据库分数被转换为如参考文献所述的PEP。
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      和romeda:肽搜索引擎集成到最大环境中。
      。我们通过按照升序对PSM进行分类来计算Q值。对于每个PSM,我们计算了诱饵命中数与具有实际PSM的PEP以下PEP的目标PSM之间的比率。吉祥物结果(.dat)文件被转换为PepXML格式并由PeptipeProclect进一步处理(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )模块作为反式彩易福彩组学管道(TPP)的一部分。我们使用了精确的质量分子选项,排除单独带电的肽,并使用诱饵命中来模拟半监督混合模拟的误报的得分分布。通过根据肽前容分配的概率来过滤PSM来控制假发现率(FDR)。 Calctppstat.pl Perl脚本作为TPP的一部分计算相应的概率阈值,“约”。 FDR的P阈值“用于过滤PSM的列表。
      另外搜索了收购的MS数据,以防止最近的批次注释 大肠杆菌 基因组(UNIPROT参考彩易福彩组合; 2012年1月18日下载; 4309蛋白条目)使用MAXQUANT V1.2.2.9使用与上述相同的数据库搜索参数进行操作。肽和彩易福彩组水平的FDR设定为1%。

       PRODEO-基因组工作流程

      检测到从搜索六帧数据库中导致的肽序列与UniProt匹配 大肠杆菌 彩易福彩组数据库使用BLASTP(BLAST 2.2.25+)(
      • altschul s.f.
      • GISH W.
      • 米勒W.
      • 迈尔斯。
      • Lipman D.J.
      基本的局部比对搜索工具。
      ,
      • Camacho C.
      • Coulouris G.
      • Avagyan V.
      • 男子。
      • Papadopoulos J.
      • Bealer K.
      • Madden T.L.
      BLAST +:架构和应用程序。
      )检查它们是否映射到带注释的彩易福彩。我们选择Uniprot作为数据库,因为它提供了彩易福彩序列的全面和统一的资源,所有4309 大肠杆菌 彩易福彩是Swiss-Prot部分的一部分,该部分是手动注释和审查的。因此,此数据库应代表理论的高质量注释 大肠杆菌 彩易福彩组。所有在Uniprot中产生完美匹配的肽 大肠杆菌 数据库被视为注释。为了检索检测肽的基因组坐标,我们使用Tblastn将它们的序列映射到基因组数据库。因为爆炸算法未经过优化以找到所有小序列的出现,所以我们将最大e-valuale设置为1e4和对准的数量,以确保在基因组和彩易福彩组数据库中可以找到典型的短肽序列。为了毫不含糊地映射这些肽,我们需要全长对准和100%相似性。分别考虑基因组或彩易福彩组中的多种相同肽的发生。在彩易福彩组数据库中没有产生完美匹配的所有肽被定义为新型肽名单中的初始候选者。为了解决亮氨酸和异氨酸的模糊性,使用正则表达式匹配再次检查一组初始的新型肽。从初始新型肽中除去可能在彩易福彩组数据库中找不到彩易福彩组数据库中的肽序列。在第二次爆炸迭代中,由一种或多种新肽检测的所有六帧ORF与蛋白酶组数据库以及非冗余彩易福彩数据库(NCBI NR)匹配。此外,我们重新提交了使用吉祥物搜索引擎查询NCBI NR数据库的新肽的光谱,以检查从搜索六帧转换和NCBI NR数据库的PSM之间的一致性。我们与肽的基因组坐标和带注释彩易福彩一起使用这些信息将新肽分类为不同类型的注释冲突。
      PROVEO-基因组管道和进一步下游数据分析在R V2.13中实施(
      R开发核心团队
      )。

       彩易福彩丰富的计算

      我们实施了指数改性彩易福彩丰度指数(PAI)(
      • Ishihama Y.
      • 奥达Y.
      • Tabata T.
      • 撒托T.
      • nagasu t.
      • Rappsilber J.
      指数改性彩易福彩丰度指数(EMPAA),用于通过每种彩易福彩的测序肽数估计彩易福彩组学中的绝对彩易福彩量。
      )估计彩易福彩丰富。简而言之,指数修改的PAI被定义为10PAI. − 1, with the PAI (
      • Rappsilber J.
      • ryder u.
      • Lamond A.I.
      人脾脏的大规模彩易福彩组学分析。
      )观察肽的数量除以每种彩易福彩可观察肽的数量。为了计算我们数据集的指数修改的PAI值,我们专注于我们数据集的胰蛋白酶部分,其包括所有检测到的彩易福彩。用于将可观察肽定义可观察肽的质量范围从600Da至6000Da设定。

       功能注释分析

      基因本体论诠释 大肠杆菌 K12彩易福彩组衍生自基因本体注释(UNIPROT-GOA)数据库(
      • 巴克尔D.
      • 调光e.
      • Huntley R.P.
      • Binns D.
      • O'Donovan C.
      • APWEILER R.
      2009年的GOA数据库 - 一种集成基因本体注释资源。
      ),在2012年2月29日下载。我们应用了双面的HeatheMetrical测试,看看特定的注释项是否在感兴趣的彩易福彩中的显着富集或耗尽。衍生的 p 进一步调整值以使用本杰尼尼和Hochberg提出的方法来解决多个假设检测(
      • Benjamini Y.
      • Hochberg Y.
      控制虚假发现率 - 一种实用而强大的多次测试方法。
      )。调整后 p 值为±log10转换和可视化的函数heatmap.2,即R包装的一部分。

      结果

      我们派生了一个全面的数据集 大肠杆菌 通过在生长的指数阶段收获细胞,提取彩易福彩组的细胞,并用两种蛋白酶组合施用三种分离方法(强阴离子交换色谱,脱凝胶,基于凝胶等电聚焦和凝胶基LC-MS),胰蛋白酶和Lys-c。我们通过在LTQ orbitrap Velos质谱仪上通过纳米LC-MS分析所得肽混合物。我们以高分辨率和在线陷阱分析仪在低分辨率下进行肽碎片和片段离子测量的高分辨率和质量精度测量前体(肽)离子质量。总共在测量时间的约6天内获得了1,941,724个质谱。所识别的PSM的平均绝对质量精度为0.34ppm,99%的PSM在1.8 ppm内测量,使我们在数据库搜索期间使用窄(最多7ppm)前体质量容忍窗口。我们将这些光谱映射到原始基因组序列的六帧翻译中,以评估典型的细菌蛋白基因组实验中的敏感性,特异性,准确性和事实FDR(补充图。S1)。另外,我们将光谱映射到注释的基因组序列(Uniprot参考 大肠杆菌 彩易福彩组数据库)通过检测到的肽序列评估基因组覆盖。

       为六帧数据库搜索结果分配统计信心

      翻译的 大肠杆菌 来自止抗密码子的基因组序列以阻止密码子导致263,159个推定ORF,这通常是短的数据库条目,具有20个氨基酸的中值;有关使用的六帧彩易福彩数据库的详细信息总结在 补充图S2。这些ORF中的大多数代表了寄生序列,通常只有一个给定基因座的一个阅读框架被翻译;这意味着平均而言,六个序列中的五个是人工数据库条目。为了增加对彩易福彩组织数据分析的解释的信心,我们使用了两个常见的工作流程来处理和统计评估MS / MS数据:MAXQUANT(
      • Cox J.
      MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和彩易福彩组含彩易福彩定量。
      ),基于Andromeda搜索引擎(
      • Cox J.
      • Neuhauser N.
      • Michalski A.
      • 施泰米r.a.
      • 奥尔森J.V.
      和romeda:肽搜索引擎集成到最大环境中。
      )FDR估计的目标 - 诱饵方法(TDA)(
      • eliasj.e.
      • Gygi S.P.
      基于质谱的彩易福彩组学的目标诱饵搜索策略。
      ,
      • eliasj.e.
      • Gygi S.P.
      目标 - 诱饵搜索策略通过质谱法对大规模彩易福彩鉴定的置信度提高。
      )和TPP(
      • 德意曲e.w.
      • 门多萨L.
      • Shteynberg D.
      • Farrah T.
      • 林H.
      • 塔斯曼N.
      • 太阳Z.
      • Nilsson E.
      • 普拉特B.
      • Prazen B.
      • ENG J.K.
      • 马丁D.B.
      • nesvizhskii a.i.
      • Aeberberold R.
      Trans-Qualeomic管道的导游。
      ),与吉祥物搜索引擎(矩阵科学)和FDR估计的混合模型方法(MMA)一起使用(
      • 凯勒阿。
      • nesvizhskii a.i.
      • Kolker E.
      • Aeberberold R.
      经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
      )。使用吉祥物和andromeda搜索引擎搜索所获取的MS数据并使用1%控制FDR产生明显不同数量的鉴定的MS / MS光谱和肽序列(表I., 补充表S1和S2)。吉祥物搜索引擎与MMA的组合在与TDA组合的同一FDR中鉴定了几乎24%的肽序列和48%的MS / MS光谱,与TDA相结合。这并不令人惊讶,因为之前报道了MMA在控制FDR中的更保守的特征(
      • Blakeley P.
      • overton i.M.
      • 哈贝德S.J.
      寻址核苷酸衍生蛋白数据库中的统计偏见,用于ProTeo-Genomic搜索策略。
      ,
      • Kall L.
      • Storey J.D.
      • maccoss m.j.
      • 贵族W.S.
      后误码概率和假发现率:同一硬币的两侧。
      )。
      表I.使用两个MS数据处理工作流程搜索大肠杆菌染色体的六帧平移后鉴定的MS / MS光谱和肽序列
      识别MS / MS光谱MS / MS光谱识别(%)肽序列新肽诱饵肽实验室污染肽注释 大肠杆菌 proteins
      maxquant工作流程370,231.19.133,9642633363062653
      TPP.工作流程162,0288.325,7245902092524

       假阳性鉴定在新型肽命中率积累

      我们研究了基因组的注释蛋白编码部分是否存在鉴定的肽序列。不能将肽分配给Uniprot中的任何带注释彩易福彩的肽 大肠杆菌 数据库被称为六帧特异性或新型肽。假设彩易福彩编码部分 大肠杆菌 基因组方法完全和正确的注释,这些肽可以被视为假阳性,可用于评估应用的植物基因组搜索策略的性能。为了验证这一假设,我们处理了MS数据而不根据FDR的任何控制,并根据它们是否被注释(“目标”44,872击中),逆转命中(“诱饵”,35,370次命中),分为所得的肽序列或新型肽(“小说”,31,075次点击)(Fig. 1A)。可以分配给注释彩易福彩的肽的PEP值随着3.26E-6的中位数PE,表示高百分比是真正的阳性鉴定。值得注意的是,诱饵和新型命中的绝对数量非常相似,相应的PEP值遵循几乎相同的分布,中位数为0.790(诱饵)和0.787(新颖)(Fig. 1B)。小说的PEP分布类似于PSM的PSM到一个含有一小部分正确点击的搜索空间,这指出了预计在新颖的命中期间非常少量的真正的积极点击率很少 大肠杆菌 (IE。 基因组几乎完全注释)。我们假设如果仍有许多新的基因/肽发现,则新肽中正确击中的比例将更大,并且新颖和诱饵命中的PEP分布会显着不同。为了证明这一点,我们考虑了一个假设的部分基因组注释的情况,其中20%或50% 大肠杆菌 genes were unknown (IE。 没有注释)。然后,我们随机取样了UniProt中包含的彩易福彩的子集(分别为80%和50%) 大肠杆菌 数据库定义相应的“部分注释” 大肠杆菌 彩易福彩组。然后,我们将检测到的肽序列重新分类为“目标”和“小说”(如图所示) Fig. 1A)根据新定义的 大肠杆菌 “注释”并可视化他们的PEP发行版。正如预期的那样,我们获得了显着不同的PEP分布的小说点击和诱饵命中(补充图S3)。 TPP工作流程的应用进一步证实了这些结果(补充图S4)。在一起,这些调查结果支持我们初步假设几乎完全基因组注释的彩易福彩编码部分 大肠杆菌 基因组并指向绝大多数新型肽实际上是假阳性击中。这些肽可以用作诱饵命中以根据TDA估计FDR。这并不意味着新型肽不含一些真正的阳性(见下文);但是,与PSM的总数相比,它们的数字可以忽略不计,并且不会显着影响我们分析的整体结果。我们计算了Q值(
      • Storey J.D.
      • Tibshirani R.
      基因组研究的统计学意义。
      )对于可以使用新肽作为诱饵命中的新肽分配给现有彩易福彩数据库的所有肽,并将计算值与“标准”Q值相关联(Fig. 1C)。总体上有一个非常高的相关性(r = 0.99997)基于诱饵肽计算的Q值(x-axis)和新肽(y-轴)。所示的Q值的两个分布之间的高相关 Fig. 1C 指向低估目标诱饵FDR,因为在FDR估计中不考虑新型肽。
      图缩略图GR1.
      Fig. 1PSM置信度分数的分配。 A,不同PSM群体的后误码概率(PEPS)的分布,从目标诱饵数据库设计中搜索基因组六帧翻译。新型和诱饵肽的PEP分布几乎相同,但它们与UNIPROT彩易福彩组数据库中存在的所有靶肽的PEP分布显着不同 大肠杆菌. B,由诱饵引起的Peps的分位数 - x-axis)和新肽(y-AXIS)展示了新颖和诱饵肽的几乎相同的PEP分布。 C,估计的虚假发现率(Q值)的相关性来自诱饵(x-axis)和新型肽序列(y-轴)。颜色对应于所示的PSM群体 A.
      在基因组六帧翻译中,特别发现了通过默认约束的313个肽序列,并没有根据UniProt注释 大肠杆菌 数据库。在所有肽序列中,两种工作流程鉴定了68.1%,而只有九个肽(总新肽的2.8%)被鉴定为在两个数据集中的新颖(补充图5A和5B.)。检测到的新型肽的差距不良可以解释如下:(i)新的肽中存在一小部分,这可能是真正的阳性鉴定。假设两个工作流程之间的重叠代表了真正的阳性,这意味着313个新型肽的2.8%不是假阳性鉴定。 (ii)相同的假设意味着大多数新型肽(97.2%)在两个数据集中随机分布,进一步支持我们几乎完全注释的初步假设。
      我们接下来重点关注由数据处理工作流确定的九种新肽。这些肽的相应佩服明显优于其他新肽( 补充图S6)因此具有正确识别的最大可能性。手动检测相应的MS / MS光谱与八个中的八个中的推断氨基酸序列显示出良好的一致,我们被分类为潜在的注释冲突,或者我们发现在UNIPROT中包含的错误基因模型的证据 大肠杆菌 database (表二)。大多数最佳评分的新肽是已知的注释冲突的事实,因此真正的积极点击指出了我们的计算在自然中保守的事实(代表最坏情况的情况)。它们的存在也指向即使在最简单的基因组中也指向大量的注释冲突。即使在这种“金色”一组新的肽中,也存在至少一个明显的假阳性的存在表明数据集这部分的FDR增加。介绍了由已知的注释冲突和由假识别产生的新肽产生的新型肽的实例 Fig. 2。所有九种新型肽序列及其注释细节都呈现在 补充图S7补充表S3.
      表二在数据处理工作流程中确定的新型肽序列;括号中显示的登录号对应于另一个生物或大肠杆菌菌株的彩易福彩
      ID肽序列注释冲突 大肠杆菌 K12评论UNIPROT登录号码
      Avgseswwqsk.错误启动(上游肽)已知的冲突P13039
      BInqtsampek.错误启动(跨越肽)已知的冲突P32695
      CLampsgnqepr.错误启动(跨越肽)正确 大肠杆菌 O157:H7P0CB62(Q8X3T3)
      Dmmqtvlak.错误启动(跨越肽)已知的冲突(在 大肠杆菌 O157:H7)P00909(Q8X7B7)
      ECsefgeaiienm点突变/测序误差或达弯版在其他地方 大肠杆菌 strains (例如 MS 116-1, DH1)P13039(D8AHK0)(E6P3Y4)
      FGvalhavk.不存在目前 E.coli. strain MS 117-3(E9Thr2)
      GSlysialir.不存在与序列相似78% Selaginella Moellendorffi.(d8ry37)
      Hglsgpasqatvaap.不存在不清楚
      ILSIRIQPPK.不存在不清楚/假阳性
      图缩略图GR2.
      Fig. 2来自最高评分新型肽中的真实阳性和可能的​​假阳性实例。 A,错误启动的示意图 FES. 基因。注释彩易福彩以蓝色显示,被检测的肽被黑色描绘,六帧ORF以绿色显示。肽击中的ORF在深绿色中显示。新型肽(Vgseswwqsk)位于预测蛋白N末端的上游。相应的六帧ORF包含完整的序列,并使用相同的阅读框架 FES. 基因。 B,所描绘的新型肽的相应MS / MS谱 A 用全面系列B和Y片段离子注释。 C,通过本研究中使用的数据处理工作流程以1%FDR鉴定的可疑新肽的示意图。虽然检测到映射到的相邻肽簇 tr 基因,新型肽(LSIRIQPPK)利用不同的阅读框架。 D,所示的相应新型肽的MS / MS谱 C 用B和Y片段离子注释不良。

       评估PRODEO-基因组工作流程

      接近彩易福彩编码部分的完全注释的假设 大肠杆菌 基因组使应用的彩易福彩基因组管道的各种特征能够计算,例如灵敏度,特异性,精度和FDR。因为真正的FDR是未知的,我们使用术语“事实FDR”(FDR事实)作为真正的FDR的估计,如参考文献所述。
      • 济孔克。
      • 金斯。
      • Bandeira N.
      光谱识别中的假发现率。
      。计算这些值的一般策略 补充图S8A。在我们的情况下,在我们的情况下,彩易福彩基因组工作流程的结果与“黄金标准”进行比较,在这种情况下是注释的彩易福彩编码部分 大肠杆菌 基因组。我们将MaxQuant和TPP返回的所有肽序列分类为这一比较的四种可能的突发事件(真正的阳性,假阳性,假阴性和真实负数)(补充图。S8B)。根据派生的应变表,我们评估了对两种方法使用的FDR的函数的敏感性,特异性,准确性和事实FDR(Fig. 3)。评估FDR.事实,我们使用了明显的假阳性鉴定(诱饵加新肽)的数量作为潜在肽序列列表中潜在误报率的数量(真正的阳性和误报),相当于TDA。两种工作流程都表现出高的特异性和准确性,这对于区分真实鉴定的假阳性至关重要。基于TPP的工作流程的灵敏度始终低于不同FDR阈值的MaxQuant工作流程的更低(平均42.3%)。令人惊讶的是,由于MaxQuant利用的诱饵FDR作为诱饵FDR的函数,具有恒定比率FDR的线性增加事实/ FDR.诱饵 在我们的特定研究中约3.5,指向使用TDA时发生的FDR低估。相反,FDR事实 在TPP工作流中没有接近基于概率的FDR,确认了MMA的保守特征。我们预计MMA和TDA的这些性质在类似规模和复杂性的其他彩易福彩 - 基因组学数据中将类似,并且在较大和更复杂的基因组的彩易福彩基因组分析中甚至更明显。
      图缩略图GR3.
      Fig. 3评估PRODEO-基因组数据处理工作流程。 检测到的新肽作为假阳性鉴定,使得灵敏度(SENS),特异性(SPC),精度(ACC)和事实错误发现率(FDR事实)作为假发现率(FDR)的函数。强调值对应于常用的FDR阈值为1%和5%。 A利用诱饵FDR方法的MaxQuant(MQ)工作流程证明了1%的诱饵FDR的高灵敏度,特异性和准确性的最佳权衡。事实上FDR以持续的因子为3.5的常数系数而线性增加。 B,Trans-Qualeomic管道(TPP)工作流程在基于概率的FDR级别的敏感性和事实FDR水平的高度和恒定的特异性和准确性,而不是与基于MQ的工作流程的工作流程。 C,使用所示的曲线(AUC)下的计算区域直接比较两种工作流程 AB.

       在指数增长阶段的大肠杆菌的表达彩易福彩组

      本研究中派生的数据集代表了最全面的彩易福彩组学数据集之一 大肠杆菌。为了评估彩易福彩组覆盖范围,我们使用使用默认参数的MaxQuant对Uniprot蛋彩易福彩数据库进行了对UniProt蛋蛋态数据库的所获取MS光谱。重新提交1.9 m andromeda搜索引擎的光谱识别42,780个非冗余肽序列(补充表S4)对应于2626个独特 大肠杆菌 彩易福彩 (补充表S5和S6)彩易福彩水平的FDR为1%。关于不同分馏方法和使用的两种酶的所有子数据集的详细概述 补充表S7。虽然2626个彩易福彩占引燃彩易福彩组的约61%,但之前报告了类似大小的数据集(
      • iwasaki m.
      • Miwa S.
      • Ikegami T.
      • Tomita M.
      • 塔卡卡N.
      • Ishihama Y.
      与串联质谱偶联的一维毛细管液相色谱分离揭示了在微阵列规模上的大肠杆菌彩易福彩组。
      )。在该研究中,组合彩易福彩组和转录组(微阵列)分析检测到2602和2543 大肠杆菌 基因产品分别在我们的数据集中鉴定了2219个彩易福彩(补充图。S9A)。因此,我们估计了这一点 大肠杆菌 在有氧条件下在分批培养中生长并不表达超过约2700个彩易福彩并得出结论,我们的数据集接近完全覆盖 大肠杆菌 彩易福彩组。基因本体(
      • ashburner m.
      • 球C.A.
      • 布莱克J.A.
      • Botstein D.
      • 巴特勒H.
      • 樱桃准晚
      • 戴维斯A.P.
      • Dolinski K.
      • 德怀特S.S.
      • EPPIG J.T.
      • 哈里斯M.A.
      • 山D.P.
      • ISSEL-TARVER L.
      • Kasarskis A.
      • 刘易斯S.
      • Matese J.C.
      • Richardson J.E.
      • Ringwald M.
      • 鲁宾上午
      • Sherlock G.
      基因本体:生物学统一的工具。基因本体组织。
      “表达彩易福彩组的富集/耗尽分析揭示了与动议有关的职能的不足(例如 鞭毛组织(p = 3.45E-7),电机活动(p = 4.14e-6))和转座子(例如 transposition (p = 2.33E-16),转座酶活性(p = 7.19e-11))。因此,这些函数表征了该部分 大肠杆菌 我们在我们的数据集中没有识别的彩易福彩组。有关表达彩易福彩组功能分析的进一步细节可以找到 补充图S9C和S9D补充表S8-S12, 分别。

       鉴定肽的大肠杆菌基因组的覆盖率

      该综合数据集使我们能够解决细菌彩易福彩组学实验的一般特征,特别是在通过检测到的肽覆盖基因组序列的背景下。我们首先通过将存在于Uniprot中存在的4309彩易福彩来定义基因组的彩易福彩编码部分 大肠杆菌 数据库到染色体上(4.6 MB)(Fig. 4A)。该分析表明,86.8%(4.0Mb)的基因组在彩易福彩数据库中注释,因此彩易福彩编码。我们下次在我们的数据集中鉴定的所有2626蛋白蛋白的序列估计了基因组的表达部分的大小,其对应于65.4%(2.6MB)的彩易福彩编码基因组区域。最后,将检测到的肽序列映射到染色体上捕获的1.27mb的原基因组序列,匹配基因组的彩易福彩编码部分的31.7%(Fig. 4B)。每个核苷酸的MS / MS事件的数量表示为1至1344,平均覆盖率为20ms / ms和每个核苷酸的7ms / ms事件的中值(Fig. 4C)。
      图缩略图GR4.
      Fig. 4实现了覆盖范围 大肠杆菌 genome by MS data. A,实现覆盖范围的示意图 大肠杆菌 通过本研究衍生的MS数据染色体。检测到的肽以红色显示;根据Uniprot注释的彩易福彩序列以绿色描绘。 B,venn图示说明了几个级别的覆盖范围(整体,彩易福彩编码,表达) 大肠杆菌 通过检测肽序列的基因组。 C,针对本研究中检测到每种核苷酸的每核苷酸的MS / MS扫描的数量的直方图。

      讨论

      在以前的许多研究中探讨了不同搜索策略在彩易福彩应用中的表现。例如,最近评估了TDA以搜索通过六帧翻译导出的彩易福彩数据库(
      • Blakeley P.
      • overton i.M.
      • 哈贝德S.J.
      寻址核苷酸衍生蛋白数据库中的统计偏见,用于ProTeo-Genomic搜索策略。
      ),之前的报告指出了在数据库搜索中应用此方法的重要一般注意事项(
      • Gupta n。
      • Bandeira N.
      • 克里奇u.
      • PEVZNER P.A.
      目标 - 诱饵方法和假发现率:当事情可能出错时。
      ,
      • 库珀B.
      肽推定的问题和目标诱饵假发现率的垮台。
      )。全球共识是,通过六帧翻译所获得的数据库的规模增加降低了数据库搜索的敏感性和特异性,并且在这些数据库中存在的虚假彩易福彩序列使得所得PSM难以评估的统计置信度(
      • Castellana N.
      • BAFNA V.
      PROFEO-基因组学发现基因组的完整编码含量:计算视角。
      ,
      • nesvizhskii a.i.
      霰弹枪彩易福彩组学中肽和彩易福彩鉴定的计算方法和误差率估算程序调查。
      )。为了规避这个问题,我们假设彩易福彩编码部分的注释 大肠杆菌 基因组接近完整性。如果是正确的,这将使我们将新的PSM视为假阳性标识,并评估典型的细菌彩易福彩 - 基因组数据集的一般特征,例如灵敏度,特异性,准确性和事实假发现率。我们的假设是通过新颖和诱饵命中的PEP值的几乎相同的分布来确认,以及检测到的新型肽数量较少。我们注意到,几个检测到的新型肽是真正的积极点击,但由于它们的数量极低,我们预计它们对报告的价值观的影响是最小的。
      我们使用了两个互补的MS / MS数据处理框架:MaxQuant使用用于FDR评估的混合模型方法,实现目标 - 诱发方法,以及反式彩易福彩组织/肽先知。虽然两者都实现了深度彩易福彩组覆盖,但最小基础的工作流程鉴定了大量更多的肽,而基于TPP的工作流程具有显着降低的事实FDR。然而,TPP也导致灵敏度降低,导致较少数量的鉴定光谱,其可以通过检测到的肽显着影响基因组序列的覆盖率。在我们看来,MaxQuant工作流程导致彩易福彩组学研究和FDR期望的最大肽鉴定率(敏感性)之间的更好的折衷,并且更适合全球基因组果切除研究;相比之下,MMA和半监督模型更适合需要高特异性的应用程序(例如 检测接头变体或单核苷酸变异(SNV))。
      有些令人惊讶的是,即使在利用高精度质谱法的“简单”的彩易福彩基因组实验中,我们的数据指向FDR的大量低估。虽然我们不能对较高生物的彩易福彩 - 基因组学实验进行相同的评估(由于其注释的质量较低),但我们预计由于其基因组的大小和复杂性,这些问题将更加明显(例如 替代拼接的影响)。因此,应采取特别小心来控制搜索空间,并尽可能准确地计算FDR。提出了几种降低PRODEO-基因组数据库中搜索空间的策略(
      • Helmy M.
      • Tomita M.
      • Ishihama Y.
      通过针对大型数据库搜索大规模串联质谱的肽鉴定:Proteo-Genomics中的生物信息学方法。
      );我们认为使用高精度是实现这一目标的最有效方法之一。在这种情况下,使用“高高”采集方法(调查和MS / MS扫描以高(PPM至子PPM)精度获得的)(
      • Michalski A.
      • 达莫e.
      • Hauschild J.P.
      • lange O.
      • Wieghaus A.
      • Makarov A.
      • Nagaraj N.
      • Cox J.
      • 角horn
      基于质谱的彩易福彩组学使用Q辐射,高性能台式四轴锻体质谱仪。
      ,
      • Michalski A.
      • 达莫e.
      • lange O.
      • Denisov E.
      • 挖掘D.
      • Muller M.
      • Viner R.
      • 施瓦茨J.
      • 弥补P.
      • 贝尔福德米
      • DUNYACH J.J.
      • Cox J.
      • 角horn
      • Makarov A.
      超高分辨率线性离子捕集器(orbitrap Elite)(orbitrap Elite)促进顶部下降LC MS / MS和通用肽碎片模式。
      )将进一步提高检测到的PSM的置信度,并在未来的PRODEO-基因组实验中变得不可或缺。这些收购策略仍然具有长期占空比(IE。 在大多数当前使用的MS平台上获取的MS / MS事件数量较少,但最近的几种高精度分析仪(
      • Srivatsan A.
      • 韩义。
      • 彭J.L.
      • Tehranchi A.K.
      • 吉布斯r.
      • 王J.D.
      • 陈R.
      高精度,实验室菌株的全基因组测序促进了遗传学研究。
      )很快就会在各个级别开始常规获取高精度MS数据。然而,在这种实验中检测到的新型肽仍应在被视为真正的阳性鉴定之前进行彻底的调查,而不管使用的采集方法或彩易福彩 - 基因组工作流程。
      为本研究的目的而导出的综合彩易福彩组数据集使我们能够评估PROTEO-Genomics实验的另一个重要方面:通过鉴定的肽序列覆盖基因组序列。彩易福彩组学领域是在特定条件下表达的所有基因产物的鉴定和定量的显着阶段,这尤其适用于具有小和相对简单的基因组的生物,例如细菌和酵母(
      • De Godoy L.M.
      • 奥尔森J.V.
      • Cox J.
      • Nielsen M.L.
      • 哈伯纳N.C.
      • Frohlich F.
      • Walther T.C.
      综合质谱型彩易福彩组定量单倍体与二倍体酵母。
      )。除了检测基因产物之外,基因组重新注释还需要高覆盖基因组序列。在我们的研究中,我们实现了对表达的综合检测 大肠杆菌 与以前的研究一致的彩易福彩组(
      • iwasaki m.
      • Miwa S.
      • Ikegami T.
      • Tomita M.
      • 塔卡卡N.
      • Ishihama Y.
      与串联质谱偶联的一维毛细管液相色谱分离揭示了在微阵列规模上的大肠杆菌彩易福彩组。
      );然而,所鉴定的肽序列占估计的48.5%,占所有彩易福彩编码的31.7%,占总基因组序列的27.5%。有趣的是,部分 大肠杆菌 由肽序列覆盖的基因组,每种核苷酸的平均值检测到20ms / MS扫描(中值:7ms / MS扫描),其对应于基因组术语的20倍底覆盖。作为下一代测序研究,常规达到最多50倍的基因组序列的碱度覆盖率(
      • Metzker M.L.
      下一代技术:基础和应用。
      66),我们的结果证明了利用基于MS的彩易福彩组学的唯一目的的限制。尽管在MS技术中不断进行改进,但很难看出如何通过检测到肽的基因组序列覆盖如何改善到下一代测序技术所实现的水平。此外,彩易福彩组学显然可以仅解决基因组的彩易福彩编码部分,这将是大型基因组中的主要问题,例如人类中的那些,其中总基因组序列的约1%是彩易福彩编码。因此,我们认为Proteo-Genomics的主要影响不会在基因组重新注释中,但在分析超出基因组学的特征中,例如在通过的个体化彩易福彩数据库中的彩易福彩的发生后修饰下一代测序。然而,彩易福彩组学在这些区域中的常规应用需要进一步的大量改进,旨在增加测序速度/覆盖(MS水平)和特异性/敏感性(生物信息工作流程)。

      致谢

      我们感谢Boumediene Soufi博士关于实验设置和手稿的评论。
      数据访问:从MaxQuant和TPP获得的所有原始文件,峰值列表,FastA数据库和结果表都提交到PeptiDATLAS数据存储库。可以使用以下ID和密码访问数据:
      ID:Pass00147.
      密码:GW584MR.

      补充材料

      参考

        • Aeberberold R.
        基于质谱的彩易福彩组学。
        自然。 2003; 422: 198-207
        • Michalski A.
        • 达莫e.
        • Hauschild J.P.
        • lange O.
        • Wieghaus A.
        • Makarov A.
        • Nagaraj N.
        • Cox J.
        • 角horn
        基于质谱的彩易福彩组学使用Q辐射,高性能台式四轴锻体质谱仪。
        摩尔。细胞。彩易福彩组学。 2011; 10 (M111.011015)
        • Michalski A.
        • 达莫e.
        • lange O.
        • Denisov E.
        • 挖掘D.
        • Muller M.
        • Viner R.
        • 施瓦茨J.
        • 弥补P.
        • 贝尔福德米
        • DUNYACH J.J.
        • Cox J.
        • 角horn
        • Makarov A.
        超高分辨率线性离子捕集器(orbitrap Elite)(orbitrap Elite)促进顶部下降LC MS / MS和通用肽碎片模式。
        摩尔。细胞。彩易福彩组学。 2012; 11 (O111.013698.)
        • 奥尔森J.V.
        • 施瓦茨J.C.
        • Griep-raming J.
        • Nielsen M.L.
        • 达莫e.
        • Denisov E.
        • lange O.
        • 弥补P.
        • 泰勒D.
        • 灿烂的玉米
        • Wouters e.r.
        • Senko M.
        • Makarov A.
        • 角horn
        具有非常高的测序速度的双压力线性离子阱Orbitrap仪器。
        摩尔。细胞。彩易福彩组学。 2009; 8: 2759-2769
        • De Godoy L.M.
        • 奥尔森J.V.
        • Cox J.
        • Nielsen M.L.
        • 哈伯纳N.C.
        • Frohlich F.
        • Walther T.C.
        综合质谱型彩易福彩组定量单倍体与二倍体酵母。
        自然。 2008; 455: 1251-1254
        • Picotti P.
        • Bodenmiller B.
        • 穆勒L.N.
        • Domon B.
        • Aeberberold R.
        靶影科酿酒酵母的全动态范围彩易福彩组分析。
        细胞。 2009; 138: 795-806
        • 弗里什曼D.
        • 瓦伦西亚A.
        现代基因组注释:BioSapiens网络。 兴趣者, 纽约2009
        • 布伦特M.R.
        基因组注释过去,现在和未来:如何在每个轨迹处定义ORF。
        Genome Res。 2005; 15: 1777-1786
        • 斯坦克M.
        • Diekhans M.
        • 鲍克斯赫R.
        • Haussler D.
        使用本机和同情映射的cDNA对齐,以改善De Novo基因发现。
        生物信息学。 2008; 24: 637-644
        • Kuster B.
        • Mortensen P.
        • 安德森J.S.
        质谱允许在大型基因组中直接鉴定彩易福彩。
        彩易福彩组学。 2001; 1: 641-650
        • armengaud J.
        Proteo-Genomics和Systems生物学:寻求最终缺失的部分。
        专家Rev.彩易福彩组学。 2010; 7: 65-77
        • yates 3rd,J.R.
        • ENG J.K.
        • mccormack a.l.
        采矿基因组:将改性和未修饰肽的串联质谱与核苷酸数据库中的序列相关。
        肛门。化学。 1995; 67: 3202-3210
        • Castellana N.
        • BAFNA V.
        PROFEO-基因组学发现基因组的完整编码含量:计算视角。
        J.彩易福彩组学。 2010; 73: 2124-2135
        • 坦纳S.
        • 沉Z.X.
        • NG J.
        • Florea L.
        • 瓜罗·罗
        • Briggs S.P.
        • BAFNA V.
        使用肽质谱改善基因注释。
        Genome Res。 2007; 17: 231-239
        • Merrihew G.E.
        • 戴维斯C.
        • ewing b.
        • 威廉姆斯G.
        • Kall L.
        • Frewen B.E.
        • 贵族W.S.
        • 绿色P.
        • 托马斯J.H.
        • maccoss m.j.
        使用霰弹枪彩易福彩组学的鉴定,确认和校正C. Elegans基因注释。
        Genome Res。 2008; 18: 1660-1669
        • 博赫特N.
        • Dieterich C.
        • 克鲁格克。
        • Schutz W.
        • Nordheim A.
        • Sommer R.J.
        • MACEK B.
        Pristionchus pacificus的Proteo-Genomics揭示了线虫模型的明显彩易福彩组结构。
        Genome Res。 2010; 20: 837-846
        • Oshiro G.
        • 娃娃娃
        • Washburn M.P.
        • yates j.r.
        • 洛克哈特D.J.
        • Winzeler E.A.
        酿酒酵母酿酒酵母新基因的平行鉴定。
        Genome Res。 2002; 12: 1210-1220
        • Bitton D.A.
        • 木头V.
        • Scutt p.j.
        • 格尔特A.
        • yates t.
        • 史密斯D.L.
        • 哈根I.M.
        • 米勒C.J.
        增强诠释的Schizosaccharomyces Pombe基因组揭示了生长和活力所需的额外基因。
        遗传学。 2011; 187: 1207-1217
        • Castellana N.E.
        • Payne S.H.
        • 沉Z.X.
        • 斯坦克M.
        • BAFNA V.
        • Briggs S.P.
        PROFEO-基因组学发现和修订拟南芥基因。
        Proc。 Natl。阿卡。 SCI。美国。 2008; 105: 21034-21038
        • 推杆S.
        • 霍恩J.K.
        • 凯西T.
        • Tan K.C.
        • Lipscombe R.
        • 所罗门P.S.
        • 奥利弗r.p.
        深素基因组学;通过从真菌小麦病原体粒子孢子术中彩易福彩色谱法和质谱法验证高通量基因验证。
        BMC生物信息学。 2009; 10: 301
        • 夏D.
        • 桑德森S.J.
        • 琼斯A.R.
        • 普里诺J.H.
        • yates j.r.
        • Bromley E.
        • TOMLEY F.M.
        • Lal K.
        • 辛保人R.E.
        • Brunk B.P.
        • Roos D.S.
        • 浪费准噶。
        弓形虫的彩易福彩组:与基因组的整合为基因表达和注释提供了新的洞察力。
        基因组Biol。 2008; 9: R116
        • Kalume D.E.
        • Peri S.
        • reddy r.
        • 钟杰。
        • obulate m.
        • Kumar N.
        • Pandey A.
        使用质谱衍生数据的AnophelesGambia的基因组注释。
        BMC基因组学。 2005; 6: 128
        • 麸皮
        • 桑德斯G.I.
        • Frankish A.
        • 柯林斯M.O.
        • yu l.
        • 赖特J.
        • Verstraten R.
        • 亚当斯D.J.
        • 哈罗J.
        • CH.oudhary J.s.
        • 哈贝德T.
        霰弹枪彩易福彩组学有助于发现小鼠基因组中的新型彩易福彩编码基因,替代剪接和“复活”假生素。
        Genome Res。 2011; 21: 756-767
        • Bitton D.A.
        • 史密斯D.L.
        • Connolly Y.
        • Scutt p.j.
        • 米勒C.J.
        集成的质谱管线识别人类基因组中的新型彩易福彩编码区。
        Plos一个。 2010; 5: e8949
        • 费尔明D.
        • 艾伦B.B.
        • Blackwell T.W.
        • Menon R.
        • Adamski M.
        • 徐Y.
        • ulintz p.
        • OPENN G.S.
        • 国家D.J.
        新型基因和基因模型检测彩易福彩组学中全基因组开放阅读框分析。
        基因组Biol。 2006; 7: R35
        • armengaud J.
        微生物学和彩易福彩组学,获得两个世界的最佳!
        环境。微生物。 2012; 15: 12-23
        • armengaud J.
        完美的基因组注释在彩易福彩组学和基因组学联盟范围内。
        Curr。拍摄。微生物。 2009; 12: 292-300
        • 陈W.B.
        • Laidig K.E.
        • 公园Y.
        • 公园K.
        • yates j.r.
        • Lamont R.J.
        • Hackett M.
        用肽碎片质谱搜索卟啉单胞菌牙龈基因组。
        分析师。 2001; 126: 52-57
        • 王R.
        • 王子J.T.
        • Marcotte e.m.
        M. Smogmatis彩易福彩组的质谱:彩易福彩表达水平与功能,操纵子和密码子偏压相关。
        Genome Res。 2005; 15: 1118-1126
        • de souza g.a.
        • 马尔根H.
        • 软电T.
        • Saelensminde G.
        • Prasad S.
        • jonassen我。
        • WIKER H.G.
        高精度质谱分析作为使用结核分枝杆菌的验证和改善基因注释的工具作为一个例子。
        BMC基因组学。 2008; 9: 316
        • de souza g.a.
        • 软电T.
        • koehler c.j.
        • Zhiede B.
        • WIKER H.G.
        通过串联质谱法通过完整的翻译数据集和肽鉴定来验证分枝杆菌基因组的发散ORF注释。
        彩易福彩组学。 2009; 9: 3233-3243
        • Kelkar D.S.
        • Kumar D.
        • Kumar P.
        • Balakrishnan L.
        • Muthusamy B.
        • Yadav A.K.
        • Shrivastava P.
        • Marimuthu A.
        • 安德斯。
        • Sundaram H.
        • Kingsbury R.
        • Harsha H.C.
        • Nair B.
        • Prasad T.S.
        • CH.auhan D.S.
        • 卡扎克。
        • 卡扎赫五。
        • CH.aerkady R.
        • Ramachandran S.
        • 划伤D.
        • Pandey A.
        高分辨率质谱法分枝杆菌的蛋白基因组分析。
        摩尔。细胞。彩易福彩组学。 2011; 10 (M111.011627)
        • verter e。
        • 史密斯r.d.
        • Payne S.H.
        细菌和古代的彩易福彩基因组分析:46个生物案例研究。
        Plos一个。 2011; 6: e27587
        • 克鲁格克。
        • nahnsen s.
        • MACEK B.
        彩易福彩组学和基因组学界面处的质谱。
        摩尔。 Biosyst。 2011; 7: 284-291
        • Blakeley P.
        • overton i.M.
        • 哈贝德S.J.
        寻址核苷酸衍生蛋白数据库中的统计偏见,用于ProTeo-Genomic搜索策略。
        J.彩易福彩组。 2012; 11: 5221-5234
        • iwasaki m.
        • Miwa S.
        • Ikegami T.
        • Tomita M.
        • 塔卡卡N.
        • Ishihama Y.
        与串联质谱偶联的一维毛细管液相色谱分离揭示了在微阵列规模上的大肠杆菌彩易福彩组。
        肛门。化学。 2010; 82: 2616-2620
        • 巴巴T.
        • 一只老鼠。
        • Hafegawa M.
        • 塔凯y.
        • 好的umura Y.
        • 巴巴米
        • Datsenko K.A.
        • Tomita M.
        • Wanner B.L.
        • 森林。
        大肠杆菌k-12框内的构建,单基因敲除突变体:Keio收集。
        摩尔。系统。 BIOL。 2006; 2 (2006.0008)
        • Ishihama Y.
        • Rappsilber J.
        模块化止动件,并在彩易福彩组学中具有堆叠磁盘的提取提示。
        J.彩易福彩组。 2006; 5: 988-994
        • wisniewski J.R.
        • 邹格曼A.
        FASP和基于STAGETIP的分馏的组合允许对海马膜彩易福彩组进行深入分析。
        J.彩易福彩组。 2009; 8: 5674-5678
        • Cox J.
        MaxQuant能够高肽识别率,个体化P.P.B.范围质量精度和彩易福彩组含彩易福彩定量。
        NAT。 Biotechnol。 2008; 26: 1367-1372
        • Cox J.
        • Neuhauser N.
        • Michalski A.
        • 施泰米r.a.
        • 奥尔森J.V.
        和romeda:肽搜索引擎集成到最大环境中。
        J.彩易福彩组。 2011; 10: 1794-1805
        • 莱利M.
        • ab
        • Arnaud M.B.
        • Berlyn M.K.
        • blattern f.r.
        • chaudhuri r.r.
        • Glasner J.D.
        • Horiuchi T.
        • keseler i.M.
        • Kosuge T.
        • 森林。
        • perna n.t.
        • Plunkett 3,G。
        • rudd K.E.
        • Serres M.H.
        • 托马斯G.H.
        • 汤姆森N.R.
        • 愿望D.
        • Wanner B.L.
        大肠杆菌 K-12: a cooperatively developed annotation snapshot—2005.
        核酸RES。 2006; 34: 1-9
        • Hayashi K.
        • Morooka N.
        • Yamamoto Y.
        • 富士群K.
        • ISONO K.
        • 崔S.
        • ohtsubo E.
        • 巴巴T.
        • Wanner B.L.
        • 森林。
        • Horiuchi T.
        大肠杆菌K-12菌株Mg1655和W3110的高度准确基因组序列。
        摩尔。系统。 BIOL。 2006; 2 (2006.0007)
        • 米饭P.
        • 龙班I.
        • Bleasby A.
        浮雕:欧洲分子生物学开放式软件套件。
        趋势类型。 2000; 16: 276-277
        • 凯勒阿。
        • nesvizhskii a.i.
        • Kolker E.
        • Aeberberold R.
        经验统计模型来估计MS / MS和数据库搜索的肽识别的准确性。
        肛门。化学。 2002; 74: 5383-5392
        • altschul s.f.
        • GISH W.
        • 米勒W.
        • 迈尔斯。
        • Lipman D.J.
        基本的局部比对搜索工具。
        J.Mol。 BIOL。 1990; 215: 403-410
        • Camacho C.
        • Coulouris G.
        • Avagyan V.
        • 男子。
        • Papadopoulos J.
        • Bealer K.
        • Madden T.L.
        BLAST +:架构和应用程序。
        BMC生物信息学。 2009; 10: 421
        • R开发核心团队
        R.统计计算基金会, 维也纳,奥地利2012
        • Ishihama Y.
        • 奥达Y.
        • Tabata T.
        • 撒托T.
        • nagasu t.
        • Rappsilber J.
        指数改性彩易福彩丰度指数(EMPAA),用于通过每种彩易福彩的测序肽数估计彩易福彩组学中的绝对彩易福彩量。
        摩尔。细胞。彩易福彩组学。 2005; 4: 1265-1272
        • Rappsilber J.
        • ryder u.
        • Lamond A.I.
        人脾脏的大规模彩易福彩组学分析。
        Genome Res。 2002; 12: 1231-1245
        • 巴克尔D.
        • 调光e.
        • Huntley R.P.
        • Binns D.
        • O'Donovan C.
        • APWEILER R.
        2009年的GOA数据库 - 一种集成基因本体注释资源。
        核酸RES。 2009; 37: D396-D403
        • Benjamini Y.
        • Hochberg Y.
        控制虚假发现率 - 一种实用而强大的多次测试方法。
        J. R. Stat。 SOC。 B系列统计数据。方法。 1995; 57: 289-300
        • eliasj.e.
        • Gygi S.P.
        基于质谱的彩易福彩组学的目标诱饵搜索策略。
        方法mol。 BIOL。 2010; 604: 55-71
        • eliasj.e.
        • Gygi S.P.
        目标 - 诱饵搜索策略通过质谱法对大规模彩易福彩鉴定的置信度提高。
        NAT。方法。 2007; 4: 207-214
        • 德意曲e.w.
        • 门多萨L.
        • Shteynberg D.
        • Farrah T.
        • 林H.
        • 塔斯曼N.
        • 太阳Z.
        • Nilsson E.
        • 普拉特B.
        • Prazen B.
        • ENG J.K.
        • 马丁D.B.
        • nesvizhskii a.i.
        • Aeberberold R.
        Trans-Qualeomic管道的导游。
        彩易福彩组学。 2010; 10: 1150-1159
        • Kall L.
        • Storey J.D.
        • maccoss m.j.
        • 贵族W.S.
        后误码概率和假发现率:同一硬币的两侧。
        J.彩易福彩组。 2008; 7: 40-44
        • Storey J.D.
        • Tibshirani R.
        基因组研究的统计学意义。
        Proc。 Natl。阿卡。 SCI。美国。 2003; 100: 9440-9445
        • 济孔克。
        • 金斯。
        • Bandeira N.
        光谱识别中的假发现率。
        BMC生物信息学。 2012; 13 (16): S2
        • ashburner m.
        • 球C.A.
        • 布莱克J.A.
        • Botstein D.
        • 巴特勒H.
        • 樱桃准晚
        • 戴维斯A.P.
        • Dolinski K.
        • 德怀特S.S.
        • EPPIG J.T.
        • 哈里斯M.A.
        • 山D.P.
        • ISSEL-TARVER L.
        • Kasarskis A.
        • 刘易斯S.
        • Matese J.C.
        • Richardson J.E.
        • Ringwald M.
        • 鲁宾上午
        • Sherlock G.
        基因本体:生物学统一的工具。基因本体组织。
        NAT。遗传。 2000; 25: 25-29
        • Gupta n。
        • Bandeira N.
        • 克里奇u.
        • PEVZNER P.A.
        目标 - 诱饵方法和假发现率:当事情可能出错时。
        J.IM。 SOC。质谱。 2011; 22: 1111-1120
        • 库珀B.
        肽推定的问题和目标诱饵假发现率的垮台。
        肛门。化学。 2012; 84: 9663-9667
        • nesvizhskii a.i.
        霰弹枪彩易福彩组学中肽和彩易福彩鉴定的计算方法和误差率估算程序调查。
        J.彩易福彩组学。 2010; 73: 2092-2123
        • Helmy M.
        • Tomita M.
        • Ishihama Y.
        通过针对大型数据库搜索大规模串联质谱的肽鉴定:Proteo-Genomics中的生物信息学方法。
        基因,基因组和基因组学。 2012; 6: 76-85
        • Srivatsan A.
        • 韩义。
        • 彭J.L.
        • Tehranchi A.K.
        • 吉布斯r.
        • 王J.D.
        • 陈R.
        高精度,实验室菌株的全基因组测序促进了遗传学研究。
        Plos Genet。 2008; 4: E1000139.
        • Metzker M.L.
        下一代技术:基础和应用。
        环境。摩尔。诱惑。 2010; 51: 691