数据无关的收购指南

这些指南用于研究独立于洗脱组件的全面碎片数据的研究,目的是全局分析混合物。该策略通常称为数据无关的采集(DIA),与获取基于洗脱前体离子的肽片段化数据的其他策略对比,通常称为数据依赖性收购(DDA),或其中的策略使用单/多次/平行反应监测(SRM / MRM / PRM)的策略具体针对组分的子集。这些其他策略有不同的指导方针(1,2),作者应遵守适合其采购方法的指导方针。

作者还审查是非常重要的 清单文件 在提交稿件时必须在提交网站上完成。

实验部分

实验设计和统计理由:


作者必须在实验方法部分中包含分段,其中标题 “实验设计和统计理由”。在本节中,明确说明:

  • 所用的样本条件的数量和类型
  • 结果中分析和描述的样本总数
  • 进行了技术,过程和/或生物复制的数量。如果没有进行重复分析,明确说明为什么应考虑为您的学习可接受
  • 用于选择样品号,重复等的理由。
  • 如果使用保留时间标准或其他尖刺蛋白或肽标准标准
  • 用于样品采集顺序随机化的方法(如果适用于您的研究)
  • 如果创建了一个库作为后续肽检测的工作的一部分,则用于库创建的样本的数量和类型(生物/技术)
  • 描述用于数据处理和统计分析的算法或程序。完全描述和/或引用用于后续数据分析的统计测试,并提供所使用的统计测试选择的原因。

数据采集


对DIA数据有几种不同的采集策略。作者应提供他们认为对帮助评估结果很重要的所有参数。这些包括:

  • 是否获取了MS1数据,如果是的话,M / z范围/ s。
  • 是否分馏M / Z范围以进行碎片分析;如果是,如果是,则分离参数(M / z / mobility),窗口数,是否获取重叠窗口,以及总循环时间。

直接数据分析方法


分析DIA数据的软件可以大致分为两种策略;那些试图将肽与单独的光谱(光谱为中心)和那些试图检测到数据文件中某处的给定肽(肽中心)的那些。对于每种策略,可以针对蛋白质数据库或光谱库进行匹配,但是最多的谱图分析对蛋白质数据库的查询和以肽为中心的方法主要利用光谱库。下面的指导方针基于分析策略划分。一些工作流程可以使用两种方法的组合,在这种情况下,这两种指南都适用。

为中心的DISIC分析:

峰列表生成: 说明用于创建峰值列表的方法和/或程序(包括版本号和/或日期)。

  • 列出在创建此峰值列表中使用的参数,特别是任何可能影响后续数据库搜索质量的处理。实例包括平滑,信号 - 噪声阈值,电荷状态分配或去同位素,解复用,检测到的电荷状态(M / z或漂移分离)对产物离子光谱的肽的相对贡献。
  • 定义峰值列表文件中离子中的保留/漂移时间和强度如何分配。
  • 状态可以包括所观察到的片段离子的最大前体峰值。
  • 在已经执行了峰列表集合的额外定制处理的情况下,例如群集或过滤,应引用方法和/或程序(包括版本号)。

搜索引擎: 必须提供用于数据库搜索的所有程序的名称和版本(或发布日期)。

  • 序列数据库或光谱库: 必须列出所有序列数据库或使用频谱库的名称和版本(或发布日期)。如果在内部编译数据库或库,则需要完整描述序列或光谱源,并且用于库生成的软件。必须包括从每个数据库或库中实际搜索的条目数。如果使用的数据库或库非常小(<1000个条目)或排除普通污染物,必须具体提供了理由,因为这可能会产生误导性分配和不准确的错误发现率估计。
  • 酶特异性: 必须列出用于产生肽的所有酶的描述,包括必须列出允许的错过和非特异性裂解(例如半胰蛋白酶)的数量。
  • 固定修改(s): 必须给出所考虑的所有修改的列表(包括残留物特异性)。
  • 可变修改: 必须给出所考虑的所有修改的列表(包括残留物特异性)。如果未指定已固定或可变修改,则应如此陈述。
  • 前体和碎片离子的大众耐​​受性 (如果这是一个用户可定义的设置;有些软件会自动确定此)。
  • 已知的污染物被排除在外: 必须识别来自预指定污染物的峰值(或者如果使用任何这些碎片用于校准)。
  • 阈值分数/期望值: 用于接受单个光谱的标准应与理由一起说明。
  • 肽,蛋白质和批量水平的假发现率: 对于大规模的实验,任何额外统计分析的结果估计数据集的识别确定度的衡量标准,或者允许确定错误发现率,例如诱饵搜索或其他计算方法的结果。

为肽为中心的DIA分析:

光谱库

对于所有库,必须报告这些覆盖(目标和诱饵)的光谱条目数和蛋白质数量。对于小尺寸的图书馆( <1000个条目),必须提供使用诸如小型搜索空间的有效性的理由。

如果库是作为本研究的一部分创建的:

如果从DDA数据创建,则必须为此数据完成DDA MS / MS指南。

  • 如果使用公共数据来编译库,则可以从中下载/下载原始数据的位置。
  • 用于库生成的软件(包括版本号)
  • 当肽的多个光谱可用时;
    • 如果将代表频谱添加到图书馆,则其选择标准;例如最佳评分,最自信的修改网站本地化。
    • 如果在库中创建了复合频谱,则用于合并光谱的参数
  • 在图书馆创作中是否仅使用鉴定肽的子集;例如去除未改性或修饰的肽
  • 从光谱中除去特定的峰(例如前体离子)
  • 是否将阈值化应用于频谱(例如,最小S / N,保留的每频谱的最大峰值数)
  • 图书馆中的条目估计有效;包括估计方法。如果在文库中组合来自多个分析的结果,则组合时用于FDR控制的软件/方法。

如果公共图书馆用于数据分析:

  • 版本号库。提供文献引用如果可用。
  • 可以从中获取/下载位置库。
  • 使用图书馆中的谱的附加元数据;例如保留时间,离子迁移率。
  • 图书馆是进一步加工的;例如分娩;峰值列表阈值。

如果使用预测光谱:

  • 用于创建光谱的软件(包括版本号)
  • 用于确定在文库中包含哪种肽的参数(例如蛋白质序列的来源;假设酶特异性;包括哪些修改;包括肽长度/质量范围......)。

如果图书馆包含诱饵:

  • 包括多少个诱饵条目(相对于目标条目的数量)
  • 这些如何分配给诱饵蛋白(允许蛋白质级FDR估计)?
  • 这些诱饵谱是如何创建的?

匹配数据到频谱库

  • 用于肽为中心分析的名称和版本号
  • 尝试前体检测吗?
    • 如果是,则如何使用前体信息?
    • 用于匹配前体离子的大众耐​​受性是什么?
  • 保留时间或用于辅助识别的离子迁移率?
    • 如果是这样,这是如何使用的;例如是围绕预测的时间/移动性的窗口吗?
    • 使用哪种方法用于对准采集之间的保留时间,或描述用于评估保留时间再现性的测试。
  • 色谱图峰值形状用作评分结果中的参数吗?如果是这样,怎么样?
  • 使用多少个峰用于鉴定单个肽? (对于某些软件,这可能是一个范围)
    • 选择这些峰的标准;例如图书馆谱中的相对强度必须高于某种质量;必须在某个质量范围内......
  • 在与图书馆匹配时,用于片段离子的质量耐受性。
  • 如果报告了修改站点,则评估网站定位可靠性的方法
  • 肽,蛋白质和/或批量级别的假发现速率:任何额外统计分析的结果,估计数据集的识别确定度的衡量标准,或者允许确定错误发现率,例如诱饵搜索的结果或其他计算方法。

结果部分

肽和蛋白质报告

根据研究的焦点,可以在肽或蛋白质水平中最适当地报告结果。必须在主稿件中提供结果表,或者如果大,则作为提交给稿件的补充文件。

对于蛋白质水平报告的结果,该表必须包括:

  • 蛋白质加入号码
  • 分配给每种蛋白质的不同肽序列的数量的计数:当计算该数量时,对具有相同初级序列的肽的多次匹配应计数为单个不同的肽,包括表示不同前体充电状态或修改状态的多个匹配。任何替代假设必须是合理的。
  • 如果通过库搜索识别,则来自该蛋白质的文库中的不同肽序列的数量。
  • 对于通过单个不同的肽序列鉴定的任何蛋白质,必须另外提供肽水平信息并注释光谱或色谱图(无论哪个更合适;见下文)

对于在肽水平报告的结果,结果表必须包括:

  • 蛋白质加入号码
  • 所有肽序列分配。
  • 前体电荷和观察到的质量/充电(如果使用的MS1数据)。
  • 观察到所有修改。
  • 用于以肽为中心的分析,匹配和无与伦比的碎片的数量和图书馆频谱匹配质量的统计测量
  • 用于以频谱为中心分析与个体肽鉴定相关​​的分数和/或统计测量。
  • 如果鉴定的肽含有生物学修改,则必须报告对修改现场定位的可靠性的衡量标准(或者必须指出该网站定位可靠性未评估)。
  • 为了报告具有生物翻译后修饰的肽,或根据单个独特的肽(不鼓励的基础鉴定的蛋白质,必须提供观看这些识别的注释光谱或色谱图的能力。这可以通过:
    • 在向期刊提交稿件之前,将所有数据和搜索结果提交到配备有观众的公共结果存储库。
    • 提交数据和搜索结果以一种文件格式,允许使用可自由的查看器可视化光谱

请参阅 http://www.charterfishingnj.com/page/content/annotated-spectra 有关如何实现不同软件的注释光谱的更多详细信息。

在一般结果部分中,我们鼓励作者报告在质谱数据中观察到的总离子电流的百分比,该数据通过使用哪种软件解释数据来解释。作者还应该说明如何确定或估计百分比。

有关如何遵守的详细信息,请参阅题为“有关如何提供注释光谱”的文档。

量化

提出质谱分析的定量蛋白质组成果的原稿必须提供以下信息:

  • 所有相关的量化数据(作为肽和/或蛋白质识别表的一部分)以及描述如何处理原始数据以产生这些测量的描述(例如,MS1或MS2离子是否用于量化)。
  • 后处理步骤的完整描述,例如异常抑制,相对于识别分数或CV过滤,通过阈值对数据进行分类排除(例如,基于信号到噪声或最小离子计数。)
  • 用于定量每种蛋白质的肽数(如果与用于识别的数量不同)。
  • 如何使用技术复制和统计方法验证测量的分析可靠性。可以使用标准方法或专用软件的引用。但是,必须证明稿件中包含的数据确实符合模型所做的假设。
  • 如何使用生物重复,统计方法,独立实验等进行测量的生物可靠性。基于单一生物实验的研究通常是不可接受的(用于测试生物信息系统的数据集除外)。如果不能进行来自相同来源的生物学复制(例如患者样品),则必须执行足够大量的类似生物样品,以便能够进行声音结论。
  • 描述如何处理共用峰值干扰的量化
  • 如果报告了修改站点本地化,则用于评估本地化可靠性的软件。
  • 适当的不确定性估计和用于误差分析的方法。

许多蛋白质或肽的定量通常导致需要使用某种形式的多假设检测校正。只要有可能,应为每个单独的蛋白质而不是全球数据集提供蛋白质量化的置信度。从稿件中的定量数据中产生的任何结论或假设必须与确定的不确定性的估计有音乐会。

  • 量化蛋白质组中多种同种型的描述。

数据提交给公共存储库

在首次提交纸张中,必须存放原始仪器供应商文件格式中的所有质谱输出文件,该网站上独立于作者控制(例如,任何Proteomexchange资源)。如果作为研究的一部分创建了光谱库,则还应存入用于创建这些的原始数据(除非它已公开可用,在这种情况下,应引用要下载的位置),以及创建的库(目标和诱饵)。光谱库数据应优先存放为单独的提交,以便更容易参考。存储库通常需要用户名和密码以访问提交的数据集。必须在提交日志时向编辑提供此信息,并将提供给审核人员作为手稿审查过程的一部分。如果能够读取仪器供应商文件格式的软件,则会鼓励数据转换为诸如MZML等MZML之类的软件不可用。在所有情况下,在任何可能影响后续解释质量的任何处理之前,都预计将以形式提供以形式的形式提供的形式。

此外,必须将文件作为补充材料(以及提交原始数据的存储库)提交,以映射每个原始数据文件,中间处理文件和结果文件之间的关系,并识别生物,技术或过程重复。必须使用相应版本的软件记录所有软件分析。

必须以书面管理编辑以书面形式提交来自此要求的豁免(或与技术问题无关)的请求[ [电子邮件 protected]]在提交时。禁运存款必须在出版时公开可用。

关于此要求的进一步信息可以通过联系获得 [电子邮件 protected].