输入文件

ipyrad能够处理各种用限制性内切酶得到的数据类型(RAD, ddRAD, GBS)或者与其相关的扩增方法的得到的序列(比如,NextRAD, RApture),这两者都是至少有一端是固定的,所以reads能够很好地聚类。ipyrad并非从许多部分重叠区中构建长片段的(即鸟枪法),不过其能兼容成对reads ( paired-end reads ),检测和合并重叠区。ipyrad也能够合并不同长度的reads,所以不同时期测序得到的片段长度不同的序列也能够很好地进行整合。

不同测序方法形成不同的结果文件,可能是一个综合的大文件,也可能是许多小文件。这些文件可能包含混合的所有个体数据,或是每个样本分开的单独文件。若是未解编的,就需根据条形码或指数进行多路解编。ipyrad的输入文件两者皆可:

多路重复的序列文件(未加工的序列文件) - 若数据未在个体/样本间进行分类,就需添加barcode的信息在一个条形码文件中。在该文件中需要添加样本名字。raw data的文件路径则添加至参数文件中的 raw_fastq_path

多路解编的序列文件(已分类的序列文件) - 若数据已经进行了分类就可以直接添加到参数文件的该路径中: sorted_fastq_path 。在操作指南章节部分会有更详细的合并数据的方法,包括基于不同个体或不同条形码文件的序列数据合并。

是否需要预处理数据?

建议先将数据在(fastqc) [fastqc] 程序中产生输出文件,得到质量分数分布以及Ilumina平台测序的接头序列(adapters)。若数据包括adapters,就需去除adapters( 这一步很重要 ),尤其是双末端数据。目前有很多过滤数据的软件,比如trimmomatic或cutadapt。这里建议用cutadapt。另外,ipyrad也可过滤数据,用的是cutadapt。在Step2分析根据设置的参数会对数据进行过滤,基于质量分数的过滤和修剪,然后进行barcode+adapter整合。此外,双末端序列在ipyrad中使用vsearch进行整合修剪后的双末端reads,用的是与PEAR相类似的运算法则。

文件命名

若进行多路解编,样本名称将会从barcodes文件提取出来。 若数据已解编,样品名称可从文件名中直接提取。不要在文件名称中包括空格键。双末端测序数据可直接进行识别,要求每个read1的文件名称需要包括字符 _R1_ ( 前后都需要下划线 ),每个R2文件除了用 _R2_ 替代 _R1_ 之外都要于read1保持一致。示例文件见示例数据。

Note

在分析前要小心处理这些文件名称,因为包括任何的拼写错误都会影响之后的结果。尤其不要在任何文件名称中包含空格。

条形码文件(Barcode file)

条形码文件是一个建立样本与条码文件的简单表格。条形码可以有不同的长度。每一行应该包含一个名字和条形码,用空格分开(tab 或spaces)

sample1     ACAGG
sample2     ATTCA
sample3     CGGCATA
sample4     AAGAACA

参数文件

参数输入文件,文件名称包含 params.txt ,可以在ipyrad中通过 -n 命令产生。文件包括了所有组装过程必须的设置。关于如何产生和使用参数文件可见操作介绍章节。

支持的数据类型

现有多种利用限制性内切酶或引物方法生成具有代表性的基因组数据集,ipyrad旨在使得这些所有的数据类型都能够灵活运用。因全称较长难以描述,遂用缩写代替。若读者的数据类型不在下列并难以确定能否用ipyrad进行解析,请与作者们联系。

rad -该数据类型使用单一酶剪切形成DNA片段,例如: RAD-seqNextRAD

ddRAD -该数据类型用两种不同的限制酶在两端分别切。在组装时,该类型在分析时与 rad 不同之处:需更严格的过滤条件来寻找第二个酶切位点。比如: double-digest RAD-seq(双酶切RAD序列)

gbs -该数据类型包括了所有的DNA双末端单酶切片段。此需反向序列分类,因为正向和反向引物会依赖于两者之间任一的片段,当测序得到两者之一的更短片段时,最终的reads会有部分或全部的重叠。在分析GBS数据时,强烈建议在filters_adapters参数中使用严格的设置。比如: genotyping-by-sequencing (Elshire et al.)EZ-RAD (Toonin et al.)

pairddrad -该数据类型为两个不同的限制性内切酶双末端测序。若其有部分重叠,第三步中,双末端序列将会将配对的reads进行合并。由于使用了两个不同的酶切位点,所以反向的分类就不需要了。例如: double-digest RAD-seq (w/paired-end sequencing)

pairgbs -此数据类型是指单一限制性内切酶切两端得到的双末端数据。由于正向引物可能与两端片段均有关联,所以有可能与反向引物有很大程度上的重叠。配对的reads将会在分类或mapping之前进行检查合并。例如: genotyping-by-sequencing , EZ-RAD (w/paired-end sequencing)

2brad -此数据类型是专有的IIb限制性内切酶酶切的一系列序列。reads经常非常短,在第2步和第7步中有轻微的不同。(期待有不同的学者在这方面进行验证)

pair3rad -此数据类型适用于多路解编条形码的3Rad或RadCap。3Rad或RadCap能够使用多达 四种限制性内切酶 ,并且也使用了一系列定制的引物来控制PCR扩增。这个数据经常是双末端的,每个read都有一个条形码。在第3步中,PCR克隆被移除,在合并之后去重复之前。 pair3rad 数据类型可同时用来解析3Rad和RadCap。因为这两者只在如何形成的数据类型上有差别,其他像多路解编、过滤都是一样的。 参见Glenn et al. 2016Hoffberg et al. 2016