组装方法

ipyrad有四种组装RAD-seq数据集的方法。第一种也是最简单的一种为denovo,即不需要任何先验信息或基因组来源,而其他三种都需要依赖于参考基因组信息。值得注意的是,有许多类型的数据均可作为基因组的参考序列,而不仅仅是核基因。例如,质体基因组和转录组数据也能够划分不同assembiles间的差异,并且参考序列甚至能够代表共生关系的基因组,或是数据组中或将被过滤/移除的受污染信息。

denovo

没有参考基因组信息的序列组装。同源性是通过聚类过程中序列相似度推测得到,软件为vsearch。

reference

基于序列相似度,使用bwa_ (或smalt,可选)程序将序列匹配到参考基因组上

denovo+reference

基于序列相似度匹配参考基因组,未匹配的reads按照denovo组装方法进行组装。

denovo-reference

剔除匹配到参考序列上的序列,其余的序列通过denovo方法进行组装。该方法可用于过滤外部数据,例如植物中获取叶绿体基因组数据,或是寄主上获取寄生虫基因组数据。

多方法联合

适用具有参考基因组序列,可结合多方法比对多组装场景下不同结果。例如,以10个植物物种的系统发育关系为研究对象,我们下载了近缘的转录组数据,我们可以对比仅保留与转录组相匹配的序列数据(推定为编码区)以及与其不匹配的序列数据(推定为非编码区)。

CLI案例中的多方法结合

## 产生一个参数文件params.txt并命名为“coding”。
## 在参数文件设置中进行参数的编辑,在’reference_sequence_path’中输入转录组序列文件的路径;
## 在‘assembly_method’中输入’reference’。
ipyrad -n coding

## 运行1-2步
ipyrad -p params-coding.txt -s 12

## 产生一个分枝文件命名为”noncoding”;
## 编辑该参数文件,设置‘assembly_method’为‘denovo-reference’;
## 保持‘reference_sequence_path’不变
ipyrad -p params-coding.txt -b noncoding

## 运行3-7步
ipyrad -p params-coding.txt -s 34567
ipyrad -p params-noncoding.txt -s 34567

在Python下API案例中的多方法结合

## 输入ipyrad
import ipyrad as ip

## 产生组装和修正参数的设置
data1 = ip.Assembly("coding")
data1.set_params("project_dir", "example")
data1.set_params("sorted_fastq_path", "data/*.fastq")
data1.set_params("reference_sequence_path", "transcriptome.fa")
data1.set_params("assembly_method", "reference")

## 运行1-2步
data1.run("12")

## 产生‘noncoding’的分支;
## 设置组装方法为‘denovo-reference’以便移除与参考序列一直的序列
data2 = data1.branch("noncoding")
data2.set_params("assembly_method", "denovo-reference")

## 完成两个组装
data1.run("34567")
data2.run("34567")

## 比较结果见ipyrad分析工具