组装方法¶

ipyrad有四种组装RAD-seq数据集的方法。第一种也是最简单的一种为denovo，即不需要任何先验信息或基因组来源，而其他三种都需要依赖于参考基因组信息。值得注意的是，有许多类型的数据均可作为基因组的参考序列，而不仅仅是核基因。例如，质体基因组和转录组数据也能够划分不同assembiles间的差异，并且参考序列甚至能够代表共生关系的基因组，或是数据组中或将被过滤/移除的受污染信息。

denovo¶

没有参考基因组信息的序列组装。同源性是通过聚类过程中序列相似度推测得到，软件为vsearch。

reference¶

基于序列相似度，使用bwa_ (或smalt，可选)程序将序列匹配到参考基因组上

denovo+reference¶

基于序列相似度匹配参考基因组，未匹配的reads按照denovo组装方法进行组装。

denovo-reference¶

剔除匹配到参考序列上的序列，其余的序列通过denovo方法进行组装。该方法可用于过滤外部数据，例如植物中获取叶绿体基因组数据，或是寄主上获取寄生虫基因组数据。

多方法联合¶

适用具有参考基因组序列，可结合多方法比对多组装场景下不同结果。例如，以10个植物物种的系统发育关系为研究对象，我们下载了近缘的转录组数据，我们可以对比仅保留与转录组相匹配的序列数据（推定为编码区）以及与其不匹配的序列数据（推定为非编码区）。

CLI案例中的多方法结合¶

## 产生一个参数文件params.txt并命名为“coding”。
## 在参数文件设置中进行参数的编辑，在’reference_sequence_path’中输入转录组序列文件的路径；
## 在‘assembly_method’中输入’reference’。
ipyrad -n coding

## 运行1-2步
ipyrad -p params-coding.txt -s 12

## 产生一个分枝文件命名为”noncoding”；
## 编辑该参数文件，设置‘assembly_method’为‘denovo-reference’;
## 保持‘reference_sequence_path’不变
ipyrad -p params-coding.txt -b noncoding

## 运行3-7步
ipyrad -p params-coding.txt -s 34567
ipyrad -p params-noncoding.txt -s 34567

在Python下API案例中的多方法结合¶

## 输入ipyrad
import ipyrad as ip

## 产生组装和修正参数的设置
data1 = ip.Assembly("coding")
data1.set_params("project_dir", "example")
data1.set_params("sorted_fastq_path", "data/*.fastq")
data1.set_params("reference_sequence_path", "transcriptome.fa")
data1.set_params("assembly_method", "reference")

## 运行1-2步
data1.run("12")

## 产生‘noncoding’的分支；
## 设置组装方法为‘denovo-reference’以便移除与参考序列一直的序列
data2 = data1.branch("noncoding")
data2.set_params("assembly_method", "denovo-reference")

## 完成两个组装
data1.run("34567")
data2.run("34567")

## 比较结果见ipyrad分析工具