先日、構造多型を解析するツールについてご紹介しました。
(Paired-end/Split-read/Complex)
これらのツールの一部は、解析の際、シーケンスデータのinsert sizeの入力が必要です。
自ら実験して得たデータならinsert sizeはわかると思いますが、公共のデータベースの公開データはリード長は記載されていてもinsert sizeは不明な場合が多いです。
そこでinsert sizeを計算してくれるツールを調べていたところ、PicardsのCollectInsertSizeMetricsがありました。
BAM/SAMファイルからinsert sizeのヒストグラムを描画してくれるツールです。
様々なパラメータがありますが、必須のパラメータは3つだけです。
1. 入力するBAM/SAM
2. insert sizeを出力するファイル
3. ヒストグラムを出力するファイル
コマンドは以下のようになります(ファイル名・バージョンは任意です)。
$ java -jar [path]/picard-tools-1.75/CollectInsertSizeMetrics.jar INPUT=sample.bam OUTPUT=output.txt HISTOGRAM_FILE=hist.pdf
OUTPUTパラメータで指定したファイル(ここではoutput.txt)には、insert sizeの平均や中央値、最大値や標準偏差など、insert sizeに関する統計量が書かれています。
HISTOGRAM_FILEで指定したファイル(ここではhist.pdf)には、下図のようなヒストグラムが生成します。
また、このヒストグラムを生成したデータでは、統計量はmedian insert sizeが200bp、mean insert sizeが213.9bpと計算されました。
ヒストグラムと統計量を見比べ、このデータのinsert sizeは200 bpだと判断しました。
詳細については公式のマニュアル(こちら)をご参照ください。