読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

insert sizeを求める

次世代シーケンサー解析

先日、構造多型を解析するツールについてご紹介しました。
(Paired-end/Split-read/Complex)
これらのツールの一部は、解析の際、シーケンスデータのinsert sizeの入力が必要です。
自ら実験して得たデータならinsert sizeはわかると思いますが、公共のデータベースの公開データはリード長は記載されていてもinsert sizeは不明な場合が多いです。

そこでinsert sizeを計算してくれるツールを調べていたところ、PicardsのCollectInsertSizeMetricsがありました。
BAM/SAMファイルからinsert sizeのヒストグラムを描画してくれるツールです。
様々なパラメータがありますが、必須のパラメータは3つだけです。

1. 入力するBAM/SAM
2. insert sizeを出力するファイル
3. ヒストグラムを出力するファイル

コマンドは以下のようになります(ファイル名・バージョンは任意です)。

$ java -jar [path]/picard-tools-1.75/CollectInsertSizeMetrics.jar INPUT=sample.bam OUTPUT=output.txt HISTOGRAM_FILE=hist.pdf


OUTPUTパラメータで指定したファイル(ここではoutput.txt)には、insert sizeの平均や中央値、最大値や標準偏差など、insert sizeに関する統計量が書かれています。

HISTOGRAM_FILEで指定したファイル(ここではhist.pdf)には、下図のようなヒストグラムが生成します。
insert size distribution

また、このヒストグラムを生成したデータでは、統計量はmedian insert sizeが200bp、mean insert sizeが213.9bpと計算されました。
ヒストグラムと統計量を見比べ、このデータのinsert sizeは200 bpだと判断しました。

詳細については公式のマニュアル(こちら)をご参照ください。