Circosを使ってみようでご紹介したCircosを使って、
以下のようなヒトのChainSelfの図を描いてみたいと思います。
手順
(1)データファイル用意
(2)設定ファイル作成
(3)Circos実行
今回は「(1)データファイル用意」を行います。
ChainSelfは、ヒトゲノムを自分自身にアライメントして、
類似領域を探したデータです。
データはUCSCから入手可能です。
UCSC hgdownloadから、chainSelf.txt.gzをダウンロードして
解凍します。
ChainSelfのように、ゲノム上の2領域間をつなぐデータは
CircosではLinkトラックという形式で表します。
Linkトラックとして読み込むために、ダウンロードしたファイルから
染色体1、スタート位置1、エンド位置1、
染色体2、スタート位置2、エンド位置2
だけ抜き出したファイルを作成します。
また、Circosの表記に合わせ、染色体名中のchrをhsに置換します。
さらに、全データだと数が多いため、スコアが10Mより大きい箇所にだけ
絞り込みました。
以下のコマンドを実行すると、上記の変換を行うことができます。
$ awk '$2>10000000{print $3, $5, $6, $7, $10, $11}' chainSelf.txt | sed -e "s/chr/hs/g" > data.txt
これでデータファイルの作成は完了です。
次回は、Circosの設定ファイルを作成したいと思います。