読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

CircosでSelfChainを描く(1)

Circosを使ってみようでご紹介したCircosを使って、
以下のようなヒトのChainSelfの図を描いてみたいと思います。



手順
(1)データファイル用意
(2)設定ファイル作成
(3)Circos実行

今回は「(1)データファイル用意」を行います。

ChainSelfは、ヒトゲノムを自分自身にアライメントして、
類似領域を探したデータです。

データはUCSCから入手可能です。
UCSC hgdownloadから、chainSelf.txt.gzをダウンロードして
解凍します。

ChainSelfのように、ゲノム上の2領域間をつなぐデータは
CircosではLinkトラックという形式で表します。

Linkトラックとして読み込むために、ダウンロードしたファイルから
染色体1、スタート位置1、エンド位置1、
染色体2、スタート位置2、エンド位置2
だけ抜き出したファイルを作成します。

また、Circosの表記に合わせ、染色体名中のchrをhsに置換します。
さらに、全データだと数が多いため、スコアが10Mより大きい箇所にだけ
絞り込みました。

以下のコマンドを実行すると、上記の変換を行うことができます。
$ awk '$2>10000000{print $3, $5, $6, $7, $10, $11}' chainSelf.txt | sed -e "s/chr/hs/g" > data.txt

これでデータファイルの作成は完了です。

次回は、Circosの設定ファイルを作成したいと思います。