アメリエフの技術ブログ

Amelieff Staff Blog

CircosでSelfChainを描く(1)

Circosを使ってみようでご紹介したCircosを使って、
以下のようなヒトのChainSelfの図を描いてみたいと思います。


f:id:Fuku-I:20200203134702p:plain




手順
(1)データファイル用意
(2)設定ファイル作成
(3)Circos実行

今回は「(1)データファイル用意」を行います。

ChainSelfは、ヒトゲノムを自分自身にアライメントして、
類似領域を探したデータです。

データはUCSCから入手可能です。
UCSC hgdownloadから、chainSelf.txt.gzをダウンロードして
解凍します。

ChainSelfのように、ゲノム上の2領域間をつなぐデータは
CircosではLinkトラックという形式で表します。

Linkトラックとして読み込むために、ダウンロードしたファイルから
染色体1、スタート位置1、エンド位置1、
染色体2、スタート位置2、エンド位置2
だけ抜き出したファイルを作成します。

また、Circosの表記に合わせ、染色体名中のchrをhsに置換します。
さらに、全データだと数が多いため、スコアが10Mより大きい箇所にだけ
絞り込みました。

以下のコマンドを実行すると、上記の変換を行うことができます。
$ awk '$2>10000000{print $3, $5, $6, $7, $10, $11}' chainSelf.txt | sed -e "s/chr/hs/g" > data.txt

これでデータファイルの作成は完了です。

次回は、Circosの設定ファイルを作成したいと思います。