アメリエフの技術ブログ

Amelieff Staff Blog

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。

GFF(General Feature Format)はゲノムの配列に関連した特徴を示した9列からなるタブ区切りのフォーマットです。
chr1    hg19_rmsk       transcript      10001   10468   .       +       .       ID=(CCCTAA)n;geneID=(CCCTAA)n
chr1 hg19_rmsk exon 10001 10468 1504.00 + . Parent=(CCCTAA)n
chr1 hg19_rmsk transcript 10469 11447 . - . ID=TAR1;geneID=TAR1

それぞれの列の説明です。
1. seqname:染色体またはスキャフォールドの名前
2. source:データベースやプロジェクト名
3. feature:配列のタイプ(例:repeat, exon, promoter, etc)
4. start:配列の開始位置
5. end:配列の終了位置
6. score:任意のスコアが入る。ない場合は '.'
7. strand:+(forward)、-(reverse)または '.'
8. frame:0から2の数値で、翻訳を開始する塩基の位置を示す(0なら配列の1番目がコドンの1番目の塩基になる)。コーディング領域でない場合は '.'
9. attribute:グループ

GTF(Gene Transfer Format)はGFFと8列目までは同じ項目ですが、GTFでは9列目にgene id とtranscript idを含み、セミコロンとスペース区切りで連続した複数の情報が付加されています。
chr1    hg19_rmsk       exon    16777161        16777470        2147.000000     +       .       gene_id "AluSp"; transcript_id "AluSp";
chr1 hg19_rmsk exon 25165801 25166089 2626.000000 - . gene_id "AluY"; transcript_id "AluY";
chr1 hg19_rmsk exon 33553607 33554646 626.000000 + . gene_id "L2b"; transcript_id "L2b";


ここまで簡単に2つのフォーマットの説明をしましたが、もっと詳しく知りたい方は、下記のリンクをご参照ください。
UCSC FAQ
Sanger Institute
The Sequence Ontology Project
Brent Lab Homepage