アメリエフの技術ブログ

Amelieff Staff Blog

SAM format①

tokunagaです。
本日からはSAM formatについてです。

SAMとはSequence Alignment/Mapの略で、
次世代シーケンサー解析に用いられるformatの一つで、マッピングの結果が書かれています。
BAM formatは、このSAMファイルをバイナリ化したものです。

SAM formatの中身は

@SQ SN:gi|49175990|ref|NC_000913.2| LN:4639675
@PG id:bwa PN:bwa VN:0.6.1-r104
SRR022885.1 16 gi|49175990|ref|NC_000913.2| 2966086 25 36M * 0 0 ACATGAAGCAACTGGCGACGTTGAATAATTGGTACG /+&I0I53>I+I.IIII@IIIIIII>IIIIIIIIII XT:A:U NM:i:2 X0:i:1 X1:i:0 XM:i:2 XO:i:0 XG:i:0 MD:Z:3C0C31
SRR022885.2 4 * 0 0 * * 0 0 AGATTTTTTCCTGTAACGCTGCCAGTTGGTGGGCTC IIIIIIIIIIIIIIIIIIIIIII<FBI5F+&+#""#
SRR022885.3 0 gi|49175990|ref|NC_000913.2| 1766166 25 36M * 0 0 AGCGTACGCCAAGTACGTGATCTGACGTTTTGCCCT IIIIIIIIIIIIIIIII2IIIIII7IE,III1(%(4 XT:A:U NM:i:2 X0:i:1 X1:i:0 XM:i:2 XO:i:0 XG:i:0 MD:Z:0C33A1
SRR022885.4 16 gi|49175990|ref|NC_000913.2| 3182924 37 36M * 0 0 AATCAGGGAGTTCGGGGAAGATGTGGAGAAAAAAAG I796II+IIII+IIIIIIIIIIIIIIIIIIIIIIII XT:A:U NM:i:1 X0:i:1 X1:i:0 XM:i:1 XO:i:0 XG:i:0 MD:Z:35T0
・・・・・・・・・・(続く)


という形式になっています。
基本的にタブで区切られています。

@から始まっている行はヘッダー部分で、ここではヘッダー部分以降のファイルの中身を定義しています。
それ以外の行はアライメント部分で、各リードのマッピング情報について書かれています。

次回はヘッダー部分の形式について書きたいと思います。