アメリエフの技術ブログ

Amelieff Staff Blog

STARとCufflinks

RNA-seq解析におけるマッピングソフトウェアの選択肢は、TopHat一強から、STARもずいぶん多く使われるようになってきました。
性能や速度から、STAR一択! と言い切る人もいますが、まだ根強くTopHatユーザもいるという印象です。

マッピングは解析の中でも、非常に重要ですが、実行時間がボトルネックということも多いので、マッピングソフトウェアの速度や精度は非常に気になるところですね。

STARでマッピングした後は、遺伝子発現解析を行うと思いますが、Cufflinksを使用される際は、「--outSAMstrandField intronMotif」オプションでXSタグを付ける必要があります。
※STARのバージョンは2.5.1bです。

■コマンド例

$ STAR --genomeDir /path/to/STARIndex/ --runThreadN 3 --sjdbGTFfile genes.gtf --outSAMtype BAM SortedByCoordinate --outFileNamePrefix samplename --outSAMstrandField intronMotif --readFilesCommand zcat --readFilesIn sample_1.fastq.gz sample_2.fastq.gz

■その他のオプションの説明


--outSAMtype BAM SortedByCoordinate
デフォルトでは出力ファイル形式がSAMなので、BAMファイルで出力します。SortedByCoordinateと指定しているので、染色体のポジションでソートされて出力されます。
--readFilesCommand zcat
入力fastqファイルをSTARで処理する前に実行するコマンドを指定できます。今回使用しているfastqファイルはgz圧縮しているので、zcatでファイルを解凍した結果をSTARで処理しています。