アメリエフの技術ブログ

Amelieff Staff Blog

GATKの「known sites」

今日は、次世代シーケンサの解析に用いられるGATKについてお話します。
GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。
GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめているページがありました。
http://www.broadinstitute.org/gatk/guide/article?id=1247


「UnifiedGenotyper」「HaplotypeCaller」では、アノテーションに使用しているだけなので、ご自由時どうぞ
それ以外の「RealignerTargetCreator」「IndelRealigner」「BaseRecalibrator」「VariantRecalibrator」「VariantEval」は、解析の結果が変わってきてしまうので、推奨の「known variants/sites」を使用するように
と、書かれています。

特に「VariantEval」では、1000人ゲノムプロジェクトの影響を除いたほうがいいので、dbsnp129を推奨していました。