アメリエフの技術ブログ

Amelieff Staff Blog

prefetch すらっと落とす SRA

こんにちは、久保(kubor)です。
先日転んだ時に頭を打ったので、それがきっかけで、僕に異常な言動がないかhatさんに確認してもらったのですが、
「打つ前から変わらずに変なことを言ってるよ。」
とのことでした。ひどい。

そんなhatさんが「すら(SRA)っとクイック(Q)に変換」を公開していたので、僕はこれに対抗して、
「NCBIのSRAから複数ファイルをまとめてダウンロードする方法」を紹介いたします。
組み合わせると”すらすら”とfastqを手に入れることが叶います。
今回は柑橘のシーケンスデータ「DRR008634 - DRR008641」8ファイルをダウンロードします。

まずは、NCBIのSRAからファイルリストを手に入れましょう。
どれでもいいのでアクセッション番号で検索して、「Run Selector」を確認します。

f:id:kubo-m:20190723202313p:plain



目的の8ファイルに辿りつけましたので、これらのアクセッション番号を手に入れます。
「Accession List」からテキストファイルをダウンロードします。

f:id:kubo-m:20190723202350p:plain


このファイルには、改行区切りでアクセッション番号が記述されています。

DRR008634
DRR008635
DRR008636
DRR008637
DRR008638
DRR008639
DRR008640
DRR008641


これを使用してSRA Toolkitでまとめてダウンロードしましょう。
使うコマンドは、「prefetch」です。SRA Toolkitに含まれていますので、ご確認ください。

prefetch --option-file SRR_Acc_List.txt


「--option-file」の引数で指定したファイルの中身のアクセッション番号を、順にSRAデータベースからダウンロードしてくれます。

ダウンロードされたファイルは、以下に保存されます。

$HOME/ncbi/public/sra


fastq形式への変換は「すら(SRA)っとクイック(Q)に変換」を御覧ください。