アメリエフの技術ブログ

Amelieff Staff Blog

Nextflowで始めるNGSデータ解析ワークフロー(1/4)

こんにちは、システム開発チームの adachit です。

本日より、Nextflowで始めるNGSデータ解析ワークフロー、と題して全4回で連載をしていきたいと思います。

※連載リンク 1/4 2/4 3/4 4/4

記念すべき第1回テーマは「バイオインフォマティクス解析を自動化するワークフロー言語Nextflowとは」です。

本題のNextflowの説明をする前に、まずはバイオインフォマティクス解析の基本的な流れとその概要から解説します。

バイオインフォマティクス解析の基本的な流れとその概要

バイオインフォマティクス解析では、まず最初に「Wet実験」で、次世代シーケンスを利用して一次解析を行います。
細胞やDNA、RNAを用意し、それらをライブラリー化した後、次世代シーケンサーを用いて測定し、配列情報を読み取ります。
すると、その結果をFASTQというデータフォーマットで得ることができます。

次に、コンピューター上で「Dry解析」を行います。
先ほどのFASTQファイルを二次解析し、変異解析であればVCFファイルを、発現解析であれば発現マトリクスを得ます。

最後に三次解析を進め、生物学的な解釈や、特徴的な変異、有意な遺伝子を見つけるための解析を行います。
さらに、そのデータを可視化し、解釈を深め、データベースを参照するという、いわゆる研究目的となる解析を進めます。

このように、次世代シーケンサーのバイオインフォマティクス解析は三段階から成り立っています。

特に二次解析では、ある程度の規模のコンピュータが必要になります。
次世代シーケンサーから得られるFASTQファイルは非常に大きく、1サンプルで数GBから数100GBのデータサイズになります。
推奨環境は、128GB以上のメモリ、16〜32コアのCPU、そして8TB以上のストレージを持つLinuxサーバまたはLinuxワークステーションです。
二次解析が完了した後の三次解析であれば、メモリ16GB程度のパソコンでVCFファイルや発現定量マトリクスを用いた解析が可能となります。
三次解析では、Rに代表されるようなソフトウェアが用いられます。

Nextflowとは

今回取り上げるNextflowは、解析処理の流れ、すなわちワークフローを作成し、再現性の高い解析処理を実現するためのツール群です。
Nextflowはバイオインフォマティクス分野で利用されるワークフローを作成し実行する環境として公開されています。

Nextflowのメリットは、「nf-core」というコミュニティが多くの解析パイプラインを公開している点にあります。
また、自身でパイプラインを作成することも可能です。
特に有用な機能として、CPUの実行時間やエラーメッセージがHTML形式のレポートで出力される点が挙げられます。
このレポートにより、ワークフローの検証や改善が容易に行えます。

NextflowはGroovyというプログラミング言語で記述されており、Java Virtual Machine (JVM) 上で動作します。
また、「nf-core」で公開されているパイプラインは基本的にDocker上で動作し、コンテナベースとなっています。

「nf-core」を利用するメリットは非常に大きいと言えますが、公開されているパイプラインには一部不具合が含まれていることもあります。
注意しつつ利用し、必要に応じて自分自身で修正します。
また、Nextflowを効果的に利用するには、GroovyやLinuxの基本的な知識、そしてPythonやRの知識も要求されます。

最後に、「nf-core」コミュニティのウェブサイトを覗いてみましょう。
現時点で人気のパイプラインには、「rnaseq」、「sarek」、「chipseq」、「atacseq」などがあり、それぞれのリリース日や更新状況も確認できます。
特に人気のパイプラインは頻繁にメンテナンスされている印象を受けます。

次回予告

第2回テーマは「Nextflowの基本的な使い方」です。Nextflowのインストールからログの見方などを解説します。
また、第3回以降では実際のパイプライン実行など解説したいと思いますので、楽しみにしていてください。

staffblog.amelieff.jp


※本記事は、2023年8月2日開催の第88回バイオインフォマティクス勉強会「Nextflowで始めるNGSデータ解析ワークフロー」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。