読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

10x genomicsのGemCode技術

去年、The Scientist誌が選んだ革新的技術トップ10(Top 10 Innovations 2015)の1位を飾った技術、それが、スタートアップ企業10x genomicsが開発した、「GemCode」と呼ばれる次世代シーケンサーの新しい前処理技術です。

AAEAAQAAAAAAAAPZAAAAJGM4NzJlYjM0LTU3NDktNDg2MS05ZTI4LWE2ZDY4OGVmYWE1Zg.png (7.9 kB)

GemCodeの技術を簡単に説明すると、 Illuminaシーケンサー等によって得られるショートリードから、合成的にロングリード(Linked readsと呼ばれる)を生成するというものです。従来のIlluminaの次世代シーケンサーが苦手としていた「大きな欠失・挿入部位の解析」、「転座・融合部位の解析」や「HLAなどの高度な多型性を持つDNA領域の解析」を精度よく行うことができます。


方法としては、
(1)それぞれ異なるバーコード配列が付加されたゲルビーズのライブラリの液滴
(2)試薬と混合させたナノリットル(nl)のスケールのDNA分子の油液
をマイクロ流路を使って混合させます。(1)と(2)が合わさることで、10-100kbほどのDNA分子が断片化され、各DNA配列に同一のバーコード配列がライゲーションされます。このようにして、バーコード配列をライゲーションさせたDNA配列をIlluminaのシーケンサーで読みます。


このとき、同一のバーコードを持つDNA配列(シーケンスリード)群は、
(1)ゲノム上で近接している
(2)(母方もしくは父方の)同一ハプロタイプに由来している。
ことが想定されます。そのため、シーケンスされたリードをゲノムにマッピングし、local de novo assemblyを行うことで、合成的にに長いDNA配列(10-100kb前後)を構築することができるというわけです。 GemCodeの技術について、こちらの動画がわかりやすいので見てみてください。

Changing the Definition of Sequencing from 10X Genomics on Vimeo.


「でもお高いんでしょう?」


そんなことありません! 10x Genomicsによると、従来のIlluminaのWGSやExomeと同様のリード数(Coverage)で解析が可能とのことです。つまり、ランニングコストとしては通常のIlluminaのシーケンスと同じぐらいと考えてよさそうです。


さらに、ゲノムDNAは「1ng」からシーケンスできます。 現在のIlluminaの手法と比較しても、かなり少量でも試せます。
比較対象:http://dnatech.genomecenter.ucdavis.edu/sample-requirements/


Illuminaのショートリードの弱点を補完するGemCode技術。 様々な解析での活用が期待できると思います。


アメリエフでも、10x genomicsの技術により得られたシークエンスデータの解析を試しているところです。興味はあるけどシーケンスされたデータをどうやって解析したらいいかわからないという方は、一度アメリエフに相談してみてはいかがでしょうか。


執筆者自己紹介・インターンシップ感想

はじめまして、アメリエフにインターンに来ているimamachi-nです。 アメリエフでは、融合遺伝子の解析レポートや10x Genomicsの調査などを行ってきました。


私は大学では実験を行いつつ、LinuxPythonやRなどを利用してNGS解析も行っています。ただ今まで、PythonやRのコーディングに関しては独学でやっていたので、恥ずかしながら適当なコードを書いていました。アメリエフでは、書いたスクリプトを社員の方に繰り返し確認していただき、修正すべき点をチェックしてもらいました。また、Pythonでコーディング規約に即した書き方をしているかflake8を使いチェックを行う方法も教えてもらいました。今まで適当に書いていたスクリプトを見なおすことで、無駄のない効率的なコードや、あとで見直した時に可読性の高いコードを書く方法を学ぶことができました。


社内で使用していたSlackは、今では私の研究室でも試験的に導入しています。NGS解析について結果やデータの共有、ディスカッションを行う際にSlackを活用しています。今まではメールでやり取りしていたのですが、Slackを使うことで今まで議論してきたことなどがログとして残るので便利です。


社員の方と一緒に仕事ができるという点で、非常に充実したインターンシップだと感じました。 NGSの解析に興味がある方にとっては、アメリエフのインターンシップは最適だと思います。もちろん、アメリエフで働きたいという方も会社の雰囲気をつかむ上でインターンシップに参加するメリットは大きいと思います。



  • 社員一人ひとりのモチベーションが高く、新しいことにどんどんチャレンジしていく風土がある。

  • 新しいNGSの技術が出てくる中で、迅速にそれらに対応し、バイオインフォマティクスの専門家として適切な解析方法を提案できる。

  • ウェットの研究者が抱えるデータ解析上での課題に対して、綿密に対応してくれる。


それがアメリエフという会社だとインターンシップを通して感じました。

Vagrantを用いた仮想環境構築

バイオインフォマティクス初心者が勉強を始める際に、最初に立ちはだかる壁は、Linuxという未知のOSとの相対だと思います。 最近はVirtualBoxなどの仮想化ソフトもネットにたくさんありますので、導入すること自体は皆さんできるかと思います。しかし、もし...

  • パソコンを新しくしたから、昔と同じ仮想環境を新しいパソコンでも構築したい
  • 複数の端末で同じ仮想環境を使用したい
  • 仮想環境のバックアップをとっておきたい

ということを思った時に、仮想化ソフト単品ではなかなか難しいと思います。だからといって、仮想環境内で色々なアプリを入れた後に、全く同じ環境を他の端末で作るのは、普通にやっていたらかなり時間を取られてしまいますし、ツールのアップデートが知らない間にされていて、微妙に挙動が合わなかったりします。

そのようなときに便利なのが仮想化ソフトのラッパーであるVagrantです。

Vagrantでできること

VagrantはVirtualBoxなどの仮想化ソフトに追加機能を与えてくれるアプリ、と思って頂けたら良いと思います。主な特徴として

  1. 構築環境を記述した設定ファイルを元に仮想環境の構築から設定を自動化できる
  2. 一度構築した仮想環境をboxというパッケージにエクスポートすることができる

があるのですが、要は一度設定した構築環境を複数の端末で再現するのにうってつけというわけです。 もちろんCLIも有りますので、サーバーのターミナル上で仮想環境を構築したい場合にも使えます。開発ツールのテストとかにも使えるので、初心者以外でも有用です。

使い方は色々な方がネットで説明されていますので割愛・・・。 今まで仮想化ソフト単品で仮想環境を構築再構築に明け暮れていた方は、Vagrantで自動環境構築にチャレンジしてみましょう!

執筆者自己紹介・インターンシップ感想

はじめまして、アメリエフにインターンに来ているnomatです。 アメリエフでは、ツールのテスト・デバッグ・マニュアル作成や、研究調査に携わっております。

私は大学では実験メインで活動してきた学生なものですから、インターン開始直後はTerminalで操作することすら覚束ない初心者丸出しの状態でした。しかし、アメリエフの解析担当者の皆様にご指導いただき、今ではバリバリコマンドを打って・・・いる気がします(多分)。 この手の操作方法やテクニックはウェットメインの学生でも有用なところが多いですし、最近は解析用OSSも豊富にありますので、是非とも学部時代とかに教えるようにしていただきたいですね。

アメリエフでは2ヶ月勤務させていただきましたが、とてもオープンな雰囲気で、充実した時間を過ごすことができました。勤務内容に関してはもちろん、日頃疑問に思っていたことを解析担当者の方に質問すると、スパっと答えてくださるので、色々と勉強させていただきました。 バイオインフォマティクスを始めてみようかなと考えるウェット系のラボの学生の多くは、周りにインフォの知識を持つ人が少ないため、独学でやっていると思います(私もそうでした)。しかし、やはり知識と技術を持つ人に聞きながら勉強すると、上達が早いです。 何より、情報系の人が当たり前のようにやっている「常識的な事」というのは、案外ネットの情報だけではつかみにくいものが多いです(ディレクトリの配置はこうしたら効率的、など)。これらを勉強できたのは私にとって大きな収穫でした。

最近のバイオ研究ではインフォマティクスは必須になりつつあります。これから研究に携わる学部生も、ウェットしかやってこなかった院生も、一度バイオインフォマティクスに触れてみましょう! その際にアメリエフのインターン、おすすめですよ!

Cytoscapeによるネットワーク図示

Cytoscapeは、複雑なネットワークおよびその属性の図示、統合、分析に用いられるオープンソースのソフトウェアです。 遺伝子ネットワーク、ソーシャルネットワーク、路線図など、点(node)と線(edge)で構成されるデータセットを可視化することができます。 データの可視化によって、全体像や何らかの傾向が把握でき、そのデータが意味するところを理解する手助けとなる可能性があります。 Cytospaceには、プラグインを追加することによって、化合物を扱う(ChemViz)、外部のパスウェイデータベースであるReactomeを利用する(ReactomeFIViz)というように、機能を大幅に拡張できるという特徴があります。

Cytoscapeは様々な種類のネットワークを記述したフォーマットを読み込むことができます。 一番単純なものは、線の起点と到着点を示す”source”、"target"、それから点と点を結ぶ線の種類を示す”interaction type”の3つの列から構成されるSIF(Simple Interaction File)フォーマットです。 下は、ソフトウェアのサンプルデータ”galFilterd.sif”を読み込んだものです。 galfiltered_1.png (46.0 kB)

また、レイアウトやスタイルを変えることで、図の印象を変えることができます。 galfiltered_2.png (25.5 kB) galfiltered_3.png (68.6 kB)

点(node)の持つ情報(attribute)をもとにして、スタイルを書き換えることもできます。 以下は、サンプルデータ中の”galFiltered.cys”を図示したものです。 ノードの発現量が"色"に、ノードの持つ離散値の属性が"サイズ"に対応しています。 galfiltered_4.png (110.7 kB)

作成したネットワーク図を、ウェブブラウザから扱えるインタラクティブな図として出力することができます。 f8402978-66f4-4dc8-9ed1-eeb4059b7cc3.png (137.1 kB)

執筆者自己紹介・インターンシップ感想

はじめまして。 3月からインターンシップで勤務しております、nakamurahと申します。 アメリエフでは2か月間、BEDフォーマットチェックスクリプトの作成、Cytoscapeによるネットワーク図示、Python+NetworkXを用いたネットワーク図示について、関わらせて頂きました。 お蔭様で、普段の研究室生活ではめったに使わないLinuxPythonに、慣れてきたように思います。 この知識を研究室の先生や学生に教えるなど、研究室の文明化に貢献でき始めているところです。

アメリエフでの勤務の感想として、ミーティングの時に見られるように、皆さん「目的」と「手法」、「利点と欠点」をはっきりさせて、論理的に議論される印象を受けました。 一方で、バイオインフォマティクスの分野は、次々と新しい手法が開発され、既存の手法でもバージョンが更新されて対応が必要になるように、常に最前線に立ち続けることが非常な困難を伴う分野であると感じました。

私が普段扱っている非モデル植物の研究は、最先端の技術が使われる生物から1回りも2回りも遅れています。 この状況を改善するために、これからも技術の向上に邁進していきたいと思います。

10x Genomics Long Rangerのご紹介

前回のブログでも少し触れましたが、10x Genomicsが開発したGemCodeシステムは、ショートリードから擬似的にロングリードを生成する革新的な技術です。

今回はそのGemCodeシステムに対応したゲノム解析パイプラインLong Rangerのご紹介をしたいと思います。

今年の2月にGemCodeシステムの新機種Chromiumが発表され、先月Chromiumに対応したLong Rangerのバージョン2がリリースされました!
Long Rangerは、Whole GenomeおよびExome Sequencingに対応しています。
GemCodeシステムではilluminaのシーケンサーを使うため、BCLファイルが出力されます。
BCLファイルからFASTQへの変換は以下のコマンドを実行します。

$ longranger demux --run=/path/to/BCL/output


内部では、illuminaのbal2fastqが動いているため、あらかじめbal2fastqをインストールしておく必要があります。
出力は、リードとバーコードのFASTQファイルが分かれて出力されます。

次にこのFASTQファイルを入力として、以下のコマンドを実行すると、マッピングから変異検出、ハプロタイプフェージング、構造変異の検出を行ってくれます。

$ longranger run --id=sampleID --sex=female --fastqs=/path/to/fastqs --reference=/refdata-hg19-2.0.0


Long Rangerの変異検出はデフォルトでは、freebaysというソフトウェアを用いていますが、--vcmodeオプションでGATK(v2.4以上)で実行することができます。

Chromiumを使って調整したサンプルのシーケンスデータは、10xGenomicsのサイトで公開されています。

実際にWGSのデータ(FASTQファイル)を実行してみたところ、40時間ほどで実行が終了しました。解析には、Intelの16-coreのプロセッサー、256GBのメモリを搭載したマシンを用いました。

出力結果には、フェージング後のBAM、VCFファイルと構造変異のBEDファイルに加えて、専用のゲノムブラウザLoupeに用いる.loupeという形式のファイルも出力されます。

ゲノム解析パイプラインのLong Ranger以外にも、シングルセルRNA-seq解析パイプラインのCell Rangerやde novoアセンブリ用のSupernovaが公開されています。

Yet Another Bioinformatics Library

バイオ分野で使われているプログラミング言語には、バイオインフォマティクス向けのライブラリが用意されており、BioPerlBioPythonなどをご存知の方は多いかもしれません。

最近注目されているGoogleによって開発されたGO言語にも、バイオインフォマティクス用のライブラリであるbiogoというものがあります。

今回はそのbiogoを使用している例として、Lariatというアライメントツールのご紹介をしたいと思います。

Lariatは10x Genomicsが開発したGemCodeシステムに対応したアライメントツールです。GemCodeシステムはバーコード配列を利用してショートリードから合成的にロングリードを生成する革新的なシステムです。

入力はFASTQ-likeなフォーマットで、入力ファイルに以下の情報が必要になります。
read header
read1 sequence
read1 quals
read2 sequence
read2 quals
10X barcode string
10X barcode quals
sample index sequence
sample index quals

Lariatの最初のステップでは、BWAのAPIを使ってアライメントを行っていきます。

次のステップでバーコードの情報を使って反復領域などのマッピングが難しい領域のリードを繋げていき、最終的なマッピングのポジションなどを決定します。
これにより、segmental duplicationなどの反復領域などへのリードのマッピングの正確性が向上すると考えられています。

ちなみに、biogoはBAMやSAMファイルのハンドリングに使われています。

Lariatの入力ファイルはFASTQ-likeなフォーマットが必要と書きましたが、Lariat自体はLong Rangerというパイプラインに組みこまれているので、自分で用意することはないと思います。

フリーソフトで始める融合遺伝子解析入門

2016年5月20日に開催した第44回、および27日に開催した第45回バイオインフォマティクス勉強会の
フリーソフトではじめるNGS融合遺伝子解析入門」の資料を、一部修正してSlideShareに公開いたしました。
RNA-seqの基本的な解析方法にはじまり、融合遺伝子解析ソフトのTopHat-Fusionの使い方をコマンドを交えてご紹介しています。

弊社へ解析の依頼を検討されている方は弊社Webサイトの受託解析のページを、ご自身で解析したい方はトレーニングNGS解析サーバのページを、ぜひ一度ご覧ください!

新入社員のmisawatです。

2016年4月18日より、こっそり入社していましたmisawatと言います。
出身は神奈川ですが、相模原に住んでいるのでアメリエフのオフィスは少し遠いです。

大学では医療、大学院では分析科学をやってきました。

最近の分析機器は高性能なので簡単にビッグデータを得ることができます。
それらのデータを扱うためにデータサイエンスの世界に参入しました。
使ってきた分析機器の中にはNGS(illumina, Miseq)もあったので、その経験を活かし、

"個性的なバイオインフォマティシャン"

を目指していきます。

よろしくお願いいたします。