アメリエフのブログ

Amelieff Staff Blog

次世代シーケンサ解析

ASHG2016でgnomADが公開

10/18~22はアメリカ人類遺伝学会(ASHG)2016がバンクーバーで開催されていました。 その中でBroad Institueから発表されたGenome Aggregation Database (gnomAD)について紹介したいと思います。 次世代シーケンサー(NGS)を使っている人にはお馴染みの図です…

Somatic SNV検出編

2014年6月21日に開催した、アメリエフ株式会社・第33回バイオインフォマティクス勉強会の「フリーソフトではじめるがん体細胞変異解析入門」のスライドをSlideShareにて公開いたしました。 主に、ブログでもご紹介したことがあるソフトウェアSomaticSniperを…

chimerascanで融合遺伝子を検出する

融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。 TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。 1. アノテーションデータの準備 ・UCS…

fastaの折り返し位置を変える

東京はすっかり夏の日差しです。 夏好きとしては今年も夏が来るのは嬉しいのですが、無防備に紫外線を浴び続けたつけが着実に肌に出てきています。いい美白ケア法がないか気になる今日この頃です。 fastaフォーマットの配列行は一般的に80文字未満で折り返す…

fastqのIDの書式の話

ある公開されているexomeデータのfastqファイルをダウンロードして解析しようとしたところ、うまくいきませんでした。 最初は何が何だかわからず困っていたのですが、fastqファイルを確認するとID行の書式がよく見かけるものと違いました。 例として、最初の…

bamにread groupを追記する

GATKは、BAMのフォーマットに厳しく(参照ページ)、たとえばヘッダにサンプル名を含むread groupのリストがあり、かつすべてのリードがそのread groupに属しているBAMしか受け付けません。 Read group(以下RG)は、たとえばBWAではマッピングのときに -R …

SeqCap Epi連載[5]|BSMAP methratio.pyでメチル化検出

先日鈴鹿サーキットに初めて行ってきた久保(kubor)です。レーシングカーのスピードもさることながら、時の流れも早いもので、僕がアメリエフに入社して2ヶ月が経ちました。これからもどうぞ、よろしくお願いいたします。 さて、SeqCap Epi連載第5回目の今…

VCFのフォーマットに関するブログ記事について

先日、VCF format③の記事に一部誤りがあるとご指摘を受け、記述を訂正いたしました。 VCFのGTに関する解釈についての部分です。 VCFのフォーマットのGTやPLの解釈については、こちらのページ、GTとPLの関係についてはGATKのガイドを参照しています。 当ブロ…

SeqCap Epi連載[4]|BSMAPでバイサルファイトシーケンスのマッピング

「Trick or treat!!シーケンシングデータをくれないといたずらしちゃうぞ!!」 ということで記事執筆時の今日はハロウィンですが、ジャック・オ・ランタンはいままで作ったことがない久保です(kubor)。新しい解析方法を試してみたいけど、最適な公開データ…

SeqCap Epi連載[3]|Trimmomticでシーケンシング用アダプターを除去

学生時代ですと今頃の時期は、実験圃場のイネの刈り取り時期を気にしている頃ですが、今年は来月の学会の準備ばかりを気にしているバイオインフォマティクス事業部の久保(kubor)です。 さて、3回目のSeqCap Epi連載ですが、今回からはまだアメリエフブログ…

SeqCap Epi連載[2]|解析パイプラインの概要

前回に引き続き、SeqCap Epi連載の第2回です。 今回は、SeqCap Epiによる実験データをどのように解析していくのか、ご紹介いたします。用いるソフトはすべてオープンソースのフリーウェアです。 このパイプラインでは、SeqCap Epi CpGiant Enrichment Kit(…

SeqCap Epi連載[1]|NGSでメチル化解析

DNAのメチル化解析手法はこれまでマイクロアレイや、リアルタイムPCRを使用したものがありましたが、どれも解析可能なゲノム範囲に限りがありました。 しかし、NGS(次世代シーケンサー)を使用するSeqCap Epi CpGiant Enrichment Kit(ロシュ・ダイアグノス…

samtools ゲノムのインデックスファイルの中身

次世代シーケンサ解析では、リファレンスゲノムやbamファイルなど、サイズの大きなファイルを扱う必要があります。 大きなファイルには扱う前にインデックス(目次)を作成することがしばしばあります。多くのソフトはインデックスファイルがないと動きませ…

新しいタキシードはいかが?

RNA-Seqを何度も実行している弊社の某社員が、先日 「bowtie、tophat、cufflinksの名前が紳士関連なのに気づいた」 と言っていたので「気づくの遅っ」と思ったのですが、 私には二十歳を過ぎてからサザエさんの登場人物名が海産物関係である ことに気付いた…

SomaticSniper (後)

SomaticSniperについての続きです。 SomaticSniperを実際に動かしてみます。 SomaticSniperはCentOSでも問題なく動作しますが、Ubuntuでの使用が推奨されています。 基本的な実行コマンドは下の通りになります。 必要なファイルは腫瘍サンプルと、ペアとなる…

SomaticSniper (前)

以前、heshiさんがSomatic Mutationを検出するツールについてのブログ記事を書かれましたが、そのうちSomaticSniperについて少しご紹介します。 ・論文:(SomaticSniper: identification of somatic point mutations in whole genome sequencing data. Bioin…

insert sizeを求める

先日、構造多型を解析するツールについてご紹介しました。 (Paired-end/Split-read/Complex) これらのツールの一部は、解析の際、シーケンスデータのinsert sizeの入力が必要です。 自ら実験して得たデータならinsert sizeはわかると思いますが、公共のデー…

ヒト Exome データ解析受託キャンペーン

ヒト Exomeデータ解析の受託キャンペーンを開始いたします! ご注文受付期間:2014.1.14〜3.31ご発注分まで 期間限定の特別価格でのご提供となりますので、Exomeデータ解析の外注をご検討されている方は、ぜひ一度弊社ホームページをご覧ください! ご不明な…

Phased vs. Unphased

VCFファイルの一番右側には、以下のようにジェノタイプ情報が記されています。 ---------------------------------------- #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2…

構造多型を解析するツール : paired-endとsplit-read mapping

これまで、ゲノムの構造多型を検出ツールのうち、split-readか、paired-endを用いているツールを紹介してきました。 どちらかの手法だけでなく、両方を合わせて使用するツールも存在します。 複数の検出方法を併用するメリットは、paired-end mappingによる…

Somatic Mutation検出ツール

Somatic Mutationを検出する主なツールを紹介します。 腫瘍サンプルと正常サンプルのBAM/Pileupファイル、リファレンスゲノムのFASTAファイルが入力ファイルとして必要です。 ・VarScan2(2012) 入力ファイルは、BAMファイルをSAMtoolsでPileupファイルに変換…

構造多型を解析するツール : pair-end mapping

前回は、次世代シーケンスデータを用いて構造多型を検出するツールのうち、split-read mappingを用いているものを紹介しました。 今回の記事ではpair-end mappingを用いているツールをご紹介します。 MoDIL 10-50 bpのindelの検出ツールです。 ライブラリのI…

構造多型を解析するツール : split-read mapping

次世代シーケンスデータを用いて構造多型を検出するツールは、これまでに数多く登場しています。 そのうちのいくつかを簡単にご紹介いたします。 今回はSplit-read mappingを用いているツールです。 Pindel 論文が発表されたのは2009年ですが、最近でも頻繁…

構造多型の検出原理2

前回に引き続き、今回は次世代シーケンサーを用いて構造多型(SV)を検出するもう一つの方法、Paired-end mappingを用いた方法についてご紹介します。 マップされなかったreadを用いていたSplit-read mappingと異なり、Paired-end mappingでは、マップされた…

構造多型の検出原理1

構造多型(SV)を検出するためには、主にSplit-read mappingを用いた方法とPaired-end mappingを用いた方法があります。 まずSplit-read mappingを用いる方法からご説明します。 SVが存在するサンプル配列から得られたreadは、リファレンス配列にマッピング…

構造多型の検出

ゲノミクスで多様性をもたらす要因や疾患の原因として注目されることが多い変異はSNVやindelなどですが、その他にも注目されている変異のひとつに、構造多型(Structural Variation、SV)があります。 主なSVはinsertion(挿入)、deletion(欠失)、tandem du…

変異の絞り込み 【7】 罹患同胞を用いた絞り込み

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 変異の絞り込み 【5】変異のクオリティとインパクト …

変異の絞り込み 【6】 遺伝型による絞り込み

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 変異の絞り込み 【5】変異のクオリティとインパクト …

変異の絞り込み 【5】 変異のクオリティとインパクト

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 さて、前回に引き続き変異を絞り込んでいきます。 第3…

変異の絞り込み 【4.5】 訂正とお詫び

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 第4回の記事の訂正です。 公開データベースを用いた絞り込みの例として、QmergeVCFでdbSNP…