アメリエフのブログ

Amelieff Staff Blog

次世代シーケンサ解析

ASHG2016でgnomADが公開

10/18~22はアメリカ人類遺伝学会(ASHG)2016がバンクーバーで開催されていました。 その中でBroad Institueから発表されたGenome Aggregation Database (gnomAD)について紹介したいと思います。 次世代シーケンサー(NGS)を使っている人にはお馴染みの図です…

Somatic SNV検出編

2014年6月21日に開催した、アメリエフ株式会社・第33回バイオインフォマティクス勉強会の「フリーソフトではじめるがん体細胞変異解析入門」のスライドをSlideShareにて公開いたしました。 主に、ブログでもご紹介したことがあるソフトウェアSomaticSniperを…

chimerascanで融合遺伝子を検出する

融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。 TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。 1. アノテーションデータの準備 ・UCS…

fastaの折り返し位置を変える

東京はすっかり夏の日差しです。 夏好きとしては今年も夏が来るのは嬉しいのですが、無防備に紫外線を浴び続けたつけが着実に肌に出てきています。いい美白ケア法がないか気になる今日この頃です。 fastaフォーマットの配列行は一般的に80文字未満で折り返す…

fastqのIDの書式の話

ある公開されているexomeデータのfastqファイルをダウンロードして解析しようとしたところ、うまくいきませんでした。 最初は何が何だかわからず困っていたのですが、fastqファイルを確認するとID行の書式がよく見かけるものと違いました。 例として、最初の…

bamにread groupを追記する

GATKは、BAMのフォーマットに厳しく(参照ページ)、たとえばヘッダにサンプル名を含むread groupのリストがあり、かつすべてのリードがそのread groupに属しているBAMしか受け付けません。 Read group(以下RG)は、たとえばBWAではマッピングのときに -R …

SeqCap Epi連載[5]|BSMAP methratio.pyでメチル化検出

先日鈴鹿サーキットに初めて行ってきた久保(kubor)です。レーシングカーのスピードもさることながら、時の流れも早いもので、僕がアメリエフに入社して2ヶ月が経ちました。これからもどうぞ、よろしくお願いいたします。 さて、SeqCap Epi連載第5回目の今…

VCFのフォーマットに関するブログ記事について

先日、VCF format③の記事に一部誤りがあるとご指摘を受け、記述を訂正いたしました。 VCFのGTに関する解釈についての部分です。 VCFのフォーマットのGTやPLの解釈については、こちらのページ、GTとPLの関係についてはGATKのガイドを参照しています。 当ブロ…

SeqCap Epi連載[4]|BSMAPでバイサルファイトシーケンスのマッピング

「Trick or treat!!シーケンシングデータをくれないといたずらしちゃうぞ!!」 ということで記事執筆時の今日はハロウィンですが、ジャック・オ・ランタンはいままで作ったことがない久保です(kubor)。新しい解析方法を試してみたいけど、最適な公開データ…

SeqCap Epi連載[3]|Trimmomticでシーケンシング用アダプターを除去

学生時代ですと今頃の時期は、実験圃場のイネの刈り取り時期を気にしている頃ですが、今年は来月の学会の準備ばかりを気にしているバイオインフォマティクス事業部の久保(kubor)です。 さて、3回目のSeqCap Epi連載ですが、今回からはまだアメリエフブログ…

SeqCap Epi連載[2]|解析パイプラインの概要

前回に引き続き、SeqCap Epi連載の第2回です。 今回は、SeqCap Epiによる実験データをどのように解析していくのか、ご紹介いたします。用いるソフトはすべてオープンソースのフリーウェアです。 このパイプラインでは、SeqCap Epi CpGiant Enrichment Kit(…

SeqCap Epi連載[1]|NGSでメチル化解析

DNAのメチル化解析手法はこれまでマイクロアレイや、リアルタイムPCRを使用したものがありましたが、どれも解析可能なゲノム範囲に限りがありました。 しかし、NGS(次世代シーケンサー)を使用するSeqCap Epi CpGiant Enrichment Kit(ロシュ・ダイアグノス…

samtools ゲノムのインデックスファイルの中身

次世代シーケンサ解析では、リファレンスゲノムやbamファイルなど、サイズの大きなファイルを扱う必要があります。 大きなファイルには扱う前にインデックス(目次)を作成することがしばしばあります。多くのソフトはインデックスファイルがないと動きませ…

新しいタキシードはいかが?

RNA-Seqを何度も実行している弊社の某社員が、先日 「bowtie、tophat、cufflinksの名前が紳士関連なのに気づいた」 と言っていたので「気づくの遅っ」と思ったのですが、 私には二十歳を過ぎてからサザエさんの登場人物名が海産物関係である ことに気付いた…

SomaticSniper (後)

SomaticSniperについての続きです。 SomaticSniperを実際に動かしてみます。 SomaticSniperはCentOSでも問題なく動作しますが、Ubuntuでの使用が推奨されています。 基本的な実行コマンドは下の通りになります。 必要なファイルは腫瘍サンプルと、ペアとなる…

SomaticSniper (前)

以前、heshiさんがSomatic Mutationを検出するツールについてのブログ記事を書かれましたが、そのうちSomaticSniperについて少しご紹介します。 ・論文:(SomaticSniper: identification of somatic point mutations in whole genome sequencing data. Bioin…

insert sizeを求める

先日、構造多型を解析するツールについてご紹介しました。 (Paired-end/Split-read/Complex) これらのツールの一部は、解析の際、シーケンスデータのinsert sizeの入力が必要です。 自ら実験して得たデータならinsert sizeはわかると思いますが、公共のデー…

ヒト Exome データ解析受託キャンペーン

ヒト Exomeデータ解析の受託キャンペーンを開始いたします! ご注文受付期間:2014.1.14〜3.31ご発注分まで 期間限定の特別価格でのご提供となりますので、Exomeデータ解析の外注をご検討されている方は、ぜひ一度弊社ホームページをご覧ください! ご不明な…

Phased vs. Unphased

VCFファイルの一番右側には、以下のようにジェノタイプ情報が記されています。 ---------------------------------------- #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2…

構造多型を解析するツール : paired-endとsplit-read mapping

これまで、ゲノムの構造多型を検出ツールのうち、split-readか、paired-endを用いているツールを紹介してきました。 どちらかの手法だけでなく、両方を合わせて使用するツールも存在します。 複数の検出方法を併用するメリットは、paired-end mappingによる…

Somatic Mutation検出ツール

Somatic Mutationを検出する主なツールを紹介します。 腫瘍サンプルと正常サンプルのBAM/Pileupファイル、リファレンスゲノムのFASTAファイルが入力ファイルとして必要です。 ・VarScan2(2012) 入力ファイルは、BAMファイルをSAMtoolsでPileupファイルに変換…

構造多型を解析するツール : pair-end mapping

前回は、次世代シーケンスデータを用いて構造多型を検出するツールのうち、split-read mappingを用いているものを紹介しました。 今回の記事ではpair-end mappingを用いているツールをご紹介します。 MoDIL 10-50 bpのindelの検出ツールです。 ライブラリのI…

構造多型を解析するツール : split-read mapping

次世代シーケンスデータを用いて構造多型を検出するツールは、これまでに数多く登場しています。 そのうちのいくつかを簡単にご紹介いたします。 今回はSplit-read mappingを用いているツールです。 Pindel 論文が発表されたのは2009年ですが、最近でも頻繁…

構造多型の検出原理2

前回に引き続き、今回は次世代シーケンサーを用いて構造多型(SV)を検出するもう一つの方法、Paired-end mappingを用いた方法についてご紹介します。 マップされなかったreadを用いていたSplit-read mappingと異なり、Paired-end mappingでは、マップされた…

構造多型の検出原理1

構造多型(SV)を検出するためには、主にSplit-read mappingを用いた方法とPaired-end mappingを用いた方法があります。 まずSplit-read mappingを用いる方法からご説明します。 SVが存在するサンプル配列から得られたreadは、リファレンス配列にマッピング…

構造多型の検出

ゲノミクスで多様性をもたらす要因や疾患の原因として注目されることが多い変異はSNVやindelなどですが、その他にも注目されている変異のひとつに、構造多型(Structural Variation、SV)があります。 主なSVはinsertion(挿入)、deletion(欠失)、tandem du…

変異の絞り込み 【7】 罹患同胞を用いた絞り込み

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 変異の絞り込み 【5】変異のクオリティとインパクト …

変異の絞り込み 【6】 遺伝型による絞り込み

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 変異の絞り込み 【5】変異のクオリティとインパクト …

変異の絞り込み 【5】 変異のクオリティとインパクト

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 変異の絞り込み 【4.5】お詫びと訂正 さて、前回に引き続き変異を絞り込んでいきます。 第3…

変異の絞り込み 【4.5】 訂正とお詫び

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 変異の絞り込み 【4】公開データベースを用いた候補の絞り込み 第4回の記事の訂正です。 公開データベースを用いた絞り込みの例として、QmergeVCFでdbSNP…

変異の絞り込み 【4】 公開データベースを用いた候補の絞り込み

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 変異の絞り込み 【3】候補の絞り込み方 前回は、疾患関連変異候補の絞り込みの概要についてご説明しました。 今回の記事では、その絞り込みを実際にはどのように行うのか、ご紹介します。 絞り込…

アダプタ除去ソフトの比較

シーケンシングデータをFastQCなどでチェックしていると アダプタ配列が混入しているのを見つけることがあります。 アダプタ除去ソフトウェアはいろいろありますが 今回は以下の3ソフトウェアの使い方をご紹介します。 cutadapt FastX-Toolkit(fastxclipper…

bwa のバージョン検討 その1

最も広く利用されているマッピングソフトの一つにbwaがあります。bwaは2011年にリリースされたバージョン0.6が広く使用されてきましたが、今年の2月末にバージョン0.7がリリースされました。0.7ではBWA-backtrack、BWA-SW、BWA-MEMの、三種類のアルゴリズム…

変異の絞り込み 【3】 候補の絞り込み方

変異の絞り込み 【1】論文紹介 変異の絞り込み 【2】変異検出 前回は、LCA患者とその両親のトリオのfastqデータをダウンロードし、変異検出まで行いました。 今回は、主題である疾患関連変異候補の絞り込みについてお話します。 絞り込みの流れは、以下の通…

変異の絞り込み 【2】 変異検出

変異の絞り込み 【1】論文紹介 前回は、exome sequencingによりある家系においてレーバー先天黒内障(LCA)を引き起こしている原因変異を特定した論文についてご紹介しました。 今回は、その論文で使用されたデータから、変異検出を行った結果についてご紹介…

変異の絞り込み 【1】

今回は、次世代シーケンサーを用いて検出した変異の絞り込み解析の具体例についてご紹介したいと思います。 次世代シーケンサーを用いた解析の難点のひとつに、多数の変異が検出されるため、目的の疾患に関連した遺伝子の探索が困難であることが挙げられます…

Exome家系解析論文

Plos Oneに出ていたExome家系解析の論文をご紹介します。 Wu CC, Lin YH, Lu YC, Chen PJ, Yang WS, Hsu CJ, Chen PL. Application of massively parallel sequencing to genetic diagnosis in multiplex families with idiopathic sensorineural hearing im…

ソフトウェア結果比較【BAMソート編・2】

ソフトウェア結果比較【BAMソート編・1】のつづきです。 前回、同じBAMをsamtools sortとSortSam.jar(picard)でソートしたところ、結果のBAMが異なりました。 異なる箇所を調べるため、まず結果BAMをsamtools view -hでSAMに変換しました。 【samtools sort…

「Reseq解析GUIマニュアル」を公開しました

本日は、弊社が slide share に新しく公開した「次世代シーケンス解析サーバー Reseq解析GUIマニュアル」をご紹介いたします。 この資料は、弊社で販売しております次世代シーケンスデータ解析サーバーのマニュアルの一部です。 Linux上であってもWindowsと…

snpEffデータベースの作成方法

snpEffとは、SNVやIndelなどの変異にアノテーション付けをしてくれるソフトの事です。 既に広く解析されている生物種の場合は、snpEff内にアノテーションのデータベースが揃っていますが、多少マニアックなものだとデータベースが無い場合もあります。その際…

miRNA-Seq解析の論文

最近のPLoS Oneに載っていたmiRNA-Seqの論文をご紹介します。 Bansal A, et al. Discovery and Validation of Barrett's Esophagus MicroRNA Transcriptome by Next Generation Sequencing. PLoS One. 2013;8(1):e54240. Epub 2013 Jan 23. PubMed PMID: 233…

次世代シーケンスデータ解析サーバーのHPをリニューアルしました

弊社では研究目的に合わせてお選びいただける、下記の2つの解析サーバーをご用意しております。 ☆スタンダード ☆エンタープライズ 2つのサーバーはCPU、メモリ、ストレージ、冷却システムなどの性能に違いがありますが、最も特徴的な差は、サーバーによって…

NGSの「顔」

チャーノフの顔グラフは、多次元のデータを「顔」のパーツの大きさや配置にあてはめて視覚的に示す手法です。 群馬大・青木繁伸先生が公開されている、Rによるチャーノフの顔グラフ描画プログラムを使って、次世代シーケンサーの「顔」を描いてみました。 こ…

1000 人ゲノムプロジェクトJPT データの活用⑦

皆様、こんにちは。detです。今回は、前回に引き続きまして、日本人全ゲノムシーケンスデータの解析についてご紹介いたします。 解析には、弊社製の Reseq パイプラインを用いました。前回は、データのクリーニング結果について、ご紹介しました。今回は、マ…

1000 人ゲノムプロジェクトJPT データの活用⑥

皆様、こんにちは。detです。今回は、前回までの1000人ゲノムプロジェクトJPTデータの解析からは少し離れまして、日本人の全ゲノムシーケンスデータに関する解析についてご紹介いたします。 2012年7月31日に慶応大の富田先生の全ゲノムが 日本DNAデータバン…

1000 人ゲノムプロジェクトJPT データの活用⑤

皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。 今回は、1000人ゲノムJPTサンプルのデータ解析結果から得られたアレル頻度分布と、他の人種におけるアレル頻度分布を比較…

1000 人ゲノムプロジェクトJPT データの活用④

皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。 前回は1000人ゲノムJPTサンプルのデータ解析から得られた、88人の多型情報をまとめたVCFファイルについてご紹介いたしまし…

1000 人ゲノムプロジェクトJPT データの活用③

皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。 前回は88人の1000ゲノムJPTサンプルに対して、Reseq パイプラインでデータ解析した結果から、リードのクリーニング結果と…

1000 人ゲノムプロジェクトJPT データの活用②

皆様、こんにちは。detです。 akbさんに引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。 前回の記事の目的に従いまして、今回は、1000人ゲノムのデータベースに含まれる100程度の日本人サンプルから88サンプ…

1000 人ゲノムプロジェクトJPT データの活用①

akbです。 「日本人類遺伝学会 第57回大会」に出展いたしました。 弊社のポスター発表、ならびにブースまで足を運んでくださった皆さま方に、この場をかりて厚く御礼申し上げます。 本日から「日本人類遺伝学会 第57回大会」で発表させていただいたポスター…