アメリエフのブログ

Amelieff Staff Blog

バイオインフォマティクス

VCFのアノテーション

SnpSiftを使うと、VCFにdbSNPや1000Genomesのアノテーションをつけることができます。 (1)アノテーション用のデータを以下からダウンロードして解凍します。 ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz (2)SnpSiftを実行しま…

HGVDについて (3) 平均depth編

HGVDについて (1) HGVDについて (2) サンプル数編 ※※ 前回の記事まで、データベースの名称を誤っておりました。ブログをご覧くださった皆様、並びに関係者様各位にご迷惑をおかけしてしまい申し訳ございません。 前の記事に引き続き、Human Genetic Variatio…

GRCh38

ヒトの新しいリファレンスゲノムGRCh38が公開されました。 GRCh37(≒hg19)と比較してどれくらい変わったのでしょうか? まずは、各染色体の長さや、N(不明塩基)の数がGRCh37→GRCh38で どのように変わったか調べてみました。 染色体長の変化 ・各染色体に…

HGVDについて (2) サンプル数編

(前の記事) (次の記事) Human Genetic Variation Databaseで公開している日本人ゲノムデータの、データの確からしさの判断に使えそうな項目を見てみます。 配布されている圧縮ファイルをダウンロードし、解凍しますと、READMEとタブ区切りテキストの2つ…

bwa memの-Mオプション

bwaバージョン0.7が去年の2月にリリースされて、 ほぼ1年が経とうとしています。 もう0.7に切り替えた方も多いのではないでしょうか。 bwa 0.7では、memというコマンドが使えるようになりました。 memは従来のbwaswの後継で、ロングリード(〜1Mbp)に使える…

CircosでSelfChainを描く(3)

CircosでSelfChainを描く(1) CircosでSelfChainを描く(2) のつづきです。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 データファイルも設定ファイルも用意できましたので いよいよ「(3)Circos実行」を行います。 次の…

CircosでSelfChainを描く(2)

CircosでSelfChainを描く(1)のつづきです。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 今回は「(2)設定ファイル作成」を行います。 以下のような内容のtest.confという名前のファイルを作成します。 <<include colors_fonts_patterns.conf>> <image> <<include etc/image.conf>> </image> karyotype </include>…

CircosでSelfChainを描く(1)

Circosを使ってみようでご紹介したCircosを使って、 以下のようなヒトのChainSelfの図を描いてみたいと思います。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 今回は「(1)データファイル用意」を行います。 ChainSelfは、ヒ…

HGVDについて (1)

先月の11月12日、日本人のゲノム情報データベースHuman Genetic Variation Databaseが公開されました。このことは一般紙でも報道されました。 以前の連載でも、ゲノム情報のデータベース、特に人種や民族別のデータベースが、高スループットの遺伝子解析機器…

DeNovoGear

tokunagaです。 有言実行です。 第2回使ってみたシリーズです。 今回ご紹介するのは DeNovoGear サイト http://denovogear.weebly.com/index.html 論文 http://www.nature.com/nmeth/journal/v10/n10/full/nmeth.2611.html trioデータからDeNovoのmutationや…

MEDIPS

ご無沙汰しております。 tokunagaです。 ここ最近、 このような工夫を施したツールやアルゴリズムを開発しました等、 バイオインフォマティクスに関する論文が数多く出てきてますね。 全てを把握することはとてもじゃないですが難しいことです。 そこで折角…

NBDCヒトデータベース運用開始

独立行政法人科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)が、ヒトデータに関するデータベースを共有するためのプラットフォームとして、「NBDCヒトデータベース」の運用を開始したそうです。 http://humandbs.biosciencedbc.jp/ …

WebLogoを使ってみよう

WebLogoを使うと、複数配列の塩基の構成比を描画することができます。 以下に示すのは、miRBaseから取得した、ヒト、チンパンジー、ゴリラ、 マウス、ラットのmir-25配列です。 >hsa-mir-25 MI0000082 GGCCAGUGUUGAGAGGCGGAGACUUGGGCAAUUGCUGGACGCUGCCCUGGGC…

Circosを使ってみよう

構造変異の論文などでよく見かけるこのような図は Circosというソフトウェアで描くことができます。 Circosのサイトより ◆Circosのインストール http://circos.ca/software/download/circos/から適当なバージョンのアーカイブをダウンロードして解凍します。…

Bio-SamTools

Bio-SamToolsを使ってBAMから情報を抜き出す方法をご紹介します。 例えば、あるBAMファイルのchr21:19,660,000-19,660,600の領域に マップされたリードの「ID」と「アライメント位置」と 「ペアワイズアライメント結果」を表示したい場合には、 次のようなPe…

気軽にbamファイルの中を見る

入社して四か月になり、私も簡単な解析ならできるようになりました。 とはいえ、解析中に起きたエラーについて先輩に相談したところ 「ちょっとBAMファイルをless(コマンド)で確認してみようか」 と言われ、 「BAMってバイナリデータでは……?」 と狼狽した…

CELファイルの中身

tokunagaです。 本日はCELファイルについてお話ししたいと思います。 CELとは、AffymetrixのArrayで出力される遺伝子発現やジェノタイピングデータの含まれたファイルのフォーマットです。 CELファイルには、DATファイル(Affymetrixのスキャナーから出力さ…

各リードが1回だけ登場するBAMを作るには

マッピング率を計算する時など、BAMファイルから、マッピングされたリード数を取得したい場合があると思います。 samtools idxstatsでもマッピング結果の統計を出すことができるのですが、マルチマッピングのBAMの場合は重複してカウントされてしまうようで…

GATKの「known sites」

今日は、次世代シーケンサの解析に用いられるGATKについてお話します。 GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。 GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめてい…

BioHackathon2013

6月23〜28日に開催されたBioHackathon2013に参加してきました。 初日のシンポジウム@スカイツリーでは、日本SGI様と共同で ドリンクコーナーのスポンサーをさせていただきました。 二日目以降はライフサイエンス統合DBセンターで、 ひたすらハッキングしま…

テスト用Fastqファイルを作る

マッピングソフトウェアの性能比較をする際に、 正解がわかっているデータを使いたい場合があります。 そんな時に便利な、ゲノム配列からFastqファイルを作成できる ArtificialFastqGeneratorというソフトウェアをご紹介します。 例えばヒトゲノムhg19から15…

hg20

あまり梅雨らしくないこの6月、いかがお過ごしでしょうか。 今年も「あっ、数日前から明けてました」と後付けで梅雨明け宣言されて、なし崩し的に夏になる予感がしています。 私は四季の中で夏が一番好きなので、夏に向かいつつあるこの時期は毎年とてもわく…

オープンソースでパスウェイ解析

家系解析でもがん解析でも、原因遺伝子候補を絞り込んだ後のアノテーションが重要になります。 アノテーション方法の一つに、変異があった遺伝子がどのようなパスウェイ上にあるかを調べるパスウェイ解析があります。 今回、オープンソースのソフトウェアと…

ソフトウェア結果比較【BAMソート編・1】

NGS解析では、同じ処理を行うのにいくつものソフトウェアがあって、どれを使ったらいいのか迷うことがあります。 例えばBAMファイルをゲノムポジションでソートする場合、以下の選択肢があります。 1. samtools sortを使う 2. picard toolsのSortSam.jarを使…

Mendeleyの紹介

本日は、文献管理ソフトの一つであるMendeleyを簡単にご紹介したいと思います。 最近、論文を読む機会が増えてきたので論文管理ソフトを探していました。論文管理ソフトと言えばEndNoteが有名ですが、値段が高いことがネックです。そこで、フリーの論文管理…

coverageBedの使い方(2)

coverageBedの使い方(1)のつづきです。 ■カバレッジ計算 マッピング結果とゲノム、2つのBEDが用意できたら、以下のコマンドでカバレッジを計算します。 $ coverageBed -a map.bed -b genome.bed 以下のような結果が出力されます。 chr1___0__249250621__1…

coverageBedの使い方(1)

以前、bedtoolsの一つであるintersectBedの使い方についてご紹介しましたが、今回はcoverageBedについてご紹介します。 マッピング結果がどのくらいゲノム全体をカバーできているか知りたい時、coverageBedを使うとカバレッジが簡単に計算できます。 ■用意す…

鎖鋸

皆様こんにちは。detです。 本日は、とあるデータベースをご紹介したいと思います。 タイトルにもある鎖鋸とは、DRA/SRAなどのリードアーカイブの中から、論文が発表済みのリードデータのみを収集したデータベースです。DRAやSRAには論文が発表されていない…

統合データベース講習会に参加してきました

皆様こんにちは。detです。 先週の土曜と日曜に、NBDC主催の「統合データベース講習会(AJACS駿河)」に参加してきました。 今回は生命科学系のデータベースに関する講演だけでなく、超高速シーケンサーのデータ解析パイプラインに関する講演もあり、様々な…

intersectBedの使い方

bedtoolsはBEDフォーマットのファイルを扱うのに便利なツール群です。 今回はその中の1つ、intersectBedについてご紹介します。 intersectBedを使うと、複数BED間で重複している領域を簡単に抽出することができます。 テストデータとして、2つのBEDファイル…

これ、なんて読みますか

ゲノム解析の定番ソフトウェアに「Picard」というのがあります。 私はずっと「ピ・カード」と呼んでいましたが 学会などでは「ピカール」と呼ばれるのをよく聞きます。 正式には「ピカール」なんでしょうか? マイクロRNAのデータベース「miRBase」も、 私は…

Rでアノテーション付け

tokunagaです。 これまでにVCFtoolsを使ったVCFファイルの加工や比較の方法をご紹介しました。 VCFtools VCFtools② 今回はVCFファイルに関するRパッケージをご紹介いたします。 VariantAnnotation Bioconductorのパッケージです。 VCFフォーマットのファイル…

PBSIM

tokunagaです。 本日はBioinfomaticsで気になる記事を見つけましたのでご紹介いたします。 Bioinformatics. 2012 Nov 4 PBSIM: PacBio reads simulator–toward accurate genome assembly Ono Y, Asai K, Hamada M PacBioのシーケンサーから出力されるリード…

VCFtools②

tokunagaです。 本日は以前ご紹介したVCFtoolsでちょっと気になっていたコマンドを調べましたのでご紹介したいと思います。 vcf-compareというVCFファイル同士の簡単な比較を行ってくれるコマンドです。 前回ご紹介したように前処理としてVCFファイルをbgzip…

VCFtools

tokunagaです。 今日はVCFtoolsについてご紹介したいと思います。 URL:http://vcftools.sourceforge.net/ VCFToolsは、NGSのデータ解析で出力されたVCFファイルを加工するのに役に立つツールです。 VCFtoolsを使用する際にはbgzip、tabixの使用が必要となり…

便利なオプション①

akbです。 今日はLinuxコマンドの便利なオプションを ご紹介したいと思います。 ①ファイルやディレクトリの検索 $ find [パス][オプション][ファイルまたはディレクトリ名] 【optionの説明】 -name <パターン>: ファイル名がパターンと同じファイルを検索す…

Galaxy による QC

こんにちは。detです。 今日はGalaxyを用いたQCについてご紹介いたします。 これまで、このブログで「QCの道」というタイトルでFASTX-Toolkitの使い方をご紹介してきました。 今回は、このQC機能をGalaxy上で実行しつつ、Galaxyの基本的な使い方を紹介したい…

Galaxy の紹介 その3

こんにちは。detです。 本日は先日ご紹介したGalaxyに関する記事の続きです。 Galaxyは、基本的には、公開のパブリックサーバーにジョブを投げて利用することになります。しかし、重いデータや、外部に出したくないデータを解析したいこともあるでしょう。特…

Galaxy の紹介 その2

こんにちは。detです。 本日は以前ご紹介したGalaxyに関する記事の続きです。 先月下旬にシカゴでGalaxyに関する国際会議(GCC2012)が開かれました。全世界から数百人の参加者が集まり、活発なディスカッションが繰り広げられたようです。次世代シーケンサ…

Galaxy の紹介 その1

こんにちは。detです。 本日はゲノムデータ解析インターフェイスツールであるGalaxyをご紹介したいと思います。 Galaxyはペンシルベニア州立大学のNekrutenko labとエモリー大学のTaylor labの共同で開発されているシステムであり、ウェブ上で利用できます。…

QCの道 その7

こんにちは。detです。 今日はQCの道 その6の続きです。 FASTX-Toolkitの使い方について、引き続き紹介いたします。 ・fastx_collapser FASTA/Q ファイルの中で、同じ配列のリードが重複して存在していた場合に1つを除いてすべて削除します。入力がFASTQ形…

cmpfastq と cmpfastq_pe

以前の記事でcmpfastqというfastqファイルのペアエンドリードを揃えるツールをご紹介いたしました。本日は、cmpfastqの改良版である cmpfastq_peとの相違についてご紹介いたします。 cmpfastq_peはcmpfastqから以下の点を改良したバージョンのようです。 1. …

シーケンサーとしての私

こんにちは、hatです。 趣味で1年ほど前から三味線教室に通っています。 先日お稽古をしていて、楽器の演奏はシーケンシングに通じるものがあるなあと思いました。 シーケンサーが塩基を読んで結果データを出すように、私は楽譜を読んでメロディーを出してい…

QCの道 その6

こんにちは。detです。 今日は前回のQCの道 その5の続きです。 FASTX-Toolkitの使い方について、引き続き紹介いたします。 ・fastx_quality_stats FASTA/Q ファイルのリードに含まれる塩基のポジション毎の統計量を算出し、表形式で出力してくれます。FASTA…

QCの道 その5

こんにちは。detです。 今日は前回のQCの道 その4の続きです。 FASTX-Toolkitが持つ機能について、引き続き紹介いたします。 ・fastx_artifacts_filter FASTA/Q の各リードにおいて、塩基が特定の種類に偏っている場合にそのリードを除去してくれます。他の…

Perl デバッグ

さて、あなたがPerlでプログラムを作成し、use strict や use warnings で怒られないところまで進んだとします。 次に、やることはプログラムを実際に動かすところですね。 ところが、実は、ここでも上手くいかないことが多々あります。 出るはずのない数字…

fastq format①

今日から次世代シーケンサー解析で使われているformatについて書いていきたいと思います。 まず、今回はfastq formatについてです。 ・構成 塩基配列と各塩基に対するquality valueの情報が書かれているテキストファイルです。各リードは4行で構成されていま…

Perl プログラムの性能解析(NYTProf)

こんにちは。detです。 少々複雑なPerlプログラムを組んだ時に、 どの部分にどれだけ時間がかかっているか、 知りたいことがあると思います。 そんな時は、プログラムの各処理ごとに時間や実行回数などを計測し、 出力してくれるプロファイラを使うと便利で…

Microarray解析

tokunagaです。 今回は、遺伝子発現変動を網羅的に調べたいときに使われているmicroarrayのデータ解析について流れを簡単にご紹介します。 生データ 発光強度をスキャナーの画像から数値化する ↓ バックグラウンド補正 出力された時点で補正されている場合も…

perlに挑戦中

perl初心者も初心者のtokunagaです。 まだまだ勉強中です。 先ほどまでvcfファイルをフィルタリングするプログラムを作成していました。 vcfとはVariant Call Formatの略で、次世代シーケンサーのデータから検出された多型を記述する一般的な形式です。 そし…