アメリエフの技術ブログ

Amelieff Staff Blog

バイオインフォマティクス

Circosを使ってみよう

構造変異の論文などでよく見かけるこのような図は Circosというソフトウェアで描くことができます。 Circosのサイトより ◆Circosのインストール http://circos.ca/software/download/circos/から適当なバージョンのアーカイブをダウンロードして解凍します。…

Bio-SamTools

Bio-SamToolsを使ってBAMから情報を抜き出す方法をご紹介します。 例えば、あるBAMファイルのchr21:19,660,000-19,660,600の領域に マップされたリードの「ID」と「アライメント位置」と 「ペアワイズアライメント結果」を表示したい場合には、 次のようなPe…

気軽にbamファイルの中を見る

入社して四か月になり、私も簡単な解析ならできるようになりました。とはいえ、解析中に起きたエラーについて先輩に相談したところ「ちょっとBAMファイルをless(コマンド)で確認してみようか」と言われ、「BAMってバイナリデータでは……?」と狼狽したので…

CELファイルの中身

tokunagaです。 本日はCELファイルについてお話ししたいと思います。 CELとは、AffymetrixのArrayで出力される遺伝子発現やジェノタイピングデータの含まれたファイルのフォーマットです。 CELファイルには、DATファイル(Affymetrixのスキャナーから出力さ…

各リードが1回だけ登場するBAMを作るには

マッピング率を計算する時など、BAMファイルから、マッピングされたリード数を取得したい場合があると思います。 samtools idxstatsでもマッピング結果の統計を出すことができるのですが、マルチマッピングのBAMの場合は重複してカウントされてしまうようで…

GATKの「known sites」

今日は、次世代シーケンサの解析に用いられるGATKについてお話します。 GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。 GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめてい…

BioHackathon2013

6月23〜28日に開催されたBioHackathon2013に参加してきました。 初日のシンポジウム@スカイツリーでは、日本SGI様と共同で ドリンクコーナーのスポンサーをさせていただきました。 二日目以降はライフサイエンス統合DBセンターで、 ひたすらハッキングしま…

テスト用Fastqファイルを作る

マッピングソフトウェアの性能比較をする際に、 正解がわかっているデータを使いたい場合があります。 そんな時に便利な、ゲノム配列からFastqファイルを作成できる ArtificialFastqGeneratorというソフトウェアをご紹介します。 例えばヒトゲノムhg19から15…

hg20

あまり梅雨らしくないこの6月、いかがお過ごしでしょうか。 今年も「あっ、数日前から明けてました」と後付けで梅雨明け宣言されて、なし崩し的に夏になる予感がしています。 私は四季の中で夏が一番好きなので、夏に向かいつつあるこの時期は毎年とてもわく…

オープンソースでパスウェイ解析

家系解析でもがん解析でも、原因遺伝子候補を絞り込んだ後のアノテーションが重要になります。 アノテーション方法の一つに、変異があった遺伝子がどのようなパスウェイ上にあるかを調べるパスウェイ解析があります。 今回、オープンソースのソフトウェアと…

ソフトウェア結果比較【BAMソート編・1】

NGS解析では、同じ処理を行うのにいくつものソフトウェアがあって、どれを使ったらいいのか迷うことがあります。 例えばBAMファイルをゲノムポジションでソートする場合、以下の選択肢があります。 1. samtools sortを使う 2. picard toolsのSortSam.jarを使…

Mendeleyの紹介

本日は、文献管理ソフトの一つであるMendeleyを簡単にご紹介したいと思います。 最近、論文を読む機会が増えてきたので論文管理ソフトを探していました。論文管理ソフトと言えばEndNoteが有名ですが、値段が高いことがネックです。そこで、フリーの論文管理…

coverageBedの使い方(2)

coverageBedの使い方(1)のつづきです。 ■カバレッジ計算 マッピング結果とゲノム、2つのBEDが用意できたら、以下のコマンドでカバレッジを計算します。 $ coverageBed -a map.bed -b genome.bed 以下のような結果が出力されます。 chr1___0__249250621__1…

coverageBedの使い方(1)

以前、bedtoolsの一つであるintersectBedの使い方についてご紹介しましたが、今回はcoverageBedについてご紹介します。 マッピング結果がどのくらいゲノム全体をカバーできているか知りたい時、coverageBedを使うとカバレッジが簡単に計算できます。 ■用意す…

鎖鋸

皆様こんにちは。detです。 本日は、とあるデータベースをご紹介したいと思います。 タイトルにもある鎖鋸とは、DRA/SRAなどのリードアーカイブの中から、論文が発表済みのリードデータのみを収集したデータベースです。DRAやSRAには論文が発表されていない…

統合データベース講習会に参加してきました

皆様こんにちは。detです。 先週の土曜と日曜に、NBDC主催の「統合データベース講習会(AJACS駿河)」に参加してきました。 今回は生命科学系のデータベースに関する講演だけでなく、超高速シーケンサーのデータ解析パイプラインに関する講演もあり、様々な…

intersectBedの使い方

bedtoolsはBEDフォーマットのファイルを扱うのに便利なツール群です。 今回はその中の1つ、intersectBedについてご紹介します。 intersectBedを使うと、複数BED間で重複している領域を簡単に抽出することができます。 テストデータとして、2つのBEDファイル…

これ、なんて読みますか

ゲノム解析の定番ソフトウェアに「Picard」というのがあります。 私はずっと「ピ・カード」と呼んでいましたが 学会などでは「ピカール」と呼ばれるのをよく聞きます。 正式には「ピカール」なんでしょうか? マイクロRNAのデータベース「miRBase」も、 私は…

Rでアノテーション付け

tokunagaです。 これまでにVCFtoolsを使ったVCFファイルの加工や比較の方法をご紹介しました。 VCFtools VCFtools② 今回はVCFファイルに関するRパッケージをご紹介いたします。 VariantAnnotation Bioconductorのパッケージです。 VCFフォーマットのファイル…

PBSIM

tokunagaです。 本日はBioinfomaticsで気になる記事を見つけましたのでご紹介いたします。 Bioinformatics. 2012 Nov 4 PBSIM: PacBio reads simulator–toward accurate genome assembly Ono Y, Asai K, Hamada M PacBioのシーケンサーから出力されるリード…

VCFtools②

tokunagaです。 本日は以前ご紹介したVCFtoolsでちょっと気になっていたコマンドを調べましたのでご紹介したいと思います。 vcf-compareというVCFファイル同士の簡単な比較を行ってくれるコマンドです。 前回ご紹介したように前処理としてVCFファイルをbgzip…

VCFtools

tokunagaです。 今日はVCFtoolsについてご紹介したいと思います。 URL:http://vcftools.sourceforge.net/ VCFToolsは、NGSのデータ解析で出力されたVCFファイルを加工するのに役に立つツールです。 VCFtoolsを使用する際にはbgzip、tabixの使用が必要となり…

便利なオプション①

akbです。 今日はLinuxコマンドの便利なオプションを ご紹介したいと思います。 ①ファイルやディレクトリの検索 $ find [パス][オプション][ファイルまたはディレクトリ名] 【optionの説明】 -name <パターン>: ファイル名がパターンと同じファイルを検索す…

Galaxy による QC

こんにちは。detです。 今日はGalaxyを用いたQCについてご紹介いたします。 これまで、このブログで「QCの道」というタイトルでFASTX-Toolkitの使い方をご紹介してきました。 今回は、このQC機能をGalaxy上で実行しつつ、Galaxyの基本的な使い方を紹介したい…

Galaxy の紹介 その3

こんにちは。detです。 本日は先日ご紹介したGalaxyに関する記事の続きです。 Galaxyは、基本的には、公開のパブリックサーバーにジョブを投げて利用することになります。しかし、重いデータや、外部に出したくないデータを解析したいこともあるでしょう。特…

Galaxy の紹介 その2

こんにちは。detです。 本日は以前ご紹介したGalaxyに関する記事の続きです。 先月下旬にシカゴでGalaxyに関する国際会議(GCC2012)が開かれました。全世界から数百人の参加者が集まり、活発なディスカッションが繰り広げられたようです。次世代シーケンサ…

Galaxy の紹介 その1

こんにちは。detです。 本日はゲノムデータ解析インターフェイスツールであるGalaxyをご紹介したいと思います。 Galaxyはペンシルベニア州立大学のNekrutenko labとエモリー大学のTaylor labの共同で開発されているシステムであり、ウェブ上で利用できます。…

QCの道 その7

こんにちは。detです。 今日はQCの道 その6の続きです。 FASTX-Toolkitの使い方について、引き続き紹介いたします。 ・fastx_collapser FASTA/Q ファイルの中で、同じ配列のリードが重複して存在していた場合に1つを除いてすべて削除します。入力がFASTQ形…

cmpfastq と cmpfastq_pe

以前の記事でcmpfastqというfastqファイルのペアエンドリードを揃えるツールをご紹介いたしました。本日は、cmpfastqの改良版である cmpfastq_peとの相違についてご紹介いたします。 cmpfastq_peはcmpfastqから以下の点を改良したバージョンのようです。 1. …

シーケンサーとしての私

こんにちは、hatです。 趣味で1年ほど前から三味線教室に通っています。 先日お稽古をしていて、楽器の演奏はシーケンシングに通じるものがあるなあと思いました。 シーケンサーが塩基を読んで結果データを出すように、私は楽譜を読んでメロディーを出してい…