アメリエフのブログ

Amelieff Staff Blog

バイオインフォマティクス

hg38調査(1)

hg20/GRCh38が出る と浮かれていた、去年の夏。 やっと出たhg38(hg20という名前では無かった)をダウンロードして 染色体の長さやNの数を調べた 今年の正月。 それで満足してその後hg38のことはすっかり忘れていましたが、 気が付くと8月も後半。小学生は夏…

名前が2つ?

学生時代に研究していた植物のタンパク質には、2つの名前がありました。 そのタンパク質をつくる遺伝子をノックアウトすると起きる現象由来の名前と、タンパク質の機能由来の名前です。そのタンパク質の研究は、ノックアウトにより起きる現象から始まったた…

Pythonで計算する時の注意点

Pythonで計算結果を小数点以下まで得たい時、単純に val = 3 / 10 としてしまうと、結果が0になります。 val = float(3) / 10 のように、どちらかをfloat型にして計算すると0.3が返ってきます。 Perlだと $val = 3 / 10; で0.3が返ってくるので、Pythonでも…

headとtail

会社(神田)の近くにおいしい鯛焼屋さんが二軒あります。 どちらも餡がたくさん詰まっていて、熱々の焼き立てをほうばると 小麦粉と重曹の香ばしい香りが鼻に抜け、たまらぬおいしさです。 会社が神田に移転して良かったと思うひとときです。 ところで、み…

VCFのアノテーション

SnpSiftを使うと、VCFにdbSNPや1000Genomesのアノテーションをつけることができます。 (1)アノテーション用のデータを以下からダウンロードして解凍します。 ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz (2)SnpSiftを実行しま…

HGVDについて (3) 平均depth編

HGVDについて (1) HGVDについて (2) サンプル数編 ※※ 前回の記事まで、データベースの名称を誤っておりました。ブログをご覧くださった皆様、並びに関係者様各位にご迷惑をおかけしてしまい申し訳ございません。 前の記事に引き続き、Human Genetic Variatio…

GRCh38

ヒトの新しいリファレンスゲノムGRCh38が公開されました。各染色体の長さや、N(不明塩基)の数がGRCh37→GRCh38で どのように変わったか調べてみました。

HGVDについて (2) サンプル数編

(前の記事) (次の記事) Human Genetic Variation Databaseで公開している日本人ゲノムデータの、データの確からしさの判断に使えそうな項目を見てみます。 配布されている圧縮ファイルをダウンロードし、解凍しますと、READMEとタブ区切りテキストの2つ…

bwa memの-Mオプション

bwaバージョン0.7が去年の2月にリリースされて、 ほぼ1年が経とうとしています。 もう0.7に切り替えた方も多いのではないでしょうか。 bwa 0.7では、memというコマンドが使えるようになりました。 memは従来のbwaswの後継で、ロングリード(〜1Mbp)に使える…

CircosでSelfChainを描く(3)

CircosでSelfChainを描く(1) CircosでSelfChainを描く(2) のつづきです。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 データファイルも設定ファイルも用意できましたので いよいよ「(3)Circos実行」を行います。 次の…

CircosでSelfChainを描く(2)

CircosでSelfChainを描く(1)のつづきです。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 今回は「(2)設定ファイル作成」を行います。 以下のような内容のtest.confという名前のファイルを作成します。 <<include colors_fonts_patterns.conf>> <image> <<include etc/image.conf>> </image> karyotype </include>…

CircosでSelfChainを描く(1)

Circosを使ってみようでご紹介したCircosを使って、 以下のようなヒトのChainSelfの図を描いてみたいと思います。 手順 (1)データファイル用意 (2)設定ファイル作成 (3)Circos実行 今回は「(1)データファイル用意」を行います。 ChainSelfは、ヒ…

HGVDについて (1)

先月の11月12日、日本人のゲノム情報データベースHuman Genetic Variation Databaseが公開されました。このことは一般紙でも報道されました。 以前の連載でも、ゲノム情報のデータベース、特に人種や民族別のデータベースが、高スループットの遺伝子解析機器…

DeNovoGear

tokunagaです。 有言実行です。 第2回使ってみたシリーズです。 今回ご紹介するのは DeNovoGear サイト http://denovogear.weebly.com/index.html 論文 http://www.nature.com/nmeth/journal/v10/n10/full/nmeth.2611.html trioデータからDeNovoのmutationや…

MEDIPS

ご無沙汰しております。 tokunagaです。 ここ最近、 このような工夫を施したツールやアルゴリズムを開発しました等、 バイオインフォマティクスに関する論文が数多く出てきてますね。 全てを把握することはとてもじゃないですが難しいことです。 そこで折角…

NBDCヒトデータベース運用開始

独立行政法人科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)が、ヒトデータに関するデータベースを共有するためのプラットフォームとして、「NBDCヒトデータベース」の運用を開始したそうです。 http://humandbs.biosciencedbc.jp/ …

WebLogoを使ってみよう

WebLogoを使うと、複数配列の塩基の構成比を描画することができます。 以下に示すのは、miRBaseから取得した、ヒト、チンパンジー、ゴリラ、 マウス、ラットのmir-25配列です。 >hsa-mir-25 MI0000082 GGCCAGUGUUGAGAGGCGGAGACUUGGGCAAUUGCUGGACGCUGCCCUGGGC…

Circosを使ってみよう

構造変異の論文などでよく見かけるこのような図は Circosというソフトウェアで描くことができます。 Circosのサイトより ◆Circosのインストール http://circos.ca/software/download/circos/から適当なバージョンのアーカイブをダウンロードして解凍します。…

Bio-SamTools

Bio-SamToolsを使ってBAMから情報を抜き出す方法をご紹介します。 例えば、あるBAMファイルのchr21:19,660,000-19,660,600の領域に マップされたリードの「ID」と「アライメント位置」と 「ペアワイズアライメント結果」を表示したい場合には、 次のようなPe…

気軽にbamファイルの中を見る

入社して四か月になり、私も簡単な解析ならできるようになりました。 とはいえ、解析中に起きたエラーについて先輩に相談したところ 「ちょっとBAMファイルをless(コマンド)で確認してみようか」 と言われ、 「BAMってバイナリデータでは……?」 と狼狽した…

CELファイルの中身

tokunagaです。 本日はCELファイルについてお話ししたいと思います。 CELとは、AffymetrixのArrayで出力される遺伝子発現やジェノタイピングデータの含まれたファイルのフォーマットです。 CELファイルには、DATファイル(Affymetrixのスキャナーから出力さ…

各リードが1回だけ登場するBAMを作るには

マッピング率を計算する時など、BAMファイルから、マッピングされたリード数を取得したい場合があると思います。 samtools idxstatsでもマッピング結果の統計を出すことができるのですが、マルチマッピングのBAMの場合は重複してカウントされてしまうようで…

GATKの「known sites」

今日は、次世代シーケンサの解析に用いられるGATKについてお話します。 GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。 GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめてい…

BioHackathon2013

6月23〜28日に開催されたBioHackathon2013に参加してきました。 初日のシンポジウム@スカイツリーでは、日本SGI様と共同で ドリンクコーナーのスポンサーをさせていただきました。 二日目以降はライフサイエンス統合DBセンターで、 ひたすらハッキングしま…

テスト用Fastqファイルを作る

マッピングソフトウェアの性能比較をする際に、 正解がわかっているデータを使いたい場合があります。 そんな時に便利な、ゲノム配列からFastqファイルを作成できる ArtificialFastqGeneratorというソフトウェアをご紹介します。 例えばヒトゲノムhg19から15…

hg20

あまり梅雨らしくないこの6月、いかがお過ごしでしょうか。 今年も「あっ、数日前から明けてました」と後付けで梅雨明け宣言されて、なし崩し的に夏になる予感がしています。 私は四季の中で夏が一番好きなので、夏に向かいつつあるこの時期は毎年とてもわく…

オープンソースでパスウェイ解析

家系解析でもがん解析でも、原因遺伝子候補を絞り込んだ後のアノテーションが重要になります。 アノテーション方法の一つに、変異があった遺伝子がどのようなパスウェイ上にあるかを調べるパスウェイ解析があります。 今回、オープンソースのソフトウェアと…

ソフトウェア結果比較【BAMソート編・1】

NGS解析では、同じ処理を行うのにいくつものソフトウェアがあって、どれを使ったらいいのか迷うことがあります。 例えばBAMファイルをゲノムポジションでソートする場合、以下の選択肢があります。 1. samtools sortを使う 2. picard toolsのSortSam.jarを使…

Mendeleyの紹介

本日は、文献管理ソフトの一つであるMendeleyを簡単にご紹介したいと思います。 最近、論文を読む機会が増えてきたので論文管理ソフトを探していました。論文管理ソフトと言えばEndNoteが有名ですが、値段が高いことがネックです。そこで、フリーの論文管理…

coverageBedの使い方(2)

coverageBedの使い方(1)のつづきです。 ■カバレッジ計算 マッピング結果とゲノム、2つのBEDが用意できたら、以下のコマンドでカバレッジを計算します。 $ coverageBed -a map.bed -b genome.bed 以下のような結果が出力されます。 chr1___0__249250621__1…