アメリエフのブログ

Amelieff Staff Blog

バイオインフォマティクス

(Rで)VCFにアノテーション "VariantAnnotation" ②

Rに読み込んだVCFに、アノテーションを付加しましょう。 staffblog.amelieff.jp VariantAnnotationの公式説明書はこちらです。 アノテーションの付加には、Bioconducterのアノテーションデータパッケージを利用します。 パッケージ一覧はこちらから見られま…

(Rで)VCFの読み込み "VariantAnnotation" ①

VCF(Variant Call Format)をRで読みましょう! Rパッケージ "VariantAnnotation" をご紹介します。 VariantAnnotationはVCFを読み込み、更にアノテーションパッケージを利用してアノテーションを付与することが可能です。 列の分類やPOS表記に少しクセがあり…

性染色体のgenotype

こんにちは。 VCF(variant call format)ファイルにおける、性染色体のgenotype表記についてご紹介します。 下に、VCFの例を示します。father、つまり男性の情報を見てみます。 fatherの列の左端に、それぞれの変異のGT(genotype、遺伝型)が載っています…

ツールの出力をまとめてレポートに! MultiQC ①

kimotonです。 今回はMultiQCを紹介します。 その名の通りマルチなQCツールです。 論文はこちら マルチなQCツールなんて言いましたが、要するにバイオインフォマティクス系ツールの結果ファイル、ログファイルをまとめていい感じにレポートにしてくれるツー…

pythonのゲノム解析で有用物質を発見?

こんにちは。新入社員のFukuです。 アメリエフでPythonを使うんだよ、と情報系でない人に話すと、「水牛?」といわれます。ニシキヘビです。 さて、Python(ニシキヘビ)& インフォマティクス な論文をひとつご紹介します。 Genomewide Analysis of the Anti…

IgBLASTのラッパーMiGMAP

抗体のV(D)J配列のマッピングする場合には、BLASTのアルゴリズムを利用したIgBLASTはとても便利です。 しかし、FASTQファイルが使えないことや、出力結果が独自フォーマットであることなどから、扱いづらいと感じることもあります。 また、ローカルで実行す…

QIIME2のはなし。

Hatena Blogに移行してから初投稿になります。 どうもmisawatです。 お客さん向けのBlogチックなテキストは毎回書いてるんですけどねぇ・・・。(← 言い訳です。はいスイマセン。) さて、かの有名なメタゲノム解析プログラムQIIMEがメジャーバージョンアッ…

アメリエフに興味ある学生向け交流会を開催いたしました!!

「アメリエフに興味ある学生向け交流会」というと、お堅い印象になってしまいますが、今回の会はおそらく名前がなかったので、こんなタイトルにしてみました。 初めまして。去年の9月からインターン生として、お世話になっておりますkimoton と申します。ア…

誰でもわかる(と思う!)LTR解析 その2

LTR解析について連載するとか言っておきながら何ヶ月たったことか・・・ どうもmisawatです。大丈夫です。生きてます。 さて、期間が大分空いてしまいましたが、第二回として 「LTRの研究事例」 について紹介していきたいと思います。 やはり「どんなことが…

データ解析トレンド

現在、アメリエフはNGSデータを中心に解析を行っています。 しかし、もともと起業した社長は遺伝統計学のバックグラウンドがあり、最初はSNPアレイデータ解析の会社でした(そもそも、創業当時はNGSが今ほど普及していませんでした)。 とはいえ、ここ数年ず…

誰でもわかる(と思う!)LTR解析 その1

〜前置き〜 だんまりを決め込んでいました。 どうもmisawatです。 たまにはInputだけではなくOutputせねば!と謎の義務感にかられたので記事を書きにきました。 テーマは「LTR (Long Terminal Repeat)」の解析です。 ・・・。 はい。 「繰り返し〜」とか「リ…

ヒトデータのセキュリティ

今夏は慎重に行動していたおかげでほとんど蚊に刺されていなかったのですが、お盆休みで実家に帰ったところ、寝ている間に10箇所も刺されてしまいました。 せっかく気を付けていたのに、台無しです。 無理やりこじつけますが、気を付けるといえば、ヒトのシ…

HISAT2

RNA-seqのアライメントツールHISAT2についてご紹介します。 HISAT2は、当ブログ内でもたびたびご紹介してるTopHat2開発グループが作った、TopHat2の後継ソフトです。 TopHat2より速いしメモリもそんなに使わないとアピールしています。 ゲノムに対して小さな…

10x genomicsのGemCode技術

去年、The Scientist誌が選んだ革新的技術トップ10(Top 10 Innovations 2015)の1位を飾った技術、それが、スタートアップ企業10x genomicsが開発した、「GemCode」と呼ばれる次世代シーケンサーの新しい前処理技術です。GemCodeの技術を簡単に説明すると、…

Vagrantを用いた仮想環境構築

バイオインフォマティクス初心者が勉強を始める際に、最初に立ちはだかる壁は、Linuxという未知のOSとの相対だと思います。 最近はVirtualBoxなどの仮想化ソフトもネットにたくさんありますので、導入すること自体は皆さんできるかと思います。しかし、もし.…

Cytoscapeによるネットワーク図示

Cytoscapeは、複雑なネットワークおよびその属性の図示、統合、分析に用いられるオープンソースのソフトウェアです。 遺伝子ネットワーク、ソーシャルネットワーク、路線図など、点(node)と線(edge)で構成されるデータセットを可視化することができます。 デ…

10x Genomics Long Rangerについて

前回のブログでも少し触れましたが、10x Genomicsが開発したGemCodeシステムは、ショートリードから擬似的にロングリードを生成する革新的な技術です。 今回はそのGemCodeシステムに対応したゲノム解析パイプラインLong Rangerのご紹介をしたいと思います。 …

Yet Another Bioinformatics Library

バイオ分野で使われているプログラミング言語には、バイオインフォマティクス向けのライブラリが用意されており、BioPerlやBioPythonなどをご存知の方は多いかもしれません。 最近注目されているGoogleによって開発されたGO言語にも、バイオインフォマティク…

STARとCufflinks

RNA-seq解析におけるマッピングソフトウェアの選択肢は、TopHat一強から、STARもずいぶん多く使われるようになってきました。 性能や速度から、STAR一択! と言い切る人もいますが、まだ根強くTopHatユーザもいるという印象です。 マッピングは解析の中でも…

AWKでフィルタリング

以前の記事(TopHat-Fusionの結果の見方)で、 「Linuxコマンドのawkを使ってfusions.outをフィルタリングする方法もあります」と書いたので、 今回はawkコマンドのご紹介をしたいと思います。 AWKコマンドは主に、テキストファイルから要素を抜き出したりする…

snpEffのアノテーション書式

たびたびブログでもご紹介している、アノテーションソフトsnpEff、一年前の9月にバージョン4.0になったとご紹介しましたが、2015年1月現在のバージョンは4.2です。 snpEffで付与されるアノテーションの書式は、以前は下記のような「EFF=...」でした。 ##INFO=

ファイルのコピーに失敗するときは転送速度を落としてみる

こんにちは、久保(kubor)です。 少し前からオフィスの近くで大阪風のお好み焼きを提供するお店を探しているのですが、どうも広島風の赤いお店が多い気がします。外付けHDDからのコピーに失敗することがある ところで、弊社では日々お客様からのデータを受け…

Chromeで開いてる全てのタブのタイトルとURLをMarkdown形式で取得する

こんにちは、雪のようなくちどけを経験できなかった青春時代は、アニメや漫画で上書きすればいいと思っている久保(kubor)です。 メルティーキッス くちどけラム&レーズンすごく美味しい! いつのまにかChromeのタブが増えるさて、バイオインフォマティシャ…

バイオインフォマティシャンでも、pecoがしたい!

先日、ついに日比谷線を利用しました、久保(kubor)です。 先日pecoが話題になっていた傍ら、社内ではなかなか広まらずに、寂しい思いをしているので、バイオインフォマティシャンにもおすすめの使い方を紹介いたします。 0. pecoってなに 標準入力で受け取…

TopHat-Fusionの結果の見方

TopHat-Fusionは、マッピングソフトのTopHatから派生した機能で、融合遺伝子を検出するのに広く使われています。 TopHat-Fusionを実行すると、fusions.outという候補となるポジションやリード数などの情報が出力されます。fusion.outの説明は、NGS Surfer's …

Pythonを書くときに、タブじゃなくてスペースでインデントする

こんにちは。 先日、金さん(kimk)がお土産で買ってきてくださった栗羊羹があまりに美味しかったので、いっそ羊羹をまとめ買いするかどうか、悩んでいる久保(kubor)です。 羊羹のまとめ買いで悩む方が読者にいるかどうかはわかりませんが、プログラムを書…

Pythonでタブ区切りテキストの読み込み

世の中には、2種類の人間がいる。 タブ区切りテキストを使う人と、使わない人だ。 こんにちは、タブ区切りテキストを使う人、久保(kubor)です。 Pythonでタブ区切りテキストを読み込むときは、csvライブラリが便利です。 標準ライブラリなので環境依存をそ…

Excelの1セルにコンマ区切り文字列を入れる

解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。 例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。 …

Vimで不可視文字を表示させる方法

こんにちは、まだ都営三田線に乗ったことがない久保(kubor)です。 先日CentOS6.7がリリースされましたね。 個人的に、Vim7.4に対応したのが嬉しいです。 嬉しいので、VimのTipsを書かせてください。 「Vimで不可視文字を表示させる方法」です。 Vimに限ら…

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。 GFF(General Feature Format)はゲノムの配列に関…