読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

誰でもわかる(と思う!)LTR解析 その2

LTR解析について連載するとか言っておきながら何ヶ月たったことか・・・ どうもmisawatです。大丈夫です。生きてます。 さて、期間が大分空いてしまいましたが、第二回として 「LTRの研究事例」 について紹介していきたいと思います。 やはり「どんなことが…

データ解析トレンド

現在、アメリエフはNGSデータを中心に解析を行っています。 しかし、もともと起業した社長は遺伝統計学のバックグラウンドがあり、最初はSNPアレイデータ解析の会社でした(そもそも、創業当時はNGSが今ほど普及していませんでした)。 とはいえ、ここ数年ず…

誰でもわかる(と思う!)LTR解析 その1

〜前置き〜 だんまりを決め込んでいました。 どうもmisawatです。 たまにはInputだけではなくOutputせねば!と謎の義務感にかられたので記事を書きにきました。 テーマは「LTR (Long Terminal Repeat)」の解析です。 ・・・。 はい。 「繰り返し〜」とか「リ…

ヒトデータのセキュリティ

今夏は慎重に行動していたおかげでほとんど蚊に刺されていなかったのですが、お盆休みで実家に帰ったところ、寝ている間に10箇所も刺されてしまいました。 せっかく気を付けていたのに、台無しです。 無理やりこじつけますが、気を付けるといえば、ヒトのシ…

HISAT2

RNA-seqのアライメントツールHISAT2についてご紹介します。 HISAT2は、当ブログ内でもたびたびご紹介してるTopHat2開発グループが作った、TopHat2の後継ソフトです。 TopHat2より速いしメモリもそんなに使わないとアピールしています。 ゲノムに対して小さな…

10x genomicsのGemCode技術

去年、The Scientist誌が選んだ革新的技術トップ10(Top 10 Innovations 2015)の1位を飾った技術、それが、スタートアップ企業10x genomicsが開発した、「GemCode」と呼ばれる次世代シーケンサーの新しい前処理技術です。GemCodeの技術を簡単に説明すると、…

Vagrantを用いた仮想環境構築

バイオインフォマティクス初心者が勉強を始める際に、最初に立ちはだかる壁は、Linuxという未知のOSとの相対だと思います。 最近はVirtualBoxなどの仮想化ソフトもネットにたくさんありますので、導入すること自体は皆さんできるかと思います。しかし、もし.…

Cytoscapeによるネットワーク図示

Cytoscapeは、複雑なネットワークおよびその属性の図示、統合、分析に用いられるオープンソースのソフトウェアです。 遺伝子ネットワーク、ソーシャルネットワーク、路線図など、点(node)と線(edge)で構成されるデータセットを可視化することができます。 デ…

10x Genomics Long Rangerのご紹介

前回のブログでも少し触れましたが、10x Genomicsが開発したGemCodeシステムは、ショートリードから擬似的にロングリードを生成する革新的な技術です。 今回はそのGemCodeシステムに対応したゲノム解析パイプラインLong Rangerのご紹介をしたいと思います。 …

Yet Another Bioinformatics Library

バイオ分野で使われているプログラミング言語には、バイオインフォマティクス向けのライブラリが用意されており、BioPerlやBioPythonなどをご存知の方は多いかもしれません。 最近注目されているGoogleによって開発されたGO言語にも、バイオインフォマティク…

STARとCufflinks

RNA-seq解析におけるマッピングソフトウェアの選択肢は、TopHat一強から、STARもずいぶん多く使われるようになってきました。 性能や速度から、STAR一択! と言い切る人もいますが、まだ根強くTopHatユーザもいるという印象です。 マッピングは解析の中でも…

AWKでフィルタリング

以前の記事(TopHat-Fusionの結果の見方)で、 「Linuxコマンドのawkを使ってfusions.outをフィルタリングする方法もあります」と書いたので、 今回はawkコマンドのご紹介をしたいと思います。 AWKコマンドは主に、テキストファイルから要素を抜き出したりする…

snpEffのアノテーション書式

たびたびブログでもご紹介している、アノテーションソフトsnpEff、一年前の9月にバージョン4.0になったとご紹介しましたが、2015年1月現在のバージョンは4.2です。 snpEffで付与されるアノテーションの書式は、以前は下記のような「EFF=...」でした。 ##INFO=

ファイルのコピーに失敗するときは転送速度を落としてみる

こんにちは、久保(kubor)です。 少し前からオフィスの近くで大阪風のお好み焼きを提供するお店を探しているのですが、どうも広島風の赤いお店が多い気がします。外付けHDDからのコピーに失敗することがある ところで、弊社では日々お客様からのデータを受け…

Chromeで開いてる全てのタブのタイトルとURLをMarkdown形式で取得する

こんにちは、雪のようなくちどけを経験できなかった青春時代は、アニメや漫画で上書きすればいいと思っている久保(kubor)です。 メルティーキッス くちどけラム&レーズンすごく美味しい! いつのまにかChromeのタブが増えるさて、バイオインフォマティシャ…

バイオインフォマティシャンでも、pecoがしたい!

先日、ついに日比谷線を利用しました、久保(kubor)です。 先日pecoが話題になっていた傍ら、社内ではなかなか広まらずに、寂しい思いをしているので、バイオインフォマティシャンにもおすすめの使い方を紹介いたします。 0. pecoってなに 標準入力で受け取…

TopHat-Fusionの結果の見方

TopHat-Fusionは、マッピングソフトのTopHatから派生した機能で、融合遺伝子を検出するのに広く使われています。 TopHat-Fusionを実行すると、fusions.outという候補となるポジションやリード数などの情報が出力されます。fusion.outの説明は、NGS Surfer's …

Pythonを書くときに、タブじゃなくてスペースでインデントする

こんにちは。 先日、金さん(kimk)がお土産で買ってきてくださった栗羊羹があまりに美味しかったので、いっそ羊羹をまとめ買いするかどうか、悩んでいる久保(kubor)です。 羊羹のまとめ買いで悩む方が読者にいるかどうかはわかりませんが、プログラムを書…

Pythonでタブ区切りテキストの読み込み

世の中には、2種類の人間がいる。 タブ区切りテキストを使う人と、使わない人だ。 こんにちは、タブ区切りテキストを使う人、久保(kubor)です。 Pythonでタブ区切りテキストを読み込むときは、csvライブラリが便利です。 標準ライブラリなので環境依存をそ…

Excelの1セルにコンマ区切り文字列を入れる

解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。 例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。 …

Vimで不可視文字を表示させる方法

こんにちは、まだ都営三田線に乗ったことがない久保(kubor)です。 先日CentOS6.7がリリースされましたね。 個人的に、Vim7.4に対応したのが嬉しいです。 嬉しいので、VimのTipsを書かせてください。 「Vimで不可視文字を表示させる方法」です。 Vimに限ら…

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。 GFF(General Feature Format)はゲノムの配列に関…

Python デバッグ

Pythonに限った話ではありませんが、一生懸命プログラムを書いて、いざ実行すると、いくつものバグに遭遇します。エラーが出る、あるいは、エラーは出ないのに、プログラムが意図したとおりに動いてくれないということも。 こういう場合、きっとどこかで条件…

無害なメッセージと有害なメッセージ

hatです。私は昔から自分の体調を気にしすぎてしまうところがあります。 頭が痛いといっては脳腫瘍を疑い、お腹が痛いといっては盲腸を疑い、指のささくれが膿んだといっては指が壊死するのではないかと悶々とし、しかし結果的には何でもなくてここまで元気…

BED、VCFをスッキリと染色体番号順にソートする方法

こんにちは、あんドーナツ好きで有名な久保(kubor)です。 ブログのネタを日頃から探しているのですが、なかには、過去に先輩が取り上げていそうで、意外にも紹介していない話題が結構あります。 例えば、sortコマンド。 このコマンドは、言わずと知れた基…

prefetch すらっと落とす SRA

こんにちは、久保(kubor)です。 先日転んだ時に頭を打ったので、それがきっかけで、僕に異常な言動がないかhatさんに確認してもらったのですが、 「打つ前から変わらずに変なことを言ってるよ。」 とのことでした。ひどい。 そんなhatさんが「すら(SRA)…

ChemmineRを使ってみよう【4】

ChemmineRの紹介連載4回目です。 前回は、ChemmineOBというパッケージを使って化合物のPubChem fingerprintを取得しました。 今回では、そのfingerprintを使って、類似比較・クラスタリング解析を行います。 fingerprintによる類似検索 fpset[1]と類似したも…

ChemmineRを使ってみよう【3】

前回までで、SDFデータの読み込みと、データのvalidationをご紹介しました。 今回は、読み込んだ化合物のfingerprint/atom pair descriptorを取得する方法です。 SDFsetからfingerprint/atom pair descriptorへの変換には、ChemmineOBという新しいパッケージ…

ChemmineRを使ってみよう【2】

ChemmineRの紹介記事2回目、前回はパッケージのインストールとSDFファイルの取得(読み込み)の方法をご紹介しました。 今回は、取得した読み込んだデータのアクセス方法と、SDFデータの確認方法をご紹介します。 前回は、CIDからgetIds関数で、またはSDFフ…

すら(SRA)っとクイック(Q)に変換

NCBI SRAからダウンロードしたファイルがsraフォーマットの場合、以下のコマンドでまとめてfastqに変換すると便利です。 $ find . -name '*.sra' -exec fastq-dump {} ¥; fastq-dumpについては NCBI SRA Toolkitの使い方 も、findコマンドについては findの-…

ChemmineRを使ってみよう【1】

ChemmineRというパッケージの使い方をご紹介します。 オンラインでケモインフォマティクス解析を行えるChemMine ToolsというツールのRパッケージです。 ぱっと見て「けみなー」と読みましたが、もともとのツールがChemMineなので、「けむ・まいなー」と読む…

あとはまかせない

以前、atコマンドを使うと時間差でコマンドが実行できて便利だという記事(あとはまかせた!)を書きました。 atコマンドはとても便利で普段から活用しているのですが、仕掛けたタスクをとりけしたい場合もあると思います。 そんな時は、「at -l」で仕掛けた…

お花見メタゲノムに参加します!

東京に開花予想が出た頃、お花見メタゲノムプロジェクトの採取キットが届きました! 個人で参加するので解析まではお手伝いできないかもしれませんが、これを機にメタゲノム解析について少しでも勉強できればいいなと思っています。 サンプルの採取場所は、…

ReactomePAを使ってみた

パスウェイデータベースReactomeをRから操作できるBioconductorパッケージ、ReactomePAを使ってみました。 インストール > source("http://bioconductor.org/biocLite.R") > biocLite("ReactomePA") テスト実行 > library(ReactomePA) > library(DOSE) > dat…

findの-execオプション

findコマンドの-execオプションを使うと、findの結果を他のコマンドで実行することができます。 例:現在のディレクトリにある *.gz ファイルを全て解凍する $ find . -name '*.gz' -exec gunzip {} ¥; ・findの結果が{}に入ります。 ・末尾の「¥;」の前には…

アメリクのご紹介

アメリクとは…… バイオ研究の解析に使用するソフトや解析手法について、無償で調査するサービスです。 調査結果はアメリエフのブログでご紹介いたします→ソフトの紹介例 「学会で●●というソフトについて聞いたけど、どんなソフトだろう? メリットやデメリッ…

SAM/BAMのフラグの意味を教えてくれるサイト

SAM/BAMのFLAG列には、そのリードまたはペアとなるリードの マッピング状態に関する情報がビットの和で示されています。 例えばあるリードがFLAG=12だった場合、12は2進数で1100となり、 SAM Specによると「マップされなかったリード」は0x4で 「相方がマッ…

FastQCの新機能

FastQCにv0.11.1から次のチェック項目が追加されています。 ・Per tile sequence quality タイル単位のクオリティが出せるようになりました。 ・Adapter Content これまではOverrepresented sequencesでアダプタも確認していましたが、アダプタ混入率を示す…

OR条件でgrep

Rでgrep 続・Rでgrep grepのこんなオプション grepを数えるオプション 普段解析でよく使うコマンドのためか、このブログはgrepネタが多い気がします。 ということでまたgrepネタです。 grepで特定の文字列を含む行を抜き出す場合、文字列を¥|でつなげること…

snpEffバージョンアップ

アノテーションソフトsnpEffが1.4.0にバージョンアップしました。 GRCh38/hg38に対応しています。待ってました。 まだ安定ではないようで、頻繁にマイナーバージョンアップを繰り返しています(2014-09-25現在、最新バージョンは1.4.0 Eです)が、早く新しいゲ…

初めてのClinVar

だんだん肌寒くなってきましたね。kitanoです。 私が入社して3週間になろうとしていますが、今回はその中で私が初めて知った言葉をひとつピックアップして解説していこうかと思います。 その言葉とは「ClinVar」です。 ヒトの研究に携わっていらっしゃる方々…

STAR(1)

RNA-seqデータを高速にマッピングするソフトウェアSTARについて ご紹介します。 A. Dobin et al, Bioinformatics 2012; doi: 10.1093/bioinformatics/bts635 "STAR: ultrafast universal RNA-seq aligner" ◆STARのインストール $ wget http://STAR.googlecod…

BEDtoolsのオプション

BEDtoolsは何かと便利なツールです。当ブログでも、intersectBedの記事のページがアクセスランキング上位になっています。。 つい最近までBEDtoolsのバージョンはずっと前にインストールした2.13を使っていましたが、先日より新しいバージョンのものを使った…

ヒートマップ図の色指定

Rでヒートマップ図を描く時、gplotsパッケージに用意されている色のセットを使うと、色指定が楽です。 > install.packages('gplots') > library(gplots) 論文などを見ていると、最近は青→白→赤が多いような気がするのは私だけでしょうか。 青→白→赤は、「blu…

grepを数えるオプション

特定の文字列を含む行を抜き出す便利なコマンドgrep。 最近便利に使っているオプションをご紹介します。 それは grep -c 。 grepコマンドで取得できた行数を出力してくれるオプションです。cはcountのcと覚えています。 これを知らなかったときは、grepコマ…

hg38調査(1)

hg20/GRCh38が出る と浮かれていた、去年の夏。 やっと出たhg38(hg20という名前では無かった)をダウンロードして 染色体の長さやNの数を調べた 今年の正月。 それで満足してその後hg38のことはすっかり忘れていましたが、 気が付くと8月も後半。小学生は夏…

名前が2つ?

学生時代に研究していた植物のタンパク質には、2つの名前がありました。 そのタンパク質をつくる遺伝子をノックアウトすると起きる現象由来の名前と、タンパク質の機能由来の名前です。そのタンパク質の研究は、ノックアウトにより起きる現象から始まったた…

Pythonで計算する時の注意点

Pythonで計算結果を小数点以下まで得たい時、単純に val = 3 / 10 としてしまうと、結果が0になります。 val = float(3) / 10 のように、どちらかをfloat型にして計算すると0.3が返ってきます。 Perlだと $val = 3 / 10; で0.3が返ってくるので、Pythonでも…

headとtail

会社(神田)の近くにおいしい鯛焼屋さんが二軒あります。 どちらも餡がたくさん詰まっていて、熱々の焼き立てをほうばると 小麦粉と重曹の香ばしい香りが鼻に抜け、たまらぬおいしさです。 会社が神田に移転して良かったと思うひとときです。 ところで、み…

VCFのアノテーション

SnpSiftを使うと、VCFにdbSNPや1000Genomesのアノテーションをつけることができます。 (1)アノテーション用のデータを以下からダウンロードして解凍します。 ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz (2)SnpSiftを実行しま…