アメリエフのブログ

Amelieff Staff Blog

ヘビーな夏

弊社が一部講義を担当した平成27年度NGSハンズオン講習会のアンケート結果を、事務局のかたから送っていただきました。 私が担当したSh、Perl、Pythonに関しては、「易しいと思っていたらいきなり最終課題が難しくなった」というご意見が多かったです。 実は…

どの括弧が閉じているのかよく分かるVimの設定

京都支店に居た頃、鴨川でサンドウィッチを食べているところをトンビに襲われ、出血したことがある久保(kubor)です。 Vimを使っていて、コーディング中、 括弧が重なって困るなら、対応する括弧をハイライトしましょう。 もしくは対応する括弧へカーソルを…

どんな改行コードでも・後

前回に引き続き改行コードの処理の話です。 今回はPerl・Pythonのなかでどう扱うか、コード例を挙げて説明します。 perlの例 行末の「¥n」はchompで取り除くことができます。それ以外は正規表現を使うと簡単と思います。 open IN,"file.txt" or die "$!";whi…

どんな改行コードでも・前

弊社のトレーニングやNGSハンズオン講習会などでPerlやPythonに触れた方は「『¥n』で行の末尾を示す」と聞いたことがあると思います。 『¥n』はLine Feed、LFとも呼び、LinuxまたはMac OS Xで使われる改行コードです。改行コードはOSの種類やバージョン、ソ…

Somatic SNV検出編

2014年6月21日に開催した、アメリエフ株式会社・第33回バイオインフォマティクス勉強会の「フリーソフトではじめるがん体細胞変異解析入門」のスライドをSlideShareにて公開いたしました。 主に、ブログでもご紹介したことがあるソフトウェアSomaticSniperを…

Pythonでgzipされたテキストファイルをcsvモジュールで読み込む

gzip圧縮されたファイルをPythonで読み込むときには、少し注意が必要です。 例として、手元に偶然あった魔法の言葉が書かれたタブ区切りテキストファイルを使用してみます。 zcat supercalifragilisticexpialidocious.txt.gzsuper cali fragilistic expia li…

シェル芸

hatです。 先日、jus & USP友の会さんのシェル芸勉強会に参加してきました。 シェル芸は、USP友の会会長上田さんのブログで次のように定義されています。 「マウスも使わず、ソースコードも残さず、GUIツールを立ち上げる間もなく、あらゆる調査・計算・テキ…

Pythonを書くときに、タブじゃなくてスペースでインデントする

こんにちは。 先日、金さん(kimk)がお土産で買ってきてくださった栗羊羹があまりに美味しかったので、いっそ羊羹をまとめ買いするかどうか、悩んでいる久保(kubor)です。 羊羹のまとめ買いで悩む方が読者にいるかどうかはわかりませんが、プログラムを書…

Pythonでタブ区切りテキストの読み込み

世の中には、2種類の人間がいる。 タブ区切りテキストを使う人と、使わない人だ。 こんにちは、タブ区切りテキストを使う人、久保(kubor)です。 Pythonでタブ区切りテキストを読み込むときは、csvライブラリが便利です。 標準ライブラリなので環境依存をそ…

重複値の削除や抽出

Rで、ベクトルなどに含まれる重複した値をユニークにしたいとき、unique()を使用します。 > a [1] "AAA" "BBB" "CCC" "AAA" > unique(a) [1] "AAA" "BBB" "CCC" linuxコマンドの、隣り合っている重複行をユニークにするuniqコマンドとよく混同して、uniqと書…

Excelの1セルにコンマ区切り文字列を入れる

解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。 例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。 …

Vimで不可視文字を表示させる方法

こんにちは、まだ都営三田線に乗ったことがない久保(kubor)です。 先日CentOS6.7がリリースされましたね。 個人的に、Vim7.4に対応したのが嬉しいです。 嬉しいので、VimのTipsを書かせてください。 「Vimで不可視文字を表示させる方法」です。 Vimに限ら…

seq2pathwayでアノテーション(後)

Bioconductorのseq2pathwayパッケージを使ってパスウェイのアノテーションを行います。 ※seq2pathwayのインストールはこちらの記事をご覧ください。 seq2pathwayパッケージに含まれているテストデータを使ってテストしてみましょう。 library(seq2pathway) d…

seq2pathwayでアノテーション(前)

ChIP-seqやRIP-seqでピークが得られた後は、遺伝子をアノテーションしたり、それらの遺伝子がどんなパスウェイに関連するか調べたりしたいですね。 Bioconductorのパッケージseq2pathwayを使って、ゲノム領域に遺伝子をアノテーションしたり、遺伝子にパスウ…

「次世代シークエンサ(NGS)ハンズオン講習会」参加者追加募集のお知らせ

昨年に引き続き、「平成27年度NGSハンズオン講習会」にて一部の講義でアメリエフ社員が講師を勤めさせていただいております。 この度、B日程(2015年8月26日(水)〜8月28日(金)の3日間)につきまして、追加で受講の申込を受付けることとなりましたので、お知…

四半期研修

アメリエフでは四半期ごとに社内研修を行います。 7月中に行事などが立て込んでいたため時期がずれ込んでしまいましたが、上半期が終わったので八月の頭に研修を行いました。 スイカを食べながら、これまでを振り返ったり、今後の見通しや予定の話しました。…

NGSハンズオン講習会

7月22日(水) から次世代シーケンサ(NGS)ハンズオン講習会が開催されています。 本講習会は、バイオサイエンスデータベースセンター(NBDC)の主催で、NGS解析を学びたい方を対象に行われており、弊社からは講師として2名、TAとして2名が参加しています。 今週…

ヘッダに注意

バイオインフォには関係ないのですが、少しつまづいたことです。 ReactomePAを使っています。 hatさんがかかれた紹介記事では、enrichPathway()でエンリッチされているパスウェイを取得した結果を棒グラフに描画していますが、summary()することでデータフレ…

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。 GFF(General Feature Format)はゲノムの配列に関…

Python デバッグ

Pythonに限った話ではありませんが、一生懸命プログラムを書いて、いざ実行すると、いくつものバグに遭遇します。エラーが出る、あるいは、エラーは出ないのに、プログラムが意図したとおりに動いてくれないということも。 こういう場合、きっとどこかで条件…

無害なメッセージと有害なメッセージ

hatです。私は昔から自分の体調を気にしすぎてしまうところがあります。 頭が痛いといっては脳腫瘍を疑い、お腹が痛いといっては盲腸を疑い、指のささくれが膿んだといっては指が壊死するのではないかと悶々とし、しかし結果的には何でもなくてここまで元気…

chimerascanで融合遺伝子を検出する

融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。 TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。 1. アノテーションデータの準備 ・UCS…

BED、VCFをスッキリと染色体番号順にソートする方法

こんにちは、あんドーナツ好きで有名な久保(kubor)です。 ブログのネタを日頃から探しているのですが、なかには、過去に先輩が取り上げていそうで、意外にも紹介していない話題が結構あります。 例えば、sortコマンド。 このコマンドは、言わずと知れた基…

6月26日(金)全社研修による休業のお知らせ

平素よりアメリエフ株式会社のサービスをご利用頂きまして、誠にありがとうございます。 全社研修による休業のお知らせです。 【休業期間】 2015年6月26日(金)12:00〜18:00 【営業開始】 2015年6月29日(月)より通常営業 お問い合わせにつきましては、6月29…

Pythonとくんずほぐれつ

hatです。 平成27年度NGSハンズオン講習会で使用するPythonの資料を作っています。 人に教えるとなると改めてPythonを基本から学ぶ必要があり、土日もPythonの参考書やCodecademyで勉強している今日この頃です。 根を詰めすぎて逃避したくなったのか、あるい…

paste関数を使う

短い間ですが、弊社のトレーニングのTAを担当させていただいていた時期があります。 RのTAをやるなかで、とても便利なのに、初めてRに触れる方が戸惑われることが多いと感じたポイントのひとつに paste 関数があります。 今回は paste 関数をあれこれいじく…

prefetch すらっと落とす SRA

こんにちは、久保(kubor)です。 先日転んだ時に頭を打ったので、それがきっかけで、僕に異常な言動がないかhatさんに確認してもらったのですが、 「打つ前から変わらずに変なことを言ってるよ。」 とのことでした。ひどい。 そんなhatさんが「すら(SRA)…

heatmapの横に色をつけるオプション

heatmap関数のRowSideColors/ColSideColorsオプションの紹介です。 gplotsパッケージのheatmap.2やheatmap3パッケージでも同様の機能があります。 ヒートマップのデンドログラムの横に、カラフルなサイドバーを付ける機能です。 テスト用のマトリクスを作り…

役員変更のお知らせ

この度、弊社は2015年6月8日をもちまして、下記の通り役員の変更がございましたのでお知らせいたします。 今後も、生命科学の課題解決に最適なITソリューションを提供する「プロフェッショナルチーム」としてお客様の研究のお役に立てますよう、役員並びに従…

ChemmineRを使ってみよう【4】

ChemmineRの紹介連載4回目です。 前回は、ChemmineOBというパッケージを使って化合物のPubChem fingerprintを取得しました。 今回では、そのfingerprintを使って、類似比較・クラスタリング解析を行います。 fingerprintによる類似検索 fpset[1]と類似したも…

ChemmineRを使ってみよう【3】

前回までで、SDFデータの読み込みと、データのvalidationをご紹介しました。 今回は、読み込んだ化合物のfingerprint/atom pair descriptorを取得する方法です。 SDFsetからfingerprint/atom pair descriptorへの変換には、ChemmineOBという新しいパッケージ…

My Favorite Things

みなさん、好きなPerlの演算子はなんですか? 私は、qw演算子が好きです。でも、「1..100と書くと、1から100までの整数を指すアレ」はもっと好きです。 これ(..)の名前を今日初めて知りましたが、「範囲演算子」と言うそうです。 これ(..)に名前があるな…

fastaの折り返し位置を変える

東京はすっかり夏の日差しです。 夏好きとしては今年も夏が来るのは嬉しいのですが、無防備に紫外線を浴び続けたつけが着実に肌に出てきています。いい美白ケア法がないか気になる今日この頃です。 fastaフォーマットの配列行は一般的に80文字未満で折り返す…

ゾンビパンデミック

突然ですが、ゾンビが発生したらどうしますか? 今年3月にアメリカ物理学会で発表されたシミュレーション結果によると、ゾンビが蔓延した時はひと気の少ないところに逃げるのが最も安全だそうです。 「ゾンビサバイバルガイド」でも、都市部は避けるべきだと…

ChemmineRを使ってみよう【2】

ChemmineRの紹介記事2回目、前回はパッケージのインストールとSDFファイルの取得(読み込み)の方法をご紹介しました。 今回は、取得した読み込んだデータのアクセス方法と、SDFデータの確認方法をご紹介します。 前回は、CIDからgetIds関数で、またはSDFフ…

すら(SRA)っとクイック(Q)に変換

NCBI SRAからダウンロードしたファイルがsraフォーマットの場合、以下のコマンドでまとめてfastqに変換すると便利です。 $ find . -name '*.sra' -exec fastq-dump {} ¥; fastq-dumpについては NCBI SRA Toolkitの使い方 も、findコマンドについては findの-…

ChemmineRを使ってみよう【1】

ChemmineRというパッケージの使い方をご紹介します。 オンラインでケモインフォマティクス解析を行えるChemMine ToolsというツールのRパッケージです。 ぱっと見て「けみなー」と読みましたが、もともとのツールがChemMineなので、「けむ・まいなー」と読む…

渋谷の真ん中で刃物を振り回す

先日、社内でお昼を食べながら 「どうして遺伝子間領域にあるSNVより遺伝子上にあるSNVを気にするのか」という話をしていて、 渋谷の交差点で刃物を振り回したら大変なことになるけど、大砂漠の真ん中で振り回しても大した害はないでしょ? とドヤ顔で説明し…

or dieよりもautodieがナウい

こんにちは、朝ごはんはパン派の久保(kubor)です。 みなさん、Perl書いてますか? 文字列処理が得意なPerlの使いドコロといえば、FASTQファイルを処理したり、TSVファイルを処理したり、とにかくファイル操作が多いです。 Perlでは、ファイルハンドルの作…

全部ぶちまける前に

五月になり、GWも終わって、世間の新歓ムードも落ち着いてきました。 自分が学生や新社会人だった頃を思い返すと、この時期はお酒を飲んでいろいろなもの(暴言や未消化の食物)を口から出していた思い出ばかりです。 そのような記憶を胆汁の味とともに苦々…

書き込み権限の無いファイルをsudoで上書き保存する

こんにちは、根は真面目な、久保(kubor)です。 みなさん、Vim使ってますか? vimでファイルを編集し終わって、よし、保存しようと思い、 :w E45: 'readonly' オプションが設定されています (! を追加で上書き) 「ああああ、sudo vimしてない」てなことが結…

<バイオインフォマティクス講習会@神戸>Bio-Linux 8のインストールに関する補足情報

先日ご案内いたしました5月20日の講習会では、仮想環境を 事前インストールしていただくことでLinuxを体験しながら 受講することができます! 環境構築に当たりまして、インストールの詳細な手順を記載している資料を補足情報としてご案内いたします。 こち…

バイオインフォマティクス講習会@神戸「アメリエフのバイオインフォマティクストレーニングを体験」開催のお知らせ

5月20日に開かれるバイオインフォマティクス講習会のご案内です。 《内容》 アメリエフで提供している「トレーニング」をたくさんの方に知っていただくため、トレーニングを体験できる講習会を企画いたしました。 お手持ちのPC(Mac / Linux)でNGS 解析を始…

RepeatMaskerViz.トラックがかっこいい

UCSC Genome Browserの「GRCh38/hg38」にかっこいいトラックを見つけたのでご紹介します。 「RepeatMasker Viz.」というトラックです。 下図の上がRepeatMaskerトラック、下がRepeatMasker Viz.トラックです。 RepeatMasker Viz.はRepeatMaskerを視覚的に表…

fastqのIDの書式の話

ある公開されているexomeデータのfastqファイルをダウンロードして解析しようとしたところ、うまくいきませんでした。 最初は何が何だかわからず困っていたのですが、fastqファイルを確認するとID行の書式がよく見かけるものと違いました。 例として、最初の…

一部のデータだけ抜き出す

Rで解析をしていると、データフレーム(やマトリクスやベクトル)から、条件を満たすデータだけを抜き出したいことがよくあります。 そんなときはsubset関数を使います。 例として、みんな大好きirisを使います。 > head(iris) Sepal.Length Sepal.Width Pet…

heatmap.2のlmatオプション

Rにはデフォルトでもヒートマップを作成するheatmap関数がありますが、私はheatmap関数より多機能なgplotsパッケージのheatmap.2関数をよく使います。 基本的な使い方はheatmap関数と同じです。 gplotsパッケージをインストールしていない場合はインストール…

あとはまかせない

以前、atコマンドを使うと時間差でコマンドが実行できて便利だという記事(あとはまかせた!)を書きました。 atコマンドはとても便利で普段から活用しているのですが、仕掛けたタスクをとりけしたい場合もあると思います。 そんな時は、「at -l」で仕掛けた…

社内研修

先週の金曜日は社内研修でした。 今回は、社員が企画を担当しました。 マーケティングチームが「見積もりシミュレーション」や「商品のキャッチフレーズを考えよう」というグループワークを行ったり、新入社員と入社二年目組が「入社後半年の振り返り」や「…

はじめまして

2015年度入社のonouekと申します。 簡単に自己紹介をしたいと思います。 出身は、静岡県の浜松市です。 私は、先月に修士課程を修了しました。 大学院では、行動薬理学を用いて、記憶や情動の研究をしていました。 バイオインフォマティシャンとして一人前に…