アメリエフの技術ブログ

Amelieff Staff Blog

2015-01-01から1年間の記事一覧

ファイルのコピーに失敗するときは転送速度を落としてみる

こんにちは、久保(kubor)です。 少し前からオフィスの近くで大阪風のお好み焼きを提供するお店を探しているのですが、どうも広島風の赤いお店が多い気がします。外付けHDDからのコピーに失敗することがある ところで、弊社では日々お客様からのデータを受け…

Chromeで開いてる全てのタブのタイトルとURLをMarkdown形式で取得する

こんにちは、雪のようなくちどけを経験できなかった青春時代は、アニメや漫画で上書きすればいいと思っている久保(kubor)です。 メルティーキッス くちどけラム&レーズンすごく美味しい! いつのまにかChromeのタブが増える さて、バイオインフォマティシ…

Google日本語入力なら矢印の入力が簡単

こんにちは、久保(@kubor_)です。 スマートフォンのバイブモーターが経年劣化のためか、軸ブレしており、ギュイーンギュイーン鳴ってしまうんですが、買い替えどきでしょうか。ウェイトの偏りが振動を生みます正常なバイブモーターであれば、軸がブレず、…

バイオインフォマティシャンでも、pecoがしたい!

先日、ついに日比谷線を利用しました、久保(kubor)です。 先日pecoが話題になっていた傍ら、社内ではなかなか広まらずに、寂しい思いをしているので、バイオインフォマティシャンにもおすすめの使い方を紹介いたします。 0. pecoってなに 標準入力で受け取…

IGVから配列を取得する

IGVのちょっと便利な機能に気づいたのでご紹介します。 ゲノム上の目的の領域の配列を、IGVだけを使って取得してみましょう。 IGVのバージョンは2.3.3で確認しました。 1. BEDで指定したfeatureの配列を取得する ChIP-seq解析で出力したピーク(BED形式)上…

TopHat-Fusionの結果の見方

TopHat-Fusionは、マッピングソフトのTopHatから派生した機能で、融合遺伝子を検出するのに広く使われています。 TopHat-Fusionを実行すると、fusions.outという候補となるポジションやリード数などの情報が出力されます。fusion.outの説明は、NGS Surfer's …

cpコマンドの進捗状況をチェックする

コピー中にあとどれくらいか知りたい時があるんです、 特に`cp -v`を忘れた時に有用 Xfennec/progress 調べたら、こちらのprogressを使うと簡単にできますダウンロード$ git clone https://github.com/Xfennec/progress.git Initialized empty Git repositor…

ヘビーな夏

弊社が一部講義を担当した平成27年度NGSハンズオン講習会のアンケート結果を、事務局のかたから送っていただきました。 私が担当したSh、Perl、Pythonに関しては、「易しいと思っていたらいきなり最終課題が難しくなった」というご意見が多かったです。 実は…

どの括弧が閉じているのかよく分かるVimの設定

京都支店に居た頃、鴨川でサンドウィッチを食べているところをトンビに襲われ、出血したことがある久保(kubor)です。 Vimを使っていて、コーディング中、 括弧が重なって困るなら、対応する括弧をハイライトしましょう。 もしくは対応する括弧へカーソルを…

どんな改行コードでも・後

前回に引き続き改行コードの処理の話です。 今回はPerl・Pythonのなかでどう扱うか、コード例を挙げて説明します。 perlの例 行末の「¥n」はchompで取り除くことができます。それ以外は正規表現を使うと簡単と思います。 open IN,"file.txt" or die "$!";whi…

どんな改行コードでも・前

弊社のトレーニングやNGSハンズオン講習会などでPerlやPythonに触れた方は「『¥n』で行の末尾を示す」と聞いたことがあると思います。 『¥n』はLine Feed、LFとも呼び、LinuxまたはMac OS Xで使われる改行コードです。改行コードはOSの種類やバージョン、ソ…

Somatic SNV検出編

2014年6月21日に開催した、アメリエフ株式会社・第33回バイオインフォマティクス勉強会の「フリーソフトではじめるがん体細胞変異解析入門」のスライドをSlideShareにて公開いたしました。 主に、ブログでもご紹介したことがあるソフトウェアSomaticSniperを…

Pythonでgzipされたテキストファイルをcsvモジュールで読み込む

gzip圧縮されたファイルをPythonで読み込むときには、少し注意が必要です。 例として、手元に偶然あった魔法の言葉が書かれたタブ区切りテキストファイルを使用してみます。 zcat supercalifragilisticexpialidocious.txt.gzsuper cali fragilistic expia li…

シェル芸

hatです。 先日、jus & USP友の会さんのシェル芸勉強会に参加してきました。 シェル芸は、USP友の会会長上田さんのブログで次のように定義されています。 「マウスも使わず、ソースコードも残さず、GUIツールを立ち上げる間もなく、あらゆる調査・計算・テキ…

Pythonを書くときに、タブじゃなくてスペースでインデントする

こんにちは。 先日、金さん(kimk)がお土産で買ってきてくださった栗羊羹があまりに美味しかったので、いっそ羊羹をまとめ買いするかどうか、悩んでいる久保(kubor)です。 羊羹のまとめ買いで悩む方が読者にいるかどうかはわかりませんが、プログラムを書…

Pythonでタブ区切りテキストの読み込み

世の中には、2種類の人間がいる。タブ区切りテキストを使う人と、使わない人だ。こんにちは、タブ区切りテキストを使う人、久保(kubor)です。Pythonでタブ区切りテキストを読み込むときは、csvライブラリが便利です。標準ライブラリなので環境依存をそれほ…

重複値の削除や抽出

Rで、ベクトルなどに含まれる重複した値をユニークにしたいとき、unique()を使用します。 > a [1] "AAA" "BBB" "CCC" "AAA" > unique(a) [1] "AAA" "BBB" "CCC" linuxコマンドの、隣り合っている重複行をユニークにするuniqコマンドとよく混同して、uniqと書…

Excelの1セルにコンマ区切り文字列を入れる

解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。 例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。 …

Vimで不可視文字を表示させる方法

こんにちは、まだ都営三田線に乗ったことがない久保(kubor)です。先日CentOS6.7がリリースされましたね。個人的に、Vim7.4に対応したのが嬉しいです。嬉しいので、VimのTipsを書かせてください。「Vimで不可視文字を表示させる方法」です。Vimに限らず、テ…

seq2pathwayでアノテーション(後)

Bioconductorのseq2pathwayパッケージを使ってパスウェイのアノテーションを行います。 ※seq2pathwayのインストールはこちらの記事をご覧ください。 seq2pathwayパッケージに含まれているテストデータを使ってテストしてみましょう。 library(seq2pathway) d…

seq2pathwayでアノテーション(前)

ChIP-seqやRIP-seqでピークが得られた後は、遺伝子をアノテーションしたり、それらの遺伝子がどんなパスウェイに関連するか調べたりしたいですね。 Bioconductorのパッケージseq2pathwayを使って、ゲノム領域に遺伝子をアノテーションしたり、遺伝子にパスウ…

「次世代シークエンサ(NGS)ハンズオン講習会」参加者追加募集のお知らせ

昨年に引き続き、「平成27年度NGSハンズオン講習会」にて一部の講義でアメリエフ社員が講師を勤めさせていただいております。 この度、B日程(2015年8月26日(水)〜8月28日(金)の3日間)につきまして、追加で受講の申込を受付けることとなりましたので、お知…

四半期研修

アメリエフでは四半期ごとに社内研修を行います。 7月中に行事などが立て込んでいたため時期がずれ込んでしまいましたが、上半期が終わったので八月の頭に研修を行いました。 スイカを食べながら、これまでを振り返ったり、今後の見通しや予定の話しました。…

NGSハンズオン講習会

7月22日(水) から次世代シーケンサ(NGS)ハンズオン講習会が開催されています。 本講習会は、バイオサイエンスデータベースセンター(NBDC)の主催で、NGS解析を学びたい方を対象に行われており、弊社からは講師として2名、TAとして2名が参加しています。 今週…

ヘッダに注意

バイオインフォには関係ないのですが、少しつまづいたことです。 ReactomePAを使っています。 hatさんがかかれた紹介記事では、enrichPathway()でエンリッチされているパスウェイを取得した結果を棒グラフに描画していますが、summary()することでデータフレ…

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。 GFF(General Feature Format)はゲノムの配列に関…

Python デバッグ

Pythonに限った話ではありませんが、一生懸命プログラムを書いて、いざ実行すると、いくつものバグに遭遇します。エラーが出る、あるいは、エラーは出ないのに、プログラムが意図したとおりに動いてくれないということも。 こういう場合、きっとどこかで条件…

無害なメッセージと有害なメッセージ

hatです。私は昔から自分の体調を気にしすぎてしまうところがあります。 頭が痛いといっては脳腫瘍を疑い、お腹が痛いといっては盲腸を疑い、指のささくれが膿んだといっては指が壊死するのではないかと悶々とし、しかし結果的には何でもなくてここまで元気…

chimerascanで融合遺伝子を検出する

融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。 TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。 1. アノテーションデータの準備 ・UCS…

BED、VCFをスッキリと染色体番号順にソートする方法

こんにちは、あんドーナツ好きで有名な久保(kubor)です。 ブログのネタを日頃から探しているのですが、なかには、過去に先輩が取り上げていそうで、意外にも紹介していない話題が結構あります。 例えば、sortコマンド。 このコマンドは、言わずと知れた基…