読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

重複値の削除や抽出

Rで、ベクトルなどに含まれる重複した値をユニークにしたいとき、unique()を使用します。 > a [1] "AAA" "BBB" "CCC" "AAA" > unique(a) [1] "AAA" "BBB" "CCC" linuxコマンドの、隣り合っている重複行をユニークにするuniqコマンドとよく混同して、uniqと書…

Excelの1セルにコンマ区切り文字列を入れる

解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。 例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。 …

Vimで不可視文字を表示させる方法

こんにちは、まだ都営三田線に乗ったことがない久保(kubor)です。 先日CentOS6.7がリリースされましたね。 個人的に、Vim7.4に対応したのが嬉しいです。 嬉しいので、VimのTipsを書かせてください。 「Vimで不可視文字を表示させる方法」です。 Vimに限ら…

seq2pathwayでアノテーション(後)

Bioconductorのseq2pathwayパッケージを使ってパスウェイのアノテーションを行います。 ※seq2pathwayのインストールはこちらの記事をご覧ください。 seq2pathwayパッケージに含まれているテストデータを使ってテストしてみましょう。 library(seq2pathway) d…

seq2pathwayでアノテーション(前)

ChIP-seqやRIP-seqでピークが得られた後は、遺伝子をアノテーションしたり、それらの遺伝子がどんなパスウェイに関連するか調べたりしたいですね。 Bioconductorのパッケージseq2pathwayを使って、ゲノム領域に遺伝子をアノテーションしたり、遺伝子にパスウ…

「次世代シークエンサ(NGS)ハンズオン講習会」参加者追加募集のお知らせ

昨年に引き続き、「平成27年度NGSハンズオン講習会」にて一部の講義でアメリエフ社員が講師を勤めさせていただいております。 この度、B日程(2015年8月26日(水)〜8月28日(金)の3日間)につきまして、追加で受講の申込を受付けることとなりましたので、お知…

四半期研修

アメリエフでは四半期ごとに社内研修を行います。 7月中に行事などが立て込んでいたため時期がずれ込んでしまいましたが、上半期が終わったので八月の頭に研修を行いました。 スイカを食べながら、これまでを振り返ったり、今後の見通しや予定の話しました。…

NGSハンズオン講習会

7月22日(水) から次世代シーケンサ(NGS)ハンズオン講習会が開催されています。 本講習会は、バイオサイエンスデータベースセンター(NBDC)の主催で、NGS解析を学びたい方を対象に行われており、弊社からは講師として2名、TAとして2名が参加しています。 今週…

ヘッダに注意

バイオインフォには関係ないのですが、少しつまづいたことです。 ReactomePAを使っています。 hatさんがかかれた紹介記事では、enrichPathway()でエンリッチされているパスウェイを取得した結果を棒グラフに描画していますが、summary()することでデータフレ…

フォーマットもいろいろ

バイオインフォマティクスでは多くのファイル形式が使われますが、GFFとGTFは名前も似ていてややこしいですね。ということで、今回はGFFとGTFの違いに触れながら、フォーマットの説明をしたいと思います。 GFF(General Feature Format)はゲノムの配列に関…

Python デバッグ

Pythonに限った話ではありませんが、一生懸命プログラムを書いて、いざ実行すると、いくつものバグに遭遇します。エラーが出る、あるいは、エラーは出ないのに、プログラムが意図したとおりに動いてくれないということも。 こういう場合、きっとどこかで条件…

無害なメッセージと有害なメッセージ

hatです。私は昔から自分の体調を気にしすぎてしまうところがあります。 頭が痛いといっては脳腫瘍を疑い、お腹が痛いといっては盲腸を疑い、指のささくれが膿んだといっては指が壊死するのではないかと悶々とし、しかし結果的には何でもなくてここまで元気…

chimerascanで融合遺伝子を検出する

融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。 TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。 1. アノテーションデータの準備 ・UCS…

BED、VCFをスッキリと染色体番号順にソートする方法

こんにちは、あんドーナツ好きで有名な久保(kubor)です。 ブログのネタを日頃から探しているのですが、なかには、過去に先輩が取り上げていそうで、意外にも紹介していない話題が結構あります。 例えば、sortコマンド。 このコマンドは、言わずと知れた基…

6月26日(金)全社研修による休業のお知らせ

平素よりアメリエフ株式会社のサービスをご利用頂きまして、誠にありがとうございます。 全社研修による休業のお知らせです。 【休業期間】 2015年6月26日(金)12:00〜18:00 【営業開始】 2015年6月29日(月)より通常営業 お問い合わせにつきましては、6月29…

Pythonとくんずほぐれつ

hatです。 平成27年度NGSハンズオン講習会で使用するPythonの資料を作っています。 人に教えるとなると改めてPythonを基本から学ぶ必要があり、土日もPythonの参考書やCodecademyで勉強している今日この頃です。 根を詰めすぎて逃避したくなったのか、あるい…

paste関数を使う

短い間ですが、弊社のトレーニングのTAを担当させていただいていた時期があります。 RのTAをやるなかで、とても便利なのに、初めてRに触れる方が戸惑われることが多いと感じたポイントのひとつに paste 関数があります。 今回は paste 関数をあれこれいじく…

prefetch すらっと落とす SRA

こんにちは、久保(kubor)です。 先日転んだ時に頭を打ったので、それがきっかけで、僕に異常な言動がないかhatさんに確認してもらったのですが、 「打つ前から変わらずに変なことを言ってるよ。」 とのことでした。ひどい。 そんなhatさんが「すら(SRA)…

heatmapの横に色をつけるオプション

heatmap関数のRowSideColors/ColSideColorsオプションの紹介です。 gplotsパッケージのheatmap.2やheatmap3パッケージでも同様の機能があります。 ヒートマップのデンドログラムの横に、カラフルなサイドバーを付ける機能です。 テスト用のマトリクスを作り…

役員変更のお知らせ

この度、弊社は2015年6月8日をもちまして、下記の通り役員の変更がございましたのでお知らせいたします。 今後も、生命科学の課題解決に最適なITソリューションを提供する「プロフェッショナルチーム」としてお客様の研究のお役に立てますよう、役員並びに従…

ChemmineRを使ってみよう【4】

ChemmineRの紹介連載4回目です。 前回は、ChemmineOBというパッケージを使って化合物のPubChem fingerprintを取得しました。 今回では、そのfingerprintを使って、類似比較・クラスタリング解析を行います。 fingerprintによる類似検索 fpset[1]と類似したも…

ChemmineRを使ってみよう【3】

前回までで、SDFデータの読み込みと、データのvalidationをご紹介しました。 今回は、読み込んだ化合物のfingerprint/atom pair descriptorを取得する方法です。 SDFsetからfingerprint/atom pair descriptorへの変換には、ChemmineOBという新しいパッケージ…

My Favorite Things

みなさん、好きなPerlの演算子はなんですか? 私は、qw演算子が好きです。でも、「1..100と書くと、1から100までの整数を指すアレ」はもっと好きです。 これ(..)の名前を今日初めて知りましたが、「範囲演算子」と言うそうです。 これ(..)に名前があるな…

fastaの折り返し位置を変える

東京はすっかり夏の日差しです。 夏好きとしては今年も夏が来るのは嬉しいのですが、無防備に紫外線を浴び続けたつけが着実に肌に出てきています。いい美白ケア法がないか気になる今日この頃です。 fastaフォーマットの配列行は一般的に80文字未満で折り返す…

ゾンビパンデミック

突然ですが、ゾンビが発生したらどうしますか? 今年3月にアメリカ物理学会で発表されたシミュレーション結果によると、ゾンビが蔓延した時はひと気の少ないところに逃げるのが最も安全だそうです。 「ゾンビサバイバルガイド」でも、都市部は避けるべきだと…

ChemmineRを使ってみよう【2】

ChemmineRの紹介記事2回目、前回はパッケージのインストールとSDFファイルの取得(読み込み)の方法をご紹介しました。 今回は、取得した読み込んだデータのアクセス方法と、SDFデータの確認方法をご紹介します。 前回は、CIDからgetIds関数で、またはSDFフ…

すら(SRA)っとクイック(Q)に変換

NCBI SRAからダウンロードしたファイルがsraフォーマットの場合、以下のコマンドでまとめてfastqに変換すると便利です。 $ find . -name '*.sra' -exec fastq-dump {} ¥; fastq-dumpについては NCBI SRA Toolkitの使い方 も、findコマンドについては findの-…

ChemmineRを使ってみよう【1】

ChemmineRというパッケージの使い方をご紹介します。 オンラインでケモインフォマティクス解析を行えるChemMine ToolsというツールのRパッケージです。 ぱっと見て「けみなー」と読みましたが、もともとのツールがChemMineなので、「けむ・まいなー」と読む…

渋谷の真ん中で刃物を振り回す

先日、社内でお昼を食べながら 「どうして遺伝子間領域にあるSNVより遺伝子上にあるSNVを気にするのか」という話をしていて、 渋谷の交差点で刃物を振り回したら大変なことになるけど、大砂漠の真ん中で振り回しても大した害はないでしょ? とドヤ顔で説明し…

or dieよりもautodieがナウい

こんにちは、朝ごはんはパン派の久保(kubor)です。 みなさん、Perl書いてますか? 文字列処理が得意なPerlの使いドコロといえば、FASTQファイルを処理したり、TSVファイルを処理したり、とにかくファイル操作が多いです。 Perlでは、ファイルハンドルの作…

全部ぶちまける前に

五月になり、GWも終わって、世間の新歓ムードも落ち着いてきました。 自分が学生や新社会人だった頃を思い返すと、この時期はお酒を飲んでいろいろなもの(暴言や未消化の食物)を口から出していた思い出ばかりです。 そのような記憶を胆汁の味とともに苦々…

書き込み権限の無いファイルをsudoで上書き保存する

こんにちは、根は真面目な、久保(kubor)です。 みなさん、Vim使ってますか? vimでファイルを編集し終わって、よし、保存しようと思い、 :w E45: 'readonly' オプションが設定されています (! を追加で上書き) 「ああああ、sudo vimしてない」てなことが結…

<バイオインフォマティクス講習会@神戸>Bio-Linux 8のインストールに関する補足情報

先日ご案内いたしました5月20日の講習会では、仮想環境を 事前インストールしていただくことでLinuxを体験しながら 受講することができます! 環境構築に当たりまして、インストールの詳細な手順を記載している資料を補足情報としてご案内いたします。 こち…

バイオインフォマティクス講習会@神戸「アメリエフのバイオインフォマティクストレーニングを体験」開催のお知らせ

5月20日に開かれるバイオインフォマティクス講習会のご案内です。 《内容》 アメリエフで提供している「トレーニング」をたくさんの方に知っていただくため、トレーニングを体験できる講習会を企画いたしました。 お手持ちのPC(Mac / Linux)でNGS 解析を始…

RepeatMaskerViz.トラックがかっこいい

UCSC Genome Browserの「GRCh38/hg38」にかっこいいトラックを見つけたのでご紹介します。 「RepeatMasker Viz.」というトラックです。 下図の上がRepeatMaskerトラック、下がRepeatMasker Viz.トラックです。 RepeatMasker Viz.はRepeatMaskerを視覚的に表…

fastqのIDの書式の話

ある公開されているexomeデータのfastqファイルをダウンロードして解析しようとしたところ、うまくいきませんでした。 最初は何が何だかわからず困っていたのですが、fastqファイルを確認するとID行の書式がよく見かけるものと違いました。 例として、最初の…

一部のデータだけ抜き出す

Rで解析をしていると、データフレーム(やマトリクスやベクトル)から、条件を満たすデータだけを抜き出したいことがよくあります。 そんなときはsubset関数を使います。 例として、みんな大好きirisを使います。 > head(iris) Sepal.Length Sepal.Width Pet…

heatmap.2のlmatオプション

Rにはデフォルトでもヒートマップを作成するheatmap関数がありますが、私はheatmap関数より多機能なgplotsパッケージのheatmap.2関数をよく使います。 基本的な使い方はheatmap関数と同じです。 gplotsパッケージをインストールしていない場合はインストール…

あとはまかせない

以前、atコマンドを使うと時間差でコマンドが実行できて便利だという記事(あとはまかせた!)を書きました。 atコマンドはとても便利で普段から活用しているのですが、仕掛けたタスクをとりけしたい場合もあると思います。 そんな時は、「at -l」で仕掛けた…

社内研修

先週の金曜日は社内研修でした。 今回は、社員が企画を担当しました。 マーケティングチームが「見積もりシミュレーション」や「商品のキャッチフレーズを考えよう」というグループワークを行ったり、新入社員と入社二年目組が「入社後半年の振り返り」や「…

はじめまして

2015年度入社のonouekと申します。 簡単に自己紹介をしたいと思います。 出身は、静岡県の浜松市です。 私は、先月に修士課程を修了しました。 大学院では、行動薬理学を用いて、記憶や情動の研究をしていました。 バイオインフォマティシャンとして一人前に…

公開データベース活用編

2015年2月14日に開催した第41回バイオインフォマティクス勉強会、および21日に開催した第42回バイオインフォマティクス勉強会の「フリーソフトではじめるNGS解析入門〜Exomeシーケンスからクリニカルシーケンスまで〜」の資料を、一部修正して、「公開データ…

お花見メタゲノムに参加します!

東京に開花予想が出た頃、お花見メタゲノムプロジェクトの採取キットが届きました! 個人で参加するので解析まではお手伝いできないかもしれませんが、これを機にメタゲノム解析について少しでも勉強できればいいなと思っています。 サンプルの採取場所は、…

春ですね

冷え性の私は、春が来て暖かくなって過ごしやすくなったとのんきに浮かれていますが、花粉症のひとは苦しそうです。と、他人事のように言っていますが、実は私も目がかゆいです。 とまあ良いことばかりじゃありませんが、やはり春の訪れは気分が浮き立ちます…

RSQLite依存パッケージインストールのエラーについて

ある環境で使用していたとあるBioconductorパッケージを、別の環境でも使うためインストールしようとしたらエラーが出ました。 具体的にはggbioとbiovizBase、他にもhatさんご紹介のReactomePAもダメでした。 エラー文を見てみると、「RSQLite」パッケージの…

ReactomePAを使ってみた

パスウェイデータベースReactomeをRから操作できるBioconductorパッケージ、ReactomePAを使ってみました。 インストール > source("http://bioconductor.org/biocLite.R") > biocLite("ReactomePA") テスト実行 > library(ReactomePA) > library(DOSE) > dat…

事例紹介ページが更新されました

昨年末のホームページリニューアル以来お待たせしておりました事例紹介のページが更新されました。 ソフトウェア開発の実例2件を掲載させていただいております。どちらも実際の開発内容・期間や、解析担当者の感想、開発の流れも簡単に紹介しております。 一…

UniAnno 販売開始キャンペーン!

ヒトゲノム変異に対して一括して公開データベースのアノテーションを 付与する自社開発ソフト「UniAnno」を販売開始いたしました! ★キャンペーンチラシはこちら 《概要》 UniAnno(Universal Annotation Software)は、 疾患関連変異の探索を効率よく行うた…

bamにread groupを追記する

GATKは、BAMのフォーマットに厳しく(参照ページ)、たとえばヘッダにサンプル名を含むread groupのリストがあり、かつすべてのリードがそのread groupに属しているBAMしか受け付けません。 Read group(以下RG)は、たとえばBWAではマッピングのときに -R …

物事の関係

以前ビブリオバトルで紹介されていた本を買ったという記事を書きましたが、そういえばその本をご紹介していませんでした。 ヤバい経済学 [増補改訂版] スティーヴン・D・レヴィット/スティーヴン・J・ダブナー (著) 望月衛 (翻訳) 私は経済学については素人…