アメリエフの技術ブログ

Amelieff Staff Blog

ChemmineRを使ってみよう【1】

ChemmineRというパッケージの使い方をご紹介します。
オンラインでケモインフォマティクス解析を行えるChemMine ToolsというツールのRパッケージです。
ぱっと見て「けみなー」と読みましたが、もともとのツールがChemMineなので、「けむ・まいなー」と読むのでしょう。

連載で、公式のマニュアルにある「Five Minute Tutorial」から一部と、PubChem fingerprintを使った解析の一部を簡単に説明いたします。


インストールと読み込み
Bioconductorに登録されています。
source("http://bioconductor.org/biocLite.R")
biocLite("ChemmineR")
library(ChemmineR)

SDF(Structure data format)ファイルの取得
解析を始める前に、解析したい化合物の情報が必要です。化合物のCID(PubChem ID)か、SDFファイルを使って解析します。

解析したい化合物のCIDのリストから始める場合は、getIds関数でSDFの情報を取得します。getIdsには用意したCIDのベクトルを与えます。少し時間がかかると思います。
sdfset <- getIds(c(650001,650002,650003,650004,650005,650006,650007,650008,650009,650010))
取得したSDFデータは念のためファイルに書き出しておくと、同じ化合物を繰り返し解析するときに便利だと思います。
write.SDF(sdfset, file="sub.sdf", sig=TRUE, cid=TRUE, db=NULL)
書き出したファイルの読み込みは以下の通りです。CIDではなく、SDFファイルを用意した人も、同様にSDFファイルを読み込むことができます。
sdfset <- read.SDFset("your_file.sdf")
データがない場合はパッケージのサンプルデータを使います(今回例で用いているものと同じです)。
data(sdfsample)
sdfset<-sdfsample[1:10]
次は読み込んだSDFファイルの重複や有効性の確認方法をご紹介します。