今日は、SNPジェノタイピングとマイクロアレイを結合させるExpression-QTL解析(eQTL)を行います。
1.サンプルデータを用意します
遺伝子発現量が一定レベル以上の発現マーカーを対象に解析を行います。
2.MAPファイルを作成します
発現マーカーごとのMAPファイルを作成します。
発現マーカーの前後数kbの領域に含まれるSNP一覧のファイルです。
3.PEDファイルを作成します
発現マーカーごとのPEDファイルを作成します。
QTL解析では、affection statusカラムにコントロールorケースの情報を入力しました。
eQTL解析では、affection statusカラムに遺伝子発現量を入力します。
縦にサンプル、横に発現マーカーのSNPが並びます。
4.いよいよ解析です
plink --file exp --assoc --out arg
画面にファイルデータの詳細が表示されますので、意図どおりに認識されているかチェックしてください。
arg.qassocというファイルが出来上がります。
カラム数は9つで
Chr Chromosome number
SNP SNP identifier
BP Physical position (base-pair)
NMISS Number of non-missing genotypes
BETA Regression coefficient
SE Standard error
R2 Regression r-squared
T Wald test (based on t-distribtion)
P Wald test asymptotic p-value
です。
4ステップで、1つの発現マーカーに対する解析を行いました。
実際には、複数の発現マーカー(約2万)を対象に解析を行うことになるので、Perlでプログラミングすることで自動化しています。
すべてのマーカーを対象にMAPファイルを作成しeQTL解析する方法もありますが、膨大な計算時間がかかります。
例えば、計算時間20秒/マーカー → 2万マーカーで約111時間の計算時間がかかります。(弊社サーバーの場合)
事前に全ゲノムのeQTL解析をしておき、データベース化することで必要に応じて検索することもできます。
【参考】
・PLINKマニュアル(Quantitative trait association)
http://pngu.mgh.harvard.edu/~purcell/plink/anal.shtml#qt