アメリエフの技術ブログ

Amelieff Staff Blog

【シングルセル解析】クオリティコントロールの概要【QC】

こんにちは、受託コンサルティングチームの hosor です。


シングルセル解析におけるクオリティコントロール (QC) は、解析・解釈の精度を高める上で重要なステップです。

今回は、10x Genomics 社の以下の記事を参考にしつつ、QC の概要について書いていこうと思います。

www.10xgenomics.com


一般的なフィルタリング

Seurat, Scanpy などで最初に実施する一般的な方法です。

以下のようなバイオリンプロットを描画し、主に 3 つの指標に基づいてフィルタリングを行います。

https://satijalab.org/seurat/articles/pbmc3k_tutorial より抜粋

  • nFeature_RNA
    • 検出された遺伝子数を表します。
    • 極端に少ない場合・極端に多い場合は実験的なエラーが疑われます。
  • nCount_RNA
    • 検出された転写産物数を表します。
    • nFeature_RNA と同様に、極端に少ない場合・極端に多い場合は実験的なエラーが疑われます。
  • percent.mt
    • ミトコンドリア RNA の割合を表します。
    • 極端に高い場合は死細胞であることが疑われます。

※ 他にも、リボソーム遺伝子や、ヘモグロビン遺伝子を考慮することもあります。

経験上、いわゆる「綺麗な」バイオリンプロットになるように、外れ値をフィルタリングするケースが多いです。

ただし、データの性質に合わせて、基準値を柔軟に設定する必要があります*1

ツールによるフィルタリング

Doublet

本来は 1 つの細胞が捉えられるべきですが、誤って 2 つ以上の細胞が捉えられてしまった状態のことを指します。

先ほど記載した nFeature_RNA, nCount_RNA を見ることで除外できますが、DoubletFinder のようなツールで予測することも可能です。

なおDoubletFinderについては、以下の論文で 9 つの方法が比較されており、DoubletFinder method has the best detection accuracy と述べられています。

www.cell.com

Empty droplet

Doublet とは逆に、細胞が 1 つも捉えられていない状態のことを指します。

こちらも nFeature_RNA, nCount_RNA を見ることで除外できますが、CellBender のようなツールで除外することもできます。

Ambient RNA

ダメージを受けた細胞から溶出した RNA のような、いわゆる「コンタミの RNA」 のことを指します。

これを含んだ細胞の発現パターンは歪んでしまう可能性があるため、SoupX や CellBender で除外することが一般的です。

Empty droplet と Ambient RNA については、以下の記事でもまとめられているので、参考にしてみてください。

www.10xgenomics.com

最後に

色々と書きましたが、絶対的な方法はないため、いくつかの QC パターンを試していただくことをおすすめします。

また、むやみに QC を行うと、目的とする細胞集団が除外されてしまったり、以降の解析が実施できなくなる可能性もあるため、注意が必要です。

フィルタリングは経験が問われる難しい作業です。データのクオリティに関するお困りごとがございましたら、ぜひアメリエフにご相談ください。

シングルセルRNA-seq解析キャンペーン

*1:例えば、できるだけクオリティの高い細胞のみで解析を行いたい場合には、フィルタリングを厳しく設定するといった考え方です。