次世代シーケンシングとバイオインフォマティクス | chapter 9

次世代シーケンシング（Next Generation Sequencing, NGS）は、ランダムに切断された数千万―数億のDNA断片の塩基配列を同時並行的に決定する実験手法です。断片化した1本鎖のDNAに対して、断片の相補鎖を合成しながら決定する手法（SBS, Sequence-by-Synthesis法）によって、塩基配列を決定します。

当初はゲノム配列のハイスループットな解読を目的に作成された手法ですが、読み取り深度を深めることによって頻度の少ない変異や微量DNAの検出や、ChIPアッセイで得られたDNA断片の網羅的配列決定・解析、転写産物の網羅的配列決定・解析など、広く使われています。

次世代シーケンシングは大型の次世代シーケンサーの他、近年ではベンチトップサイズの機器、あるいはハンディタイプの機器などが現れています。それらのすべてについて、機器から出力された塩基配列情報を処理・解析するためのコンピューターが必要です。このため、バイオインフォマティクスについての知識が近年ますます重要となってきています。

ChIP-seqにおけるNGS出力データ分析

一般に、すべてのNGSデータ分析ワークフローは、1次、2次、3次分析に分けられますが、その定義はシーケンシング機器メーカーおよび受託NGS解析業者によって微妙に異なっています。

一次分析では、シーケンシングマシンからSBS法など各社技術により同時並行的に生成される生の読み取り信号のトリミング処理および品質のチェックを行います。

信号を塩基に変換してリード配列とします。一次分析が終了すると、すべてのリード配列を含むリードファイルが生成されます。

二次分析は、主にアラインメントから成り、ここでリード配列は参照ゲノムにマッピングされます。配列決定に加えて、リード配列のマップ上での集積情報を含むピークコールもその後に実行されます。

このように、二次解析によりアライメントファイルと検出されたピークおよび濃縮されたサンプルの部位情報が得られます。多くの受託業者はここまでの分析をシーケンシング業務として請け負うことが多いようです。

三次分析は、通常、研究者が特定の研究課題に対応する分析を行うため、「意味づけ」と呼ばれることがあります。従って、本質的に、三次分析法は多様で特異的であり、各研究ごとに異なる可能性があります。

ChIP-seqデータ解析ワークフロー

分析ワークフローの各フェーズには、データ処理とQCのさまざまなステップが含まれています。次のセクションでは、二次分析から、リードファイルの処理の手順を順を追って説明します。

1.　アラインメント

リードをマッピングするには、通常はBWAが使用されますが、他のツールを使用することも可能です（たとえば、ELAND、TMAP、Bowtie）。通常は豊富なリード量があるため、できるだけ多くのリード配列をアラインメントさせ、ミスアライメントを避けることが重要です。大部分のアラインメントソフトは1〜2のミスマッチしか許容しません。

2.　リード配列の品質管理

FastQCを使用することによって、信頼性の高いリード配列の品質管理を行うことが可能です。一般的な配列の品質、読み取り長さ分布、GC含量、アダプター配列のコンタミネーション、重複読み取りレベルなどを報告するので非常に有益です。リード配列、またはアラインメントの両方で使用できます。

3.　相互相関分析

ENCODEのガイドラインによってCross-correlation profileとして提案されている分析法で、リード配列をゲノム上に配置した後得られるピークのS/N比を計測することが可能です。簡潔に手法を要約すると、この方法は、ゲノムに沿って順および逆鎖のリードをスライドさせます。すると理論的には、リード分布はスライドさせた「ずれ」がフラグメント長のサイズになったところで合致します（すなわち、リード分布はフラグメントの平均長さにほぼ等しい距離で相関します）。この相関の度合いを用いて、サンプルの濃縮レベルの評価をS/N比として行うことが可能です。

4.　ピークコール

ピークコールとは、ゲノムからリード配列が有意に濃縮している箇所を網羅的に同定する作業です。

5.　データセットとアノテーションの特徴付け

3次分析には、ChIP-seqデータセットの品質を制御し、相互に比較するために使用するカスタマイズされた手順が含まれます。また、遺伝子を可視化するため配列のアノテーションを行います。データの比較を行うための重要なパラメータが数多くありますが、これらの数字は、個々にではなく常にデータの意図に対し最適なものを選択する必要があります。

6.　重複分析

ChIP-seqデータセットの品質を評価する際には、上記のパラメータをチェックするだけでなく、2つのデータセットでピーク位置が一致するかどうかを判断することによって、参照データセットとの比較が最も重要です。これは、期待されるピークを再現することに成功したことを示しています。適切な参照データセットを選択することは、この分析の最も重要な部分です。

下記リンクにおいてDiagenodeで検討したChIP-seq解析ソフトについての報告を掲載しています。是非ご一読いただきご参考にしていただければ幸いです。

さらに詳しく

　Bioinformatics pipeline for ChIPseq analyses

（グローバルサイトにリンクします）

ChIP-seqを実施したいが、バイオインフォマティクスのインフラ構築、人材確保が面倒・・・そんな要望に応え、DiagenodeはChIP専用機材およびバイオインフォマティクスに精通した人材を揃えてChIP-seq実験の受託サービスをご用意しています。私たちは、ChIP-seqをもっと身近に利用していただくため、豊富なフルサービスを取り揃えております。

ChIP-seqプロファイリングサービスの特徴

経験と実績：IHEC-BLUEPRINT Epigenome Consortiaの公式パートナーであり、ChIP-seqにおける10年の実績と経験があります。
カスタマイズ可能なサポートプランでお客様の実験をお手伝いします。
専門チームによるプロジェクト調整によってお客様のご希望にお応えします。
ENCODE標準の高品質データで包括的、あるいはChIPに特化した解析が可能です。
統合されたエピゲノムデータをプレゼンテーションに使用できる図と共に提供します。
- 配列のクォリティチェック、アラインメント、ピークコールを標準で行います。
- ChIP-seqピークをアノテートしたゲノムデータと統合してお示しします。
- サンプル間の結合部位の差異について分析します。
- 結合部位情報を基に、GO解析（Gene Ontology Analysis）を行い生物的プロセスの亢進状況を予測します。
- 発現増加・減少した遺伝子セットの情報を基に、パスウェイ解析を行います。

ヒストン ChIP-seq受託サービス

DiagenodeのヒストンChIP サービス：ChIP-seqヒストン修飾について、10,000細胞から分析できます

ヒストンの翻訳後修飾は、遺伝子発現を調節します。転写活性化領域と転写抑制領域の各クロマチン構造に存在するヒストンは，それぞれ異なる化学修飾を受けています。

転写活性化：H3K4me3
転写抑制：H3K27me3
エンハンサー：H3K4me1およびH3K27ac（調節領域に結合）
転写領域内局在型：H3K36me3

転写調節を理解するためにChIP-seq解析によって染色体DNA上でのヒストン修飾をプロファイルします。

転写因子ChIP-seq受託サービス

ChIP-seq解析により、様々な転写因子のゲノムへの結合の影響を調べます。

CTCF: 転写リプレッサーおよびインシュレーター活性
p300/CBP: ヒストンアセチルトランスフェラーゼ
Pol II, p53など
ヒストン修飾・脱修飾酵素、認識タンパク writers, erasers, readers

核内受容体
腫瘍抑制遺伝子

Chapter 9. 次世代シーケンシングとバイオインフォマティクス

次世代シーケンシング（Next Generation Sequencing, NGS）は、ランダムに切断された数千万―数億のDNA断片の塩基配列を同時並行的に決定する実験手法です。断片化した1本鎖のD…

Chapter 9. 次世代シーケンシングとバイオインフォマティクス