# 2018年 水圏生物科学実験III
## 本日の概要
次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。
データ解析の流れとしては、まずシーケンスデータのチェックをFASTQCというツールを用いて行い、その後で、rDNAのデータベースである[[https://www.arb-silva.de/|SILVA database]]に対して、シーケンスデータの相同性検索を行い、検索した結果をMEGANというツールで可視化し、統合する。
## 準備
### ツール・データのダウンロード
「ダウンロード」フォルダ等の適当なフォルダの中に、下記のファイルをすべてダウンロードする。
- FASTQC ・・・シーケンスデータのクオリティチェックを行う。[[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/|著者HP]]
[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018jissyu/fastqc_v0.11.8.zip|ダウンロードはここから]]
- BLAST ・・・もっとも有名な塩基配列の相同性検索ツール。[[https://blast.ncbi.nlm.nih.gov/Blast.cgi|著者HP]]
[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018jissyu/blast-2.7.1.zip|ダウンロードはここから]]
- SILVA database ・・・リボソームDNA配列を整理したデータベース。[[https://www.arb-silva.de/|著者HP]]
[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018jissyu/SILVA_132_SSURef_Nr99_tax_silva.fasta.zip|ダウンロードはここから]]
- MEGAN ・・・BLASTの結果から微生物叢情報や機能遺伝子情報へと変換してくれるソフトウェア。KEGGに関しては有償。[[http://ab.inf.uni-tuebingen.de/software/megan6/|著者HP]]
[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018jissyu/Megan_Community_x64_6.12.5.zip|ダウンロードはここから]]
- 各班のシーケンスデータ
1
2
3
4
## データの説明、用語解説
### 16S rDNAについて
https://biology.stackexchange.com/questions/54823/what-causes-the-variable-conserved-structure-in-the-16s-rrna-gene
学生実習で使用したプライマー
|名前|配列|
|27F|AGAGTTTGATC(A/C)TGGCTCAG|
|1492R|GGTTACCTTGTTACGACTT|
---
### シーケンスデータの説明
シーケンスデータはFASTQというファイル形式で得られる
#### - FASTQ形式について
FASTQファイルをメモ帳などで開いてみると次のように表示される。
{{fastq.png}}
---
### 似ている塩基配列を探す方法について
■ 相同性検索について [[http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/upbsb_shotgun_day1.pdf|東大 新領域 情報生命 笠原先生の講義資料]]より
{{aln1.png}}
{{aln2.png}}
{{aln3.png}}
{{aln4.png}}
■ 相同性検索を比較的高速に行うBLASTプログラム [[http://www.jst.go.jp/nbdc/bird/minicourses/blast-tutorial.pdf|JST HPより]]
BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。
BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。
|プログラム名|query|db||
|blastn|DNA|DNA||
|blastp|protein|protein||
|blastx|DNA|protein|(DNAはアミノ酸に翻訳して比較)|
|tblastn|protein|DNA|(DNAはアミノ酸に翻訳して比較)|
|tblastx|DNA|DNA|(DNAはアミノ酸に翻訳して比較)|
■ Blastの結果についての説明
https://www.jaici.or.jp/stn/pdf/seqfaq.pdf
{{2017jissyu_2_.jpg}}
---
## データ解析
解析は次の流れで行う。
- FastQCでシーケンスデータ(FASTQファイル)のリード数、平均リード長、クオリティ等を確認
- FASTQをFASTAファイルに変換
- BLASTを使用し、変換したFASTAファイルに相同な配列をSILVAデータベースから検索する。
- BLASTの結果ファイルをMEGANで読み込む。
- Excelでグラフ化する
### ダウンロードしたツール・データの解凍
1. ダウンロードしたファイルの解凍
Explorerを開いて、ダウンロードフォルダに移動し、先ほどダウンロードした```「fastqc_v0.11.8.zip」、「blast-2.7.1.zip」、「Megan_Community_x64_6.12.5.zip」、「SILVA_132_SSURef_Nr99_tax_silva.fasta.zip」```をダブルクリックして解凍する。
解凍されたファイルはデスクトップに保存されているはず。(もしデスクトップに解凍されていなければ、ファイルをデスクトップに移動しておいてください。)
{{2018jissyu01.png}}
1. シーケンスデータをデスクトップへ移動
後々の解析で分かりやすくするため、ダウンロードしたシーケンスデータをデスクトップへ移動しておく。
{{2018jissyu02.png}}
1. FastQC
デスクトップにあるFastQCフォルダを開き、```「run_fastqc.bat」```をダブルクリックし、FastQCを実行する。
{{2018jissyu-fastqc01.png}}
FastQCの上部メニューから、「File」→「Open」をクリックし、シーケンスデータ(FASTQファイル)を選択して開く。
{{2018jissyu-fastqc02.png}}
FastQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明は[[https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html|こちら]]。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。
リード長の分布がPCRで増幅した長さになっているかなども確認すること。
{{2018jissyu-fastqc03.png}}
1. FASTQ->FASTA変換
まずExplorerでデスクトップを開いておく。
{{2018jissyu03.png}}
Explorerの上部メニューから、「ファイル」→「Windows PowerShellを開く」→「Windows PowerShellを開く」をクリックして、PowerShellを起動する。
{{2018jissyu04.png}}
PowerShellのようなターミナルでよく使用するコマンドを幾つか挙げておく。
```ls``` : 現在のディレクトリ内のファイルを一覧表示。
```cd [ディレクトリ名]``` : 指定したディレクトリに移動する。
```more [ファイル名]``` : 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。
下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。
・FASTQからFASTAへ変換する関数の作成 (下記をコピーして、PowerShellに張り付けること。PowerShell上で右クリックすれば貼り付け可能。)
```
function fastq_to_fasta(){
begin{$n=1}
process{if($n%4 -eq 1){$_ -replace "^@", ">"}elseif($n%4 -eq 2){$_}; $n+=1}
}
```
・FASTQ->FASTA変換 (入力ファイル「group1.1k.fastq」、出力ファイル「group1.1k.fasta」の名前は各自適当に変更すること)
```
cat group1.1k.fastq|fastq_to_fasta |Out-File -Encoding ascii -FilePath group1.1k.fasta
```
{{2018jissyu05.png}}
5. BLASTデータベース作成
SILVAのrDNAの配列がすべて含まれるFASTAファイルから、makeblastdbコマンドによってBLASTのデータベースを作成する。
```NCBI\blast-2.7.1+\bin\makeblastdb.exe -in SILVA_132_SSURef_Nr99_tax_silva.fasta\SILVA_132_SSURef_Nr99_tax_silva.fasta -dbtype nucl```
-in には入力となるFASTAファイルを指定する。
-dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。
6. BLAST検索
FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。
```NCBI\blast-2.7.1+\bin\blastn.exe -db SILVA_132_SSURef_Nr99_tax_silva.fasta\SILVA_132_SSURef_Nr99_tax_silva.fasta -query group1.1k.fasta -num_threads 4 -out group1.1k.fasta.blastn```
-db には、BLASTデータベースファイルのprefixを指定する。今回の場合は元となったFASTAファイルを指定すればよい。
-query にはデータベースに対して相同性検索を行いたい問い合わせ配列が含まれるFASTAファイルを指定する。ここではFASTA形式に変換したシーケンスデータを指定する。
-num_threads には並列計算時に使用するCPUの数を指定する。演習で使用しているノートPCはCPUが4コアあるので、4を指定。
-out には出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること)
---
5. MEGANによる結果表示
MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明は[[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1800929/figure/F2/|こちら]]
まずはMEGANを起動する。
{{2007jissyu_22_.jpg}}
次にBLAST結果ファイルをMEGANで開く。
{{2007jissyu_23_.jpg}}
解析が終わっていない人、もしくはほかの班のデータも見たい人は以下のリンクから各班のBLAST結果をダウンロード可能。
[[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group1.1k.fasta.blastn.gz|1]]
[[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group2.1k.fasta.blastn.gz|2]]
[[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group3.1k.fasta.blastn.gz|3]]
[[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group4.1k.fasta.blastn.gz|4]]
{{2017jissyu_10_.jpg}}
{{2017jissyu_9_.jpg}}
LCAのパラメータを変更する場合は、ここで変更する。(後からでも変更可能)
{{2007jissyu_25_.jpg}}
結果が表示される。
{{2007jissyu_26_.jpg}}
種名まで表示するために、表示するRankを変更する。
{{2007jissyu_27_.jpg}}
{{2007jissyu_28_.jpg}}
6.MEGANで複数サンプルの比較
blastnファイルを複数回開いたら、開いたウィンドウをそのままにした状態で、「File」→「Compare」とクリックして比較したいサンプルを選択し、「Apply」をクリックする。
{{megan-c1.jpg}}
比較ウィンドウを開くと、とりあえず下記のように表示される。
{{megan-c2.jpg}}
表示形式を変更したりすると下記のように表示される。
{{megan-c3.jpg}}
ExcelやR等で解析する場合は、データをタブ区切りテキスト形式でExportする。Exportしたいノードをクリックして(全部Exportする場合は全部選択して)、「File」→「Export」→「CSV Format」をクリックする。
{{megan-c4.jpg}}
Exportするデータを「taxonPath_to_count」に変更してみる。(ほかのデータでも勿論可)
{{megan-c5.jpg}}
{{megan-c6.jpg}}
7.Excelでの解析
ExportしたファイルをExcelで開くには、右クリックして「このアプリケーションで開く」→「Microsoft Excel」をクリックする。
{{excel1.jpg}}
フィルターを使ってみたり、グラフを描いてみたりする。Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりする。
{{excel2.jpg}}
## Excelファイルの提出先
akyoshita@g.ecc.u-tokyo.ac.jp