次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。
データ解析の概要としては、rDNAのデータベースであるSILVA databaseに対して、Nanoporeのデータの相同性検索を行い、検索した結果をMEGANというツールで統合し、可視化する。
学生実習で使用したプライマー
名前 | 配列 |
27F | AGAGTTTGATC(A/C)TGGCTCAG |
1492R | GGTTACCTTGTTACGACTT |
MACでログインしたら、デスクトップに「ダウンロード」フォルダ等の適当なフォルダを作り、その中に下記のファイルをすべてダウンロードする。
解析手順の概要は、まずFASTQCでシーケンスデータを確認してから、FASTQをFASTAファイルに変換し、SILVAデータベースに対してBLASTを実行する。そして、BLASTの結果ファイルをMEGANで読み込む。
FASTQCを実行し、シーケンスデータを開く。
FASTQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明はこちら。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。
リード長の分布。
まずはFinderからターミナルを開く。
ターミナルを開いたら、cd Desktop
と入力して、ターミナル内のディレクトリをデスクトップに移す。
よく使用するコマンドの説明は下記の通り
ls
: 現在のディレクトリ内のファイルを一覧表示。
cd [ディレクトリ名]
: 指定したディレクトリに移動する。
less [ファイル名]
: 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。
ターミナルで「Desktop」に移動したら、下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。
./fastxtoolkit/fastq_to_fasta -Q33 -i data2017-1.fastq -o data2017-1.fasta
-Q33オプションはクオリティスコアの種類を示すオプションで、おまじないと思ってとりあえず書いておくこと。
-i は入力のFASTQファイル、-o は出力のFASTAファイルの名前を書く。
次にSILVAのrDNAの配列がすべて含まれるFASTAファイルから、BLASTのデータベースを作成する。
./ncbi-blast-2.6.0+/bin/makeblastdb -in SILVA_128_SSURef_Nr99_tax_silva.fasta -dbtype nucl
-in には入力となるFASTAファイルを指定する。
-dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。
FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。
./ncbi-blast-2.6.0+/bin/blastn -db SILVA_128_SSURef_Nr99_tax_silva.fasta -query data2017-1.fasta -num_threads 4 > data2017-1.fasta.blastn
-db には、BLASTデータベースファイルを作成したFASTAファイルを指定する。
-query にはデータベースに対して相同性検索を行いたい配列が含まれるFASTAファイルを指定する。ここではFASTAファイルに変換したシーケンスデータを指定する。
-num_threads には並列計算時に使用するCPUの数を指定する。ECCSでは1台当たり4コアあるので、4を指定。
> の後ろには出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること)
■ 相同性検索について 東大 新領域 情報生命 笠原先生の講義資料より
■ BLASTとは JST HPより
BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。
BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。
プログラム名 | query | db | |
blastn | DNA | DNA | |
blastp | protein | protein | |
blastx | DNA | protein | (DNAはアミノ酸に翻訳して比較) |
tblastn | protein | DNA | (DNAはアミノ酸に翻訳して比較) |
tblastx | DNA | DNA | (DNAはアミノ酸に翻訳して比較) |
Blastの結果についての説明 https://www.jaici.or.jp/stn/pdf/seqfaq.pdf
5. MEGANによる結果表示
MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明はこちら
まずはMEGANを起動する。
次にBLAST結果ファイルをMEGANで開く。
解析が終わっていない人、もしくはほかの班のデータも見たい人は以下のリンクから各班のBLAST結果をダウンロード可能。
LCAのパラメータを変更する場合は、ここで変更する。(後からでも変更可能)
結果が表示される。
種名まで表示するために、表示するRankを変更する。
6.MEGANで複数サンプルの比較
blastnファイルを複数回開いたら、開いたウィンドウをそのままにした状態で、「File」→「Compare」とクリックして比較したいサンプルを選択し、「Apply」をクリックする。
比較ウィンドウを開くと、とりあえず下記のように表示される。
表示形式を変更したりすると下記のように表示される。
ExcelやR等で解析する場合は、データをタブ区切りテキスト形式でExportする。Exportしたいノードをクリックして(全部Exportする場合は全部選択して)、「File」→「Export」→「CSV Format」をクリックする。
Exportするデータを「taxonPathtocount」に変更してみる。(ほかのデータでも勿論可)
7.Excelでの解析
ExportしたファイルをExcelで開くには、右クリックして「このアプリケーションで開く」→「Microsoft Excel」をクリックする。
フィルターを使ってみたり、グラフを描いてみたりする。Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりする。
akyoshita@g.ecc.u-tokyo.ac.jp