2017年 水圏生物科学実験III

本日の概要

次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。

データ解析の概要としては、rDNAのデータベースであるSILVA databaseに対して、Nanoporeのデータの相同性検索を行い、検索した結果をMEGANというツールで統合し、可視化する。

データの説明

16S rDNAについて

https://biology.stackexchange.com/questions/54823/what-causes-the-variable-conserved-structure-in-the-16s-rrna-gene

学生実習で使用したプライマー

名前配列
27FAGAGTTTGATC(A/C)TGGCTCAG
1492RGGTTACCTTGTTACGACTT

FASTQ形式について

FASTQファイルをメモ帳などで開いてみると次のように表示される。

準備

ツール・データのダウンロード

MACでログインしたら、デスクトップに「ダウンロード」フォルダ等の適当なフォルダを作り、その中に下記のファイルをすべてダウンロードする。

シーケンスデータの説明

ダウンロードしたツール・データの解凍

  1. FASTQCのインストール

    fastqc_v0.11.5.dmgを開いて、FastQC.appをデスクトップにコピーする。

    2007jissyu_1_.jpg

  2. FASTX-Toolkitのインストール

    fastxtoolkit0.0.13binariesMacOSX.10.5.8_i386.tar.bz2をダブルクリックすると解凍されるので、解凍された「bin」フォルダをデスクトップに移動し、「fastxtoolkit」というフォルダ名に変更する。

    2007jissyu_2_.jpg

  3. BLASTのインストール

    ncbi-blast-2.6.0+-x64-macosx.tar.gzをダブルクリックすると解凍されるので、解凍された「ncbi-blast-2.6.0+」フォルダをデスクトップに移動する。

    2007jissyu_3_.jpg

  4. SILVA databaseの解凍

    SILVA128SSURefNr99taxsilva.fasta.gzをダブルクリックすると解凍される(もしくはsafariでダウンロードしていたら自動で解凍されている)ので、解凍された「SILVA128SSURefNr99taxsilva.fasta」ファイルをデスクトップに移動する。

    2007jissyu_4_.jpg

  5. 各班のシーケンスデータの配置

    ダウンロードしたシーケンスデータを全てデスクトップに移動する。

    2007jissyu_5_.jpg

  6. MEGANのインストール

    MEGANCommunitymacos610_0.dmgをダブルクリックすると、インストーラが表示されるので、インストーラをダブルクリックして起動する。

    2007jissyu_6_.jpg

    インストーラの指示に従って進めていく

    2007jissyu_7_.jpg

    2007jissyu_8_.jpg

    インストール先は、自分のデスクトップにすること!

    2007jissyu_9_.jpg

    2007jissyu_10_.jpg

    2007jissyu_11_.jpg

    2007jissyu_12_.jpg

    メモリの割り当てを4GBに増やしておく。(デフォルトのままでも今回は問題ない。)

    2007jissyu_13_.jpg

    2007jissyu_14_.jpg

    いったんMEGANを終了する。

    2007jissyu_15_.jpg

データ解析

解析手順の概要は、まずFASTQCでシーケンスデータを確認してから、FASTQをFASTAファイルに変換し、SILVAデータベースに対してBLASTを実行する。そして、BLASTの結果ファイルをMEGANで読み込む。

  1. FASTQC

    FASTQCを実行し、シーケンスデータを開く。

    2007jissyu_16_.jpg

    2007jissyu_17_.jpg

    FASTQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明はこちら。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。

    2007jissyu_18_.jpg

    リード長の分布。

    2007jissyu_19_.jpg

  2. FASTQ→FASTA変換

    まずはFinderからターミナルを開く。

    2007jissyu_20_.jpg

    ターミナルを開いたら、cd Desktopと入力して、ターミナル内のディレクトリをデスクトップに移す。 2007jissyu_21_.jpg

    よく使用するコマンドの説明は下記の通り

    ls : 現在のディレクトリ内のファイルを一覧表示。

    cd [ディレクトリ名] : 指定したディレクトリに移動する。

    less [ファイル名] : 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。

    ターミナルで「Desktop」に移動したら、下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。

    ./fastxtoolkit/fastq_to_fasta -Q33 -i data2017-1.fastq -o data2017-1.fasta

    -Q33オプションはクオリティスコアの種類を示すオプションで、おまじないと思ってとりあえず書いておくこと。

    -i は入力のFASTQファイル、-o は出力のFASTAファイルの名前を書く。

  3. BLASTデータベース作成

    次にSILVAのrDNAの配列がすべて含まれるFASTAファイルから、BLASTのデータベースを作成する。

    ./ncbi-blast-2.6.0+/bin/makeblastdb -in SILVA_128_SSURef_Nr99_tax_silva.fasta -dbtype nucl

    -in には入力となるFASTAファイルを指定する。

    -dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。

  4. BLAST検索

    FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。

    ./ncbi-blast-2.6.0+/bin/blastn -db SILVA_128_SSURef_Nr99_tax_silva.fasta -query data2017-1.fasta -num_threads 4 > data2017-1.fasta.blastn

    -db には、BLASTデータベースファイルを作成したFASTAファイルを指定する。

    -query にはデータベースに対して相同性検索を行いたい配列が含まれるFASTAファイルを指定する。ここではFASTAファイルに変換したシーケンスデータを指定する。

    -num_threads には並列計算時に使用するCPUの数を指定する。ECCSでは1台当たり4コアあるので、4を指定。

    > の後ろには出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること)


BLASTについての説明

■ 相同性検索について 東大 新領域 情報生命 笠原先生の講義資料より

■ BLASTとは JST HPより

BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。

BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。

プログラム名querydb
blastnDNADNA
blastpproteinprotein
blastxDNAprotein(DNAはアミノ酸に翻訳して比較)
tblastnproteinDNA(DNAはアミノ酸に翻訳して比較)
tblastxDNADNA(DNAはアミノ酸に翻訳して比較)

Blastの結果についての説明 https://www.jaici.or.jp/stn/pdf/seqfaq.pdf

2017jissyu_2_.jpg


5. MEGANによる結果表示

MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明はこちら

まずはMEGANを起動する。

2007jissyu_22_.jpg

次にBLAST結果ファイルをMEGANで開く。

2007jissyu_23_.jpg

解析が終わっていない人、もしくはほかの班のデータも見たい人は以下のリンクから各班のBLAST結果をダウンロード可能。

1

2

3

4

2017jissyu_10_.jpg

2017jissyu_9_.jpg

LCAのパラメータを変更する場合は、ここで変更する。(後からでも変更可能)

2007jissyu_25_.jpg

結果が表示される。

2007jissyu_26_.jpg

種名まで表示するために、表示するRankを変更する。

2007jissyu_27_.jpg

2007jissyu_28_.jpg

6.MEGANで複数サンプルの比較

blastnファイルを複数回開いたら、開いたウィンドウをそのままにした状態で、「File」→「Compare」とクリックして比較したいサンプルを選択し、「Apply」をクリックする。

megan-c1.jpg

比較ウィンドウを開くと、とりあえず下記のように表示される。

megan-c2.jpg

表示形式を変更したりすると下記のように表示される。

megan-c3.jpg

ExcelやR等で解析する場合は、データをタブ区切りテキスト形式でExportする。Exportしたいノードをクリックして(全部Exportする場合は全部選択して)、「File」→「Export」→「CSV Format」をクリックする。

megan-c4.jpg

Exportするデータを「taxonPathtocount」に変更してみる。(ほかのデータでも勿論可)

megan-c5.jpg

megan-c6.jpg

7.Excelでの解析

ExportしたファイルをExcelで開くには、右クリックして「このアプリケーションで開く」→「Microsoft Excel」をクリックする。

excel1.jpg

フィルターを使ってみたり、グラフを描いてみたりする。Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりする。

excel2.jpg

Excelファイルの提出先

akyoshita@g.ecc.u-tokyo.ac.jp