PEDを用いたコレラ菌の多型解析例

[日本語トップページへのリンク]

ここでは、Vibrio cholerae strain IDH-06641の多型の検出を例に、Linux(Ubuntu)のインストール、PEDのセットアップ、ゲノムブラウザでの結果の表示の方法を紹介します。

図をクリックすると拡大されます。
SNP以外に、挿入・欠失変異も正確に検出できる特徴があります。
変異部分を増幅するプライマー対の配列も得られます。

Ubuntuのインストール

Ubuntu Desktop 日本語 Remixより日本語版のISOイメージのファイルをダウンロードします。
Ubuntu 20.04 LTSインストールガイド【スクリーンショットつき解説】が詳しいので参考にしてインストールしてください。
PEDは解析時間をできるだけ短くするため、CPUの限界近くまで負荷がかかりますのでほかのOSとの共存は避けた方がいいです。
使わなくなった古いコンピュータなどにインストールして専用にするのがお勧めです。
マルチスレッドで動作しますので、4あるいは8コアのCPUを用いると早く処理できます。

PEDのセットアップと解析例

必要なソフトをダウンロードとインストールを行います。

$ sudo apt update
$ sudo apt upgrade
$ sudo apt install curl
$ sudo apt install git
$ sudo apt install sra-toolkit
$ git clone https://github.com/akiomiyao/ped.git

Ubuntuのバージョンによっては、sra-toolkitのインストールに失敗することがあります。
また最近のバージョンのfastq-dumpは使用前にvdb-configコマンドで実行環境を設定する必要があります。
設定方法は、[fastq-dumpの設定]のページに記載しました。
NCBIのSRAアーカイブからサンプル名 IDH-06641のfastq形式のファイル(DRR178327)をダウンロードします。
上記サンプル名のリンクをクリックして表示される25系統の配列を解析すれば、非O1、非O139コレラ菌のゲノム比較解析ができます。
```
$ cd ped
$ git pull
$ perl download.pl accession=DRR178327
```
git pullで最新のスクリプトに更新されます。git pullは毎回行う必要はありませんが、プログラムが更新されている場合はpullしてください。
pedのディレクトリの中に、DRR178327の名称のディレクトリができて、その中のreadというディレクトリの中にfastqファイルがダウンロードされます。
アメリカからのダウンロードなので時間がかかります。
時々エラーが表示されますが自動的に再接続されるので、気長に待ちます。
DDBJのDRAからもダウンロードできます。
DDBJからのDRR178327のダウンロード
2行目のFASTQをクリックしてbz2形式で圧縮されたファイルをダウンロードします。ダウンロードしたファイルを DRR178327/read のディレクトリに置きます。解凍する必要はありません。
同様の構造の任意の名前のディレクトリを作れば手持ちのデータの解析ができます。
DRR178327の配列をコレラ菌の参照配列Vcholeraeにマップして多型を検出します。
```
$ perl ped.pl target=DRR178327,ref=Vcholerae
```
コレラ菌の参照配列は設定済みなので自動的にダウンロードして解析用データを作成して一連の作業が自動的に進みます。
解析が無事終わるとDRR178327のディレクトリの中に、DRR178327.vcfという結果をまとめたファイルができます。
各座位に対してプライマーが作成可能な場合は、プライマーペアの配列データも出力されます。

Dockerでの解析

Dockerを用いれば、必要な時に設定済み実行環境を取り込んで解析できます。
グーグルクラウド(GCP)やアマゾンウェブサービス(AWS)などのクラウドでの実行も可能です。
Dockerのセットアップ
$ sudo apt install docker
$ sudo apt install docker.io
解析例
$ sudo docker pull akiomiyao/ped
$ sudo docker run -w /ped -v `pwd`:/work akiomiyao/ped perl download.pl accession=DRR178327,wd=/work
$ sudo docker run -w /ped -v `pwd`:/work akiomiyao/ped perl ped.pl target=DRR178327,ref=Vcholerae,wd=/work
上記のコマンドをコピーしてターミナルウインドウにペーストして実行してください。

IVGブラウザによる結果の確認

Integrative Genomics Viewer (IVG) はBroad Instituteで作成されたゲノムブラウザです。
http://software.broadinstitute.org/software/igv/download からダウンロードできます。
GCF_000006745.1_ASM674v1_genomic.fnaをクリックしてダウンロードします。
IVGを開いてGenomesのプルダウンメニューよりLoad Genome from Fileを選んで、GCF_000006745.1_ASM674v1_genomic.fnaをロードします。
GCF_000006745.1_ASM674v1_genomic.gff.gz をクリックしてダウンロードして、メインの表示ボックスの下のサブのボックスにドラッグします。
DRR178327.vcf(クリックしてダウンロードできます)
をメインの表示ボックスにドラッグすれば、Vibrio cholerae strain IDH-06641の多型データが取り込まれます。
各染色体の番号をクリックすると、染色体ごとの多型情報が表示されます。
興味のある部分をクリックすると、どんどん拡大されます。
多型をマウスで指すと詳細情報が表示されます。
多型の種類や多型頻度、また、プライマー対の配列情報と増幅産物のサイズも表示されます。
ページのトップの画像が表示例です。
多型の部分を増幅するプライマー配列も表示されます。至適配列が見つからない部位では表示されません。

PEDに関する資料

お問い合わせ

〒305-8518
茨城県つくば市観音台2-1-2
農研機構作物研究部門
宮尾安藝雄 (miyao@affrc.go.jp)