- 必要なソフトをダウンロードとインストールを行います。
$ sudo apt update
$ sudo apt upgrade
$ sudo apt install curl
$ sudo apt install git
$ sudo apt install sra-toolkit
$ git clone https://github.com/akiomiyao/ped.git
- Ubuntuのバージョンによっては、sra-toolkitのインストールに失敗することがあります。
また最近のバージョンのfastq-dumpは使用前にvdb-configコマンドで実行環境を設定する必要があります。
設定方法は、[fastq-dumpの設定]のページに記載しました。
- NCBIのSRAアーカイブからB型肝炎ウイルス(HBV)に感染した患者から得られたウイルスのショートリードののfastq形式のファイルをダウンロードします。
$ cd ped
$ git pull
$ perl download.pl accession=ERR3253399
git pullで最新のスクリプトに更新されます。git pullは毎回行う必要はありませんが、プログラムが更新されている場合はpullしてください。
pedのディレクトリの中に、ERR3253399の名称のディレクトリができて、その中のreadというディレクトリの中にfastqファイルがダウンロードされます。
アメリカからのダウンロードなので時間がかかります。
時々エラーが表示されますが自動的に再接続されるので、気長に待ちます。
- ウイルスを解析したファイルの場合リード長が不揃いな場合が多いのでリード長の分布を調べます。
$ perl check_length.pl target=ERR3253399
前半省略
286 2
287 51
288 4
289 51
291 58
292 5
293 46
295 61
296 3
297 51
299 67526
299塩基のものが最も多いので、この場合は、299塩基で配列を選ぶ(clipping)ことにします。
- ERR3253399の配列をB型肝炎ウイルスの参照配列HBVにマップして多型を検出します。
$ perl ped.pl target=ERR3253399,ref=HBV,clipping=299
HBVの参照配列は設定済みなので自動的にダウンロードして解析用データを作成して一連の作業が自動的に進みます。
解析が無事終わるとERR3253399のディレクトリの中に、ERR3253399.vcfという結果をまとめたファイルができます。
各座位に対してプライマーが作成可能な場合は、プライマーペアの配列データも出力されます。