- 必要なソフトをダウンロードとインストールを行います。
$ sudo apt update
$ sudo apt upgrade
$ sudo apt install curl
$ sudo apt install git
$ sudo apt install sra-toolkit
$ git clone https://github.com/akiomiyao/ped.git
- Ubuntuのバージョンによっては、sra-toolkitのインストールに失敗することがあります。
また最近のバージョンのfastq-dumpは使用前にvdb-configコマンドで実行環境を設定する必要があります。
設定方法は、[fastq-dumpの設定]のページに記載しました。
- NCBIのSRAアーカイブからヒトのプラチナゲノム配列のfastq形式のファイル(ERR194146とERR194147)をダウンロードします。
$ cd ped
$ git pull
$ perl download.pl accession=ERR194146
$ perl download.pl accession=ERR194147
git pullで最新のスクリプトに更新されます。
pedのディレクトリの中に、ERR194146とERR194147の名称のディレクトリができて、その中のreadというディレクトリの中にfastqファイルがダウンロードされます。
アメリカからのダウンロードなので時間がかかります。回線の状況によっては、1~2日かかるかもしれません。
時々エラーが表示されますが自動的に再接続されるので、気長に待ちます。
同様の構造の任意の名前のディレクトリを作れば手持ちのデータの解析ができます。
- ERR194146とERR194147の配列をヒトの参照配列hg19にマップして多型を検出します。
$ perl ped.pl target=ERR194146,ref=hg19
$ perl ped.pl target=ERR194147,ref=hg19
ヒトの参照配列は設定済みなので自動的にダウンロードして解析用データを作成して一連の作業が自動的に進みます。
解析が無事終わるとERR194146とERR194147のディレクトリの中に、ERR194146.vcfとERR194147.vcfという結果をまとめたファイルができます。
各座位に対してプライマーが作成可能な場合は、プライマーペアの配列データも出力されます。
- コントロールを設定する場合は、以下のようにします。
$ perl ped.pl target=ERR194146,control=ERR194158,ref=hg19
$ perl ped.pl target=ERR194146,control=ERR194159,ref=hg19
コントロール側には存在しない多型のみが出力されます。