全ゲノムショットガンシーケンスとアセンブリは日常的になった。しかし、新規アセンブリゲノムにおけるタンパク質コード遺伝子の同定は依然として複雑で、時間と労力を要する。その結果、公開データベースの多くの真核生物ゲノム配列は包括的な遺伝子アノテーションを欠いており、オルソログ同定での利用を制限し、進化・機能ゲノミクスにおける価値を制限している。本稿では、アノテーションのないゲノムアセンブリから直接、標的を絞った特徴構造認識型オルソログ検索を行う新規ツール「fDOG-Assembly」を提案する。ベンチマーク評価により、fDOG-Assemblyはオルソログ同定においてゲノムモードのBUSCOと同等の性能を示しつつ、ユニバーサルな遺伝子やシングルコピー遺伝子に限定されない利点を有することが確認された。Nematostella vectensisおよびRattus norvegicusにおけるヒト遺伝子5,000個のオルソログ同定に適用した場合、fDOG-Assemblyは事前アノテーションされたプロテオームに依存する従来型オルソログ検索ツールの性能に迫る。重要なことに、この手法は不完全な遺伝子アノテーションのために従来法では検出を逃れるオルソログも明らかにでき、系統発生プロファイルの空白を埋めるのに役立つ。ケーススタディとして、抗菌化合物生産に関与する遺伝子について176種の土壌無脊椎動物ゲノムアセンブリをスクリーニングした。特に、β-ラクタム生合成に関与する遺伝子のオルソログが跳虫に広く分布していることを発見した。1種を除き、個々の跳虫種はセファマイシン合成に必要な全遺伝子レパートリーを有しており、これらがβ-ラクタムの重要な天然生産者であることを示唆している。要約すると、fDOG-Assemblyは、増加する未アノテーションゲノムアセンブリのオルソロジーに基づく解析を可能にする強力なリソースである。
poster
https://github.com/BIONF/fDOG/blob/gh-pages/www/Poster_fDOG_Assembly.pdf
fDOGがアノテーション済みのタンパク質配列を使うのに対し、fDOG-Assemblyはアノテーションされていないゲノムを直接スキャンして目的のオーソログを探し出す。
インストール
mambaで環境を作って導入した( ubuntu24)。
依存
Github (* fDOGのレポジトリ)
mamba create -n fdog python=3.12 -y
conda activate fdog
mamba install -c bioconda fasta3 -y
mamba install -c bioconda diamond hmmer gffread blast -y
mamba install bioconda::augustus -y
pip install greedyFAS
mamba install -c bioconda muscle -y
python3 -m pip install git+https://github.com/BIONF/fDOG.git
> fdog.assembly -h
usage: fdog.assembly [-h] [--version] --gene GENE --refSpec REFSPEC [REFSPEC ...] [--avIntron AVINTRON] [--lengthExtension LENGTHEXTENSION] [--assemblyPath ASSEMBLYPATH] [--tmp] [--out OUT]
[--dataPath DATAPATH] [--coregroupPath COREGROUPPATH] [--evalBlast EVALBLAST] [--strict] [--msaTool {mafft-linsi,muscle}] [--checkCoorthologsOff]
[--scoringmatrix {identity,blastn,trans,benner6,benner22,benner74,blosum100,blosum30,blosum35,blosum40,blosum45,blosum50,blosum55,blosum60,blosum62,blosum65,blosum70,blosum75,blosum80,blosum85,blosum90,blosum95,feng,fitch,genetic,gonnet,grant,ident,johnson,levin,mclach,miyata,nwsgappep,pam120,pam180,pam250,pam30,pam300,pam60,pam90,rao,risler,structure}]
[--coreTaxa CORETAXA [CORETAXA ...]] [--fasoff] [--pathFile PATHFILE] [--searchTaxa SEARCHTAXA [SEARCHTAXA ...]] [--debug] [--force] [--append] [--parallel] [--augustus]
[--augustusRefSpec AUGUSTUSREFSPEC] [--augustusRefSpecFile AUGUSTUSREFSPECFILE] [--metaeukDb METAEUKDB] [--isoforms] [--gff]
You are running fdog.assembly version 0.1.5.2.
options:
-h, --help show this help message and exit
--version show program's version number and exit
Required arguments:
--gene GENE Core_ortholog group name. Folder inlcuding the fasta file, hmm file and aln file has to be located in core_orthologs/
--refSpec REFSPEC [REFSPEC ...]
Reference taxon/taxa for fDOG.
Optional arguments:
--avIntron AVINTRON average intron length of the assembly species in bp (default: 50000)
--lengthExtension LENGTHEXTENSION
length extension of the candidate regions in bp (default:20000)
--assemblyPath ASSEMBLYPATH
Path for the assembly directory, (default dataPath)
--tmp tmp files will not be deleted
--out OUT Output directory
--dataPath DATAPATH fDOG data directory containing searchTaxa_dir, coreTaxa_dir and annotation_dir
--coregroupPath COREGROUPPATH
core_ortholog directory containing ortholog groups of gene of interest
--evalBlast EVALBLAST
E-value cut-off for the Blast search. (default: 0.00001)
--strict An ortholog is only then accepted when the reciprocity is fulfilled for each sequence in the core set
--msaTool {mafft-linsi,muscle}
Choose between mafft-linsi or muscle for the multiple sequence alignment. (default:muscle)
--checkCoorthologsOff
During the final ortholog search, accept an ortholog also when its best hit in the reverse search is not the core ortholog itself, but a co-ortholog of it
--scoringmatrix {identity,blastn,trans,benner6,benner22,benner74,blosum100,blosum30,blosum35,blosum40,blosum45,blosum50,blosum55,blosum60,blosum62,blosum65,blosum70,blosum75,blosum80,blosum85,blosum90,blosum95,feng,fitch,genetic,gonnet,grant,ident,johnson,levin,mclach,miyata,nwsgappep,pam120,pam180,pam250,pam30,pam300,pam60,pam90,rao,risler,structure}
Choose a scoring matrix for the distance criteria used by the option --checkCoorthologsRef. (default: blosum62)
--coreTaxa CORETAXA [CORETAXA ...]
List of core taxa used during --strict
--fasoff Turn off FAS support
--pathFile PATHFILE Config file contains paths to data folder (in yaml format)
--searchTaxa SEARCHTAXA [SEARCHTAXA ...]
List of Taxa to search in, (default: all species located in assembly_dir)
--debug Stdout and Stderr from fdog.assembly and every used tool will be printed, caution: using --parallel can result in messy output
--force Overwrite existing output files
--append Append the output to existing output files, caution: reference species must be identical
--parallel The ortholog search of multiple species will be done in parallel
--augustus Gene prediction is done by using the tool Augustus PPX
--augustusRefSpec AUGUSTUSREFSPEC
Augustus reference species identifier (use command: augustus --species=help to get precomputed augustus gene models)
--augustusRefSpecFile AUGUSTUSREFSPECFILE
Mapping file tab seperated containing Assembly Names and augustus reference species that should be used
--metaeukDb METAEUKDB
Path to MetaEuk reference database
--isoforms All Isoforms of a gene passing the ortholog verification will be included in the output
--gff GFF files will be included in output
データベース
以下のコマンドを打つ。-"d"でDBを保存するパスを指定する。10分程度で終わる。
fdog.setup -d fDOG_DB
出力

fas.setupも行う必要がある。
which fas.setup
#FASは多くの外部ツール(HMMER、PfamScan、TMHMM、SignalP)を使う。
#これらのツールがインストールされているパスを指定して以下を実行、例えば
fas.setup -t ~/miniforge3/envs/fDOG/bin
#then
source /home/kazu/miniforge3/envs/fDOG/bin/fas.profile
テストラン
#62を参考にテストランする。--dataPathでDBのパスを指定する。遺伝子予測にはaugustusを使う (”--augustus”)。その場合、--augustusRefSpecで生物種を指定する必要がある。"--assemblyPath"でゲノムアセンブリのパスを指定する。探索する遺伝子は事前にcore_orthologs/に含まれていて、hmmプロファイルが準備されている必要がある(ここでは省略)。
fdog.assembly --gene Xrcc2 --refSpec NASVI@7425@2 \
--assemblyPath assembly_dir \
--dataPath <path>/<to>/fDOG_DB/ \
--coregroupPath core_orthologs/test/ \
--augustus --augustusRefSpec insect --force
- --gene Core_ortholog group name. Folder inlcuding the fasta file, hmm file and aln file has to be located in core_orthologs/
- --dataPath fDOG data directory containing searchTaxa_dir, coreTaxa_dir and annotation_dir
- --refSpec Reference taxon/taxa for fDOG.
- --coregroupPath core_ortholog directory containing ortholog groups of gene of interest
- --augustus Gene prediction is done by using the tool Augustus PPX
- --augustusRefSpec Augustus reference species identifier (use command: augustus --species=help to get precomputed augustus gene models)
- --out Output directory
- --assemblyPath Path for the assembly directory, (default dataPath)

"Outputs are saved at ~/Documents/fDOG/fdog/data/Xrcc2/"
出力例
探索する遺伝子ごとにディレクトリが作られ、オルソログ探索結果が保存される。ここではXrcc2/が作成される。
Xrcc2/

Xrcc2.phyloprofileはFASによる構造の一致度の結果となる。
> cat Xrcc2.phyloprofile

その他
- 同一の生物種でも、ゲノムアセンブリとアノテーションの品質によってオーソログの検出率が変わってしまう。特にゲノムの断片化が激しいと、1つの遺伝子が複数のスキャフォールドに跨ってしまい、正しく予測できなくなる。
- アノテーション済みゲノムであっても、Augustusなどの遺伝子予測ソフトが十分なヒントを得られず精度良く機能しなかった場合、実際にはゲノム上に存在するオルソログがアノテーション漏れ(Missingとなっている可能性がある。
- アノテーションされていても、オルソログサーチ時のカットオフ値が厳しすぎると進化的に離れたタンパク質を見逃す可能性がある。
- fDOG-AssemblyではAugustusとMetaEukという2つの異なる遺伝子予測手法を使用できる。MetaEukがデフォルトの遺伝子予測手法となっている。augustusを使用する場合は、パラメータとして--augustusを使用し、さらに--augustusRefSpecパラメータも使用する(#46)。
- "--parallel"を指定すると複数の種の相同遺伝子検索が並列に実行される (#62)
引用
Targeted ortholog search in unannotated genome assemblies with fDOG-Assembly
Hannah Muelbaier, Freya Arthen, Vinh Tran, Ina Schaefer, Miklos Balint, Ingo Ebersberger
bioRxiv, Posted September 21, 2025.
関連