Difference in contig classification using NCBI and GTDB

danpal · May 5, 2023, 4:16pm

I constructed some FASTQs with equal amount of reads from Escherichia coli and Pseudomonas aeruginosa, and assembled contigs using megahit. For the contigs binning I used the next commands:

diamond blastx -q conitgs.fasta -d nr.dmnd -o test.daa -F 15 -f 100 --range-culling --top 10 -p 16
daa-meganizer -i test.daa -mdb megan-map-Jan2021.db --longReads

The NCBI view shows close to 50% Escherichia and 50% Pseudomonas, but

The GTDB view shows close to 50% Escherichia and 50% not assigned

Is there an explanation for this?

Daniel · May 9, 2023, 2:24pm

This does not look good… Could you please share your test.daa file with me and I will look into this.

danpal · May 9, 2023, 3:02pm

Some more info:
Version: MEGAN Community Edition (version 6.24.20, built 5 Feb 2023)
Map File: megan-map-Feb2022.db
NR download: 29 april 2023

Here it is the test.daa file

Please tell me when you have downloaded it to remove it

Daniel · May 9, 2023, 3:38pm

I have downloaded the file, you can remove it.

Daniel · May 9, 2023, 5:30pm

One thing that I notice when looking at your file is that there appears to be an issue with the current version of DIAMOND.

For example, your sequence test_F0-N0-O0_479 has length 246 and received 3,103 alignments from DIAMOND. While many of the alignments are to different Pseudomonas species, these appear to have no affect because MEGAN uses a heuristic to avoid looking all all 3,103 alignments to place such a tiny contig.

Which version of DIAMOND did you use? Perhaps try using DIAMOND v0.9.36, available here:

Please let me know whether this solves the problem.

danpal · May 9, 2023, 9:24pm

I am using the container docker://quay.io/biocontainers/diamond:2.0.15–hb97b32f_1

I will try the v0.9.36

Daniel · May 10, 2023, 11:03am

I have forwarded the issue to Benjamin Buchfink, the author of DIAMOND. He would like to have access to the original input file. Please send me an email and I’ll pass your email address on to him. You can find my email address here

danpal · May 10, 2023, 7:55pm

I have been testing and found something very odd, in test.daa I use the Inspect menu option in, for example, Pseudomonas aeruginosa B136-33. In there the sequence test_F0-N0-O0_155 has the next DATA:

test_F0-N0-O0_155 [length=2,655, matches=1,748]
>test_F0-N0-O0_155
ACCTGGCCGCCACGGTTGTCGAGATCGCCACGGGTCTTGACCACGGCGCGGTCCCGGCTCTGCAACAGGCCGTCCTGGCGGTTGTCCAGGCTGCTCGCCTCGACCCGCAGTTCGCCCTCGGCGAGCAGCTTGCCGCCACG
GTTGTCCAGGTGCCCGGCGTCGACCCGGACGGTCGCCCCCTTCAGGCTGCCGCCCTGGTTGTCCAGCGCCTGGCTCGCCTTCGCTTCCAGCGCGCGGCTGGCCACCAGGCTGCCGGCGTTGCGCAGGGTGCCGCTGCGCA
GCTCGAGGTCGCCACGCGCGTTGCGTCGCTCGTCTGGCTCGACGCCGGCTTCGATCACCCCGGCGTTGTCGATATGCGCCGCCTCCAGCGCGATGCGTTCGCGCGCCGCCAGGCTCTGCCGGTTGACCAGTTCCTCCGCG
CTGCGAATCTCGGCGCTGCCGCCGGCGTAGGTCTTGCCGTTCAGCTCCACGGCCTGGGCCGCGATCTTCAGGTCGCCCTGGCTGGAGGCCTGGGCCAGGCTCAGCTTGCCGCTGGCGTCGATGCGGATGTCGCCGCCGCT
GGCGGCCATGTCGCCGGCCAGCTTCACCCCCACGCCCTGCTCGGTGCCGACCAGGCGGATCGCCCCGGCGTACATCCCGCCCAGCGCCGAGCTGTCGATCGCCAGCTGCGGCTTCTCGCTGCCATCGGCGGCGCGCGGCG
TGGCCTGCAGGCTGTCGGCCTGGACGTCGTTGCGGCCGGTGACGATGTTGAGGTTCTTCGCGTAGAGCTTGGCGTTGAGCTTGGCGCTGCGGGTGATCAGGTCGAACTGTTCGAGGTTGCCGACGTTCAGTTCGGCGCCT
TCGACGACGATGTCGCCGCCGTCCACCTGGAAGCGCTCCAGGCGCTGGCCGTCCATGATCGGCTTGCCGGTGGTGAGGGTCGCGCGCGGCGTGTTGATGAAGCCGCAGCCCTGGCAGGTGATGCCGTGCGGGTTGGCGAC
GATCACCCGCGCCGACTGCCCGGCCACCTCGGTGTAGCCGGCCAGGGTGCTGCGGTTGCCGCCGGTGACCTGGTTGAGGATCACCTGCGCCGCCGGGCCCTTGAGGTTGGGGTTGCCGAGGATGATCCCGCCGAGCTGGG
TACCCTGGGTCTTGCCGGTAGCGTTGTTGAGGATCAGCCCGTTGGCGCCGACGTTGTAGTCGCGGAAATGGTTGTTCGACAGCCCGGCGCCGTTGGGCGTGGCGATATTGACGATGGGCACGCCGTTGCCCGCCTGGCCC
AGGCCGGTGTTGCCGCCGGCGGCCTTGTCCAGCGCCAGCCCCGCCGCCGCGGCGACGATCGGGTTGAGGAACAAGATGCCGGCCAGGGACAGGGCGATGCACTGGTTCAGCGGGCTGCGGATGTCCATATCGTTACTCCT
TGGCGGGTAGGGGCCCGGCGAGGTTAAGCAAGGTTTTCCAAGGAAAGGGCCTCGATGCAGGTAGGCGCTTTCCTAAAGCGTTCAGGAGGTCGCCGCGTCTTCAGAAGAACGCGTCGACCCGGAAATAGATCGGGTGCTCG
CGCCGCTCGATGGCGCTGGGCCGCTCCAGCGAGCGGGCGAAGCCGACGCTGGCGGCGAAATAGCGGCCGCGGGCATCCAGTTCGATGGCGTTGCCGCTCATGCGCCCGCTGGCGCCGTCGTTGTAGCGGTCGTGGCGGAT
CACGCCGACGTCGTAGGCGAAGGCCACGCCGTATTCCTGCAGCCAGGGCCGCAGCGGCGCCCACTCCACCGCGCGCCGCCAGCGCAACTGGTTGCGCCAGTAGCCGCCGCTGTCGCCGGTCAGGGTCTGGTCCTTGAAGC
CGCGCACCGAGCTGTTGCCGCCGAGGCTGATGCGCTGCGGGCTGAACAGCACGTCCTCGCTCCTCTGCCCGGTGGCCAGGCTGTCGAAGCTGAAGCGCTCGCCCCATAGCTGGAACGGCTGCAGGTAGCTGAGGGTCAGG
CTGTACTTGTCGTAGCGCGCATTCGGATCGCCCGCCTGCGGGTGGCCGCGACCCTGCGCGCCAAGGGCGCCGATGCCCTGCTGCCAGCCGAGGTCGAGGTTGACGAAGCCGCTGCCGATCCGCCGGCCATGGTTGAAGCC
GAGCTGGGTCTCGGTGATCCGCGTGCTCTGGTCTTCCAGGCGGGTGTCTTCGAGATAGTTGTTGGTGCGCTGGTGGCTGAGCCCCAGGCTCATGGCGGTCTTGCTCACACCGTCGCGGTGCAGCACGCGTTCGGCGCGGA
ACTGGTGGCTGCGGCTGTCGCCATCGAGCTTGAAGGGGAAGCCGCTGGCCTCGTTGCGCGTGCGGTAGTCGCTCTGGCTGTAGCCGTAGGTGAAGGTCCACCAGCCCCAGGGCAGGCTGTAGAACAGGCTCTGGCTGTCG
GAATGGCGCCAGCGGTCGGTCACCGCGTCGCGGTTGGCGCGCAGGTTGAGCTGGTCGGCCAGGCCCAGCGGGCTGTCCCAGTCCAGGCCCAGGCCCATCTGCTGCTCGCCGGTGCTGACGTCGCCGTCGTTGTTGCGCGT
GGCGGAGACCCGCCAGGGCTTGTCGCGCTCGCCCTTGAGACGCACCCGGCTGCCGCCGACCTCGCTGCCGGGCACCAGCTCCAGTTGCGCCTGGCGCGACGGCAGGCGGCTCAACTGGTCGACCAGTTGCTCCAG

but if i search this sequence in my fasta, only test_F0-N0-O0_1 (length: 1211306) has this sequence as a subsequence, and if I use diamond view on the test.daa file, test_F0-N0-O0_155 only has 25 matches and are all different than the ones I see in the inspect view.

Also, diamond view and the Inspect view reports a length of 2,655 for test_F0-N0-O0_155, but the actual length is 3049