banner
Heim / Blog / MArVD2: ein durch maschinelles Lernen verbessertes Tool zur Unterscheidung zwischen archaealen und bakteriellen Viren in viralen Datensätzen
Blog

MArVD2: ein durch maschinelles Lernen verbessertes Tool zur Unterscheidung zwischen archaealen und bakteriellen Viren in viralen Datensätzen

Aug 11, 2023Aug 11, 2023

ISME Communications Band 3, Artikelnummer: 87 (2023) Diesen Artikel zitieren

370 Zugriffe

10 Altmetrisch

Details zu den Metriken

Unser Wissen über den viralen Sequenzraum ist mit fortschreitenden Sequenzierungstechnologien und groß angelegten Probenahme- und Analysebemühungen explosionsartig gewachsen. Obwohl Archaeen in vielen Systemen wichtige und häufig vorkommende Prokaryoten sind, ist unser Wissen über Archaeenviren außerhalb extremer Umgebungen begrenzt. Dies ist größtenteils auf das Fehlen einer robusten, durchsatzstarken und systematischen Methode zur Unterscheidung zwischen bakteriellen und archaischen Viren in Datensätzen kuratierter Viren zurückzuführen. Hier aktualisieren wir unser früheres textbasiertes Tool (MArVD), indem wir einen Random-Forest-Algorithmus für maschinelles Lernen trainieren und anhand eines neu kuratierten Datensatzes archaischer Viren testen. Nach der Optimierung stellte MArVD2 eine deutliche Verbesserung gegenüber seinem Vorgänger in Bezug auf Skalierbarkeit, Benutzerfreundlichkeit und Flexibilität dar und wird benutzerdefinierte Trainingsdatensätze ermöglichen, während die Entdeckung archaischer Viren voranschreitet. Das Benchmarking zeigte, dass ein Modell, das mit Virussequenzen aus der Umgebung von Hypersaline, Meer und heißen Quellen trainiert wurde, 85 % der Archaeenviren korrekt klassifizierte, wobei die Falscherkennungsrate unter 2 % lag. Dabei wurde ein Schwellenwert für die zufällige Waldvorhersage von 80 % in einem separaten Benchmarking-Datensatz von verwendet die gleichen Lebensräume.

Die Nährstoff- und Energiekreisläufe der Erde werden von winzigen mikrobiellen Motoren angetrieben [1]. Während Bakterien häufiger untersucht werden, wächst die Erkenntnis, dass auch Archaeen von entscheidender Bedeutung sind [2, 3]. Beispielsweise können Archaeen fast die Hälfte der mikrobiellen Gemeinschaft im mesopelagischen Ozean ausmachen [2]. Hier sind die Nitrososphaeria (früher Thaumarchaeota) die primären Ammoniakoxidatoren, die zu den globalen Treibhausgasemissionen (N2O) beitragen und für den Großteil des Verlusts an festem Stickstoff unterhalb der photischen Zone verantwortlich sind [3,4,5]. In den letzten Jahrzehnten gefährdet eine Rückkopplung zwischen der durch den Klimawandel verursachten Ausbreitung sauerstoffarmer Regionen im mesopelagischen Ozean, wo Nitrososphaeria gedeiht, und dem daraus resultierenden Anstieg der Treibhausgasemissionen aus diesen Regionen einige der produktivsten Meeresumwelten der Welt [6,7 ,8]. In Feuchtgebieten und Permafrostböden machen die dominanten methanogenen Euryarchaeota bis zu 40 % der weltweiten Methanproduktion aus, von denen ein Großteil durch gleichzeitig vorkommende Methanotrophe weiter oxidiert wird [9]. Dies ist besonders besorgniserregend, da ein Großteil des weltweiten Bodenkohlenstoffs in Permafrostregionen gespeichert ist, die sich mit steigenden globalen Temperaturen rasch in Feuchtgebiete verwandeln und somit in Zukunft eine potenzielle Hauptquelle für atmosphärisches Methan darstellen [10]. Angesichts der Häufigkeit und der entscheidenden biogeochemischen Rolle, die Archaeen in diesen und anderen Systemen spielen, ist die Kenntnis der sie infizierenden Viren für fundierte ökologische Bewertungen und prädiktive Klimamodelle von entscheidender Bedeutung.

So wie Bakterien im Vergleich zu Archaeen in den meisten natürlichen Ökosystemen gut untersucht wurden, gilt das Gleiche auch für Bakteriophagen im Vergleich zu Archaeenviren. Fortschritte in der metagenomischen Sequenzierung, der Ökogenomik-Sample-to-Sequence-Pipeline, Best Practices bei der Virusidentifizierung [11,12,13,14] und Analyseplattformen wie iVirus, die diese Fähigkeiten demokratisierten [15, 16], haben die Entdeckung von ermöglicht Hunderttausende bakterielle Viren oder Phagen aus Umgebungen auf der ganzen Welt [17,18,19,20]. Diesen Phagen wird zugeschrieben, dass sie einen erheblichen Einfluss auf die Wirtssterblichkeit, den horizontalen Gentransfer und die metabolische Neuprogrammierung haben [21,22,23,24,25,26,27], und zwar auf eine Weise, die sich auf kritische Ökosystemfunktionen wie den globalen Kohlenstoffkreislauf der Ozeane auswirkt [28]. Daher ist unsere Fähigkeit, Phagen zu „sehen“, stark, und dies hat zu bahnbrechenden Fortschritten in unserem Verständnis darüber geführt, wie Phagen Ökosysteme beeinflussen.

Im Gegensatz dazu sind archaische Viren, die traditionell in „extremen“ Umgebungen wie sauren heißen Quellen, hypersalinen Teichen, anaeroben Sedimenten oder hydrothermalen Quellen untersucht wurden, in den meisten metagenombasierten Studien auf globaler Ebene stark unterrepräsentiert [29,30,31, 32,33]. Beispielsweise wurden bisher weniger als 230 marine Archaeenviren vertraulich in mehreren metagenomischen oder kulturbasierten Studien identifiziert [18, 32, 34,35,36,37,38,39,40,41,42]. während eine kürzlich durchgeführte Untersuchung einzelner globaler Ozeane über 488.000 Viruspopulationen ergab, von denen es sich bei den meisten vermutlich um Phagen handelt [17]. Insgesamt gehen wir davon aus, dass inzwischen gut dokumentierte Genome oder große Genomfragmente von weniger als etwa 380 Archaeenviren verfügbar sind, mit weiteren 6027 mutmaßlichen Archaeenviren im IMG/VR-db v3.0 [43], was einem winzigen Bruchteil entspricht im Vergleich zu den Hunderttausenden Populationsgenomen, die jetzt für Phagen verfügbar sind [17,18,19,20]. Eine Erklärung dafür könnte sein, dass die Entdeckung neuartiger Archaeenviren größtenteils auf Sequenzhomologiesuchen in öffentlichen Referenzdatenbanken basiert, die von Viren aus extremen Umgebungen bevölkert sind, und dass vielen Archaeenviren die Homologie zu diesen Referenzen fehlt [44]. Diese „extremen“ Archaeenviren sind möglicherweise keine guten Vertreter dieser Archaeenviren aus relativ nicht extremen Umgebungen, ungeachtet der unglaublichen Vielfalt an Morphologien und Lebensstilen, die sie aufweisen [29, 45, 46, 47, 48]. Daher bleibt die Unterscheidung von Bakteriophagen von Archaeenviren in Datensätzen aus relativ nicht extremen Umgebungen mit aktuellen Ansätzen trotz der deutlichen genomischen und evolutionären Unterschiede zwischen Phagen und Archaeenviren eine Herausforderung [29, 45, 46, 49, 50, 51, 52]. ]. Infolgedessen bleibt die ökologische Rolle von Archaeenviren in relativ nicht extremen Umgebungen größtenteils unklar, auch wenn es Hinweise darauf gibt, dass sie möglicherweise ein wesentlicher Bestandteil des biogeochemischen Kreislaufs und der Dynamik der Wirtsgemeinschaft sind [36, 53, 54, 55].

Der derzeitige Ansatz zur Identifizierung von Archaeenviren anhand metagenomischer Daten basiert auf Sequenzähnlichkeitssuchen in Referenzdatenbanken, was angesichts des Mangels an Referenzgenomen für nicht-extreme Archaeenviren eine erhebliche Einschränkung darstellt. Dennoch haben wir mit diesem Ansatz zuvor ein annotationsbasiertes Tool, den Metagenome Archaeal Virus Detector oder MArVD, zur Identifizierung von Archaealviren entwickelt und damit 43 Archaealviren aus einem metagenomischen Datensatz der Meeressauerstoffminimumzone entdeckt (32). MArVD ist nun aus drei Gründen reif für ein Update: (i) das ursprüngliche Tool ist auf andere nicht unterstützte Software angewiesen [56], (ii) maschinelles Lernen hat sich in der Virenökogenomik für diese Art von Klassifizierungsaufgabe als leistungsstarke Lösung erwiesen (z. B. DeepVirFinder). [57], MARVEL [58], VIBRANT [59] und Virsorter2 [60]) und (iii) es gibt einen wachsenden Satz neuer Referenzgenomdaten, die aufgrund der Bemühungen mehrerer Gruppen zur manuellen Identifizierung archaischer Viren anhand der metagenomischen Sequenzierung verfügbar sind Datensätze [32,33,34,35,36,37] und isolatbasierte Datensätze [38,39,40,41,42].

Hier stellen wir MArVD2 (Metagenomic Archaeal Virus Detector v2.0) vor und vergleichen es umfassend als ein auf maschinellem Lernen basierendes Upgrade von MArVD, das kuratierte Archaeal-Virusdaten sowohl aus extremen als auch nicht-extremen Umgebungen verwendet, um die für solche Archaeal-Viren repräsentativen genomischen Merkmale besser zu nutzen für die Entdeckung neuartiger Archaeenviren. MArVD2 verwendet als Eingabe einen Datensatz viraler Contigs, der von Tools wie DeepVirFinder [57], MARVEL [58], VIBRANT [59] und Virsorter2 vorab identifiziert wurde, und gibt eine Liste von Viren mit ihrer Wahrscheinlichkeit, ein Archaeal zu sein, zurück Virus.

MArVD2 ist ein Random-Forest-Klassifikator, der im Scikit-Learn-Python-Paket für die Entdeckung neuartiger Archaeenviren implementiert ist (Abb. 1) [61], wo er mit separaten Datensätzen von Archaeenviren trainiert und getestet wird, um seine Leistung in einer Vielzahl von Umgebungen bestmöglich darzustellen ( Abb. 1). Die Integration von MArVD2 mit maschinellem Lernen führt zu mehreren praktischen und Leistungsverbesserungen gegenüber MArVD (Version 1) [32], einschließlich verbesserter Benutzerfreundlichkeit, geringerer Abhängigkeit von anderer Endbenutzersoftware, erhöhter Empfindlichkeit und größerer Flexibilität bei der Anpassung, wenn neue archaische Virendatenbanken entstehen. MArVD2 behält die sehr hohe Präzision seines Vorgängers mit erhöhter Genauigkeit bei und ermöglicht so eine robuste, weitreichende Erkennung von Archaeenviren aus metagenomischen Datensätzen.

Eine Darstellung der wichtigsten Datenverarbeitungsschritte und Datensätze, die bei der Entwicklung und dem Benchmarking von MArVD2 genutzt werden. MArVD2 arbeitet, wie hier beschrieben, in drei Modi. Zunächst (in Grün) werden ein Trainingsdatensatz kuratierter Archaeenviren und -Phagen sowie mehrere Datenbanken mit Referenz-Archaeenviren und -Phagen verwendet, um ein Modell für die Identifizierung von Archaeenviren zu entwickeln. Zweitens (in Orange) wird das Modell mit zusätzlichen kuratierten Archaeenviren und Phagen als Benchmarking-Datensatz implementiert, um die Leistung der Modelle zu bewerten. Drittens (in Blau) stellt ein Benutzer seinen eigenen Datensatz nicht klassifizierter dsDNA-Viren für die Vorhersage archaischer Viren mithilfe des Benchmark-Modells bereit. Beschreibung des Datensatzes siehe Text.

Um archaische Viren sowohl aus extremen als auch aus relativ nicht extremen Umgebungen besser darzustellen, haben wir zunächst mehrere Sammlungen archaischer Viren und Phagen aus verschiedenen Lebensräumen kuratiert, die als Referenzdatensätze für den Vergleich mit den Trainingsdaten, Trainingsdaten für die Merkmalsgenerierung und Benchmarking dienen Datensätze zur Modellvalidierung. Zu den Referenzdatenbanken, die zur Identifizierung genomischer Merkmale verwendet wurden, gehörten Archaeenvirus- und Phagenproteincluster aus öffentlich zugänglichen Repositorien (NCBI Nr., (62) und pVOGs (63)) sowie eine maßgeschneiderte Datenbank mit 206 Archaeenviren aus den Ozeanen, in denen neue Archaeenviren vorkommen schnell entdeckt, hier kuratiert als OcAVdb oder Ocean Archaeal Virus Database (siehe unten und Methoden für Kurationsdetails) [18, 32, 34,35,36,37,38,39, 41, 42]. Der Trainingsdatensatz für die zufällige Waldmodellgenerierung umfasst 70 nicht-marine Archaealviren aus der kuratierten VirSorter-Datenbank (64), 350 mutmaßliche marine Archaealviren, die aus dem östlichen tropischen Südpazifik (ETSP) identifiziert wurden (65, 66) und 437 zufällig ausgewählte Bakteriophagen aus viralem RefSeq (v85) (62), der von VirSorter kuratierten Datenbank (64) und dem ETSP-Datensatz (Abb. 1) (65, 66). Schließlich bestand ein Benchmarking-Datensatz zur Untersuchung der Leistung von MArVD2 unter verschiedenen Einschränkungen aus 230 mutmaßlichen Archaeenviren und einer zufälligen Auswahl von Phagen mit Genomen größer als 10 kb aus IMG/VR-db v2.0 [67]. zusammen mit 25 neu identifizierten marinen Archaeenviren aus zwei Stationen im Tara Oceans GOV2.0-Datensatz [17] in für Archaeen angereicherten Umgebungen (Stationen 72_MES und 122_MES). Zusätzlich zu den Archaeenviren, die bereits in den NCBI- und pVOGs-Datenbanken verfügbar sind, nutzen wir daher insgesamt 881 weitere Archaeenviren aus Meeres-, Hypersaline-, Thermalquellen- und anoxischen Umgebungen für Referenz-, Trainings- und Benchmarking-Datensätze und schaffen so eine solide Basis um archaische Viren sowohl aus extremen als auch aus relativ nicht-extremen Umgebungen darzustellen.

Als nächstes versuchten wir zu bestätigen, dass es sich bei den gesammelten Archaeenviren für die Referenz-, Trainings- und Benchmarking-Datensätze tatsächlich um Archaeenviren handelte. Zuvor erfolgte dies durch ein sorgfältiges manuelles Screening von Gen-Sharing-Netzwerken, phylogenetische Analysen, Sequenzhomologievergleiche sowie funktionelle und taxonomische Anmerkungen, die jeweils ergaben, dass sich archaische Viren mit diesen Ansätzen von Phagen unterscheiden lassen [18, 32, 34,35]. ,36,37]. Daher wurde die manuelle Bestätigung von Archaeen als wahrscheinlichem Wirt für die Referenz-Archaeenviren in OcAVdb, die Trainings-Archaeenviren und die Benchmarking-Archaeenviren wie folgt durchgeführt. Zunächst wurde vConTACT2 [68] verwendet, um zu bestimmen, ob sich die Archaeenviren untereinander zusammenballen und von Phagen trennen würden, wie zuvor beobachtet wurde (Abb. 2) [32, 49, 50, 52]. Zweitens wurde eine manuelle Überprüfung der von DRAMv (69) bereitgestellten funktionellen und taxonomischen Annotationen pro Gen verwendet, um archaeale oder archaeale Virussignaturen in jeder Sequenz zu identifizieren (Ergänzungstabelle 1).

Alle für die Entwicklung und den Test von MArVD2 verwendeten Sequenzen sind in diesem von vConTACT2 erstellten Netzwerk enthalten. Zu den Referenzviren zählen hier Viren aus RefSeq v85 sowie die OcAVdb. Trainingsviren sind solche, die aus den ETSP- und VirSorter-Datensätzen kuratiert wurden, wie im Text beschrieben. Benchmarking-Viren sind diejenigen, die aus dem IMG/VR- und GOV2.0-Testdatensatz kuratiert wurden, wie im Text beschrieben. Viren aus den Benchmarking-Datensätzen sind außerdem farblich gekennzeichnet, entweder als vorhergesagte Archaeenviren oder als Phagen, sowohl von MArVD als auch von MArVD2. Netzwerkmodule wurden nach der Einbeziehung von Referenz-Archaeen-Viren (Archaeen-Virus), Referenz-Phagen (Phagen) oder keinen Referenzviren (unbekannter Wirt) gruppiert.

Erstens ergab die Netzwerkanalyse [68] mit den OcAVdb-Referenzen und dem Training von Archaeenviren, die für die Modellentwicklung verwendet wurden, dass sich die meisten dieser Archaeenviren untereinander und/oder mit anderen Referenz-Archaeenviren gruppierten (Abb. 2) (Ergänzungstabelle 2). Von den 626 archaischen Viren, die für die OcAVdb-Referenzdatenbank und die Trainingsdaten ausgewählt wurden, wurden 569 in 71 Viruscluster oder VCs (ungefähr taxonomische Gruppen auf Gattungsebene [68]) mit 45 Ausreißern und 12 Singletons gruppiert. Zusammen stellten diese 18 Netzwerkmodule dar (miteinander verbundene Viruscluster, die einen Bruchteil ihrer Gene teilen [68]), die keine Überlappung mit Phagen hatten (Ergänzungstabelle 2). Die vConTACT2-Netzwerkanalyse ergab außerdem Gruppierungen von Archaeenviren in Module, die scheinbar separat mit den Poseidonales oder Nitrososphaeria assoziiert sind, was die vorhergesagten Wirte dieser Viren aus ihren jeweiligen Studien weitgehend bestätigte (Ergänzungstabelle 2) [18, 32, 34, 35, 36, 37]. ]. Eine weitere Untersuchung der funktionellen Annotation der OcAVdb-Referenz und der Trainings-Archaeenviren ergab, dass im Durchschnitt 17 % (Standardabweichung 11 %) bzw. 27 % (Standardabweichung 23 %) der ORFs pro Sequenz eine Annotation von KEGG [70] bzw. erhielten virales NCBI [62] gemäß DRAMv [69] (Ergänzungstabelle 1). Der Trainingsdatensatz erhielt wahrscheinlich mehr Anmerkungen, da er einen höheren Anteil an Archaeenviren aus hypersalinen Umgebungen enthielt, in denen Archaeenviren besser charakterisiert sind [52]. Von den Archaeenvirus-ORFs, die eine Anmerkung in der OcAVdb-Referenzdatenbank und im Trainingsdatensatz erhalten, waren 55 % (Standardabweichung 25 %) bzw. 71 % (Standardabweichung 21 %) mit Referenzarchaeen oder Archaeenviren verbunden. In OcAVdb- und Trainingsdatensätzen kodierten alle bis auf 6 bzw. 2 Sequenzen mindestens einen archaealen Virus-ähnlichen ORF und diejenigen, bei denen im Allgemeinen überhaupt kein sehr geringer Anteil ihrer Gene annotiert war (Ergänzungstabelle 1). Bemerkenswert ist, dass zu Beginn der Kuratierung von OcAVdb 20 Contigs als wahrscheinlich fälschlicherweise identifizierte Archaeenviren entfernt wurden, da nur ein geringer Anteil von Genen mit Referenz-Archaeenviren oder Archaeen assoziiert war (nur 9 von insgesamt 358 annotierten ORFs) und die Netzwerkclusterung nicht mit dem übereinstimmte wird von Archaeenviren erwartet [32, 49, 50, 52]. Die meisten davon wurden ursprünglich durch k-mer-frequenzbasierte Wirtsvorhersagemethoden identifiziert, die fehlerhaft sein können, wenn der Wirtsdatensatz die Diversität der gleichzeitigen mikrobiellen Gemeinschaft nicht gut widerspiegelt (Ergänzungstabelle 2) [71]. Im Gegensatz dazu ergab die Untersuchung der funktionalen Annotation von 200 zufällig ausgewählten Phagen aus dem Trainingsdatensatz unter Verwendung des gleichen Ansatzes wie oben, dass im Durchschnitt 70 % (Standardabweichung 33 %) der Phagen-ORFs annotiert waren und nur 2 % (Standardabweichung 6 %). ) davon im Zusammenhang mit Referenzarchaeen oder Archaeenviren (Ergänzungstabelle 1). Während mehrere dieser Phagen aus gut kuratierten öffentlichen Datenbanken (NCBI (62) und dem von Virsorter kuratierten Datensatz (64)) abgeleitet wurden und außergewöhnlich gut kommentierte Viren darstellen, deutet dies dennoch darauf hin, dass Phagen einen relativ geringen Anteil an ORFs haben, die sich verbinden mit Archaeen oder Archaeen-Viren, im Vergleich zu echten Archaeen-Viren.

Als nächstes nutzt die manuelle Kuratierung der Benchmarking-Archaeenviren, die zur Bewertung der Leistung des Random-Forest-Modells verwendet werden, erneut die Netzwerkanalyse [68] und funktionale Anmerkungen [69]. Die Netzwerkanalyse mit dem Benchmarking-Datensatz ergab, dass 649 der insgesamt 1402 Sequenzen (183 Archaeenviren und 465 Phagen) in 234 VCs (56 Archaeenviren, 178 Phagen) mit 354 VC-Ausreißern (68 Archaeenviren und 287 Phagen) und 399 Singletons gruppiert waren ( 23 Archaeenviren und 376 Phagen) (Abb. 2, Ergänzungstabelle 2). Von den 1003 Cluster- oder Cluster-Ausreißerviren fielen 201 Archaeenviren und 582 Phagen in Module mit entsprechenden Archaeenviren oder Phagen aus den OcAVdb-, NCBI- (62) oder pVOGs-Datenbanken (63). Im Folgenden bezeichnen wir diejenigen Archaeenviren, die in dasselbe Modul mit Referenz-Archaeenviren fielen, als „verifizierte Archaeenviren“, während diejenigen Phagen, die sich mit Referenzphagen gruppierten, als „verifizierte Phagen“ bezeichneten. Benchmarking-Archaeen-Viren, die sich untereinander gruppieren, aber kein Referenzvirus haben, wurden als „mutmaßliche Archaeen-Viren“ betrachtet, und diejenigen, die sich überhaupt nicht im Netzwerk auflösten, werden als „Archaeen-Virus-Singletons“ bezeichnet, wiederum mit gleichwertiger Nomenklatur für die Phagen . Überraschenderweise 20 zusätzliche IMG/VR-Phagen [67], geclustert mit archaischen Viren aus OcAVdb, NCBI [62] oder der VirSorter-Datenbank [64], was möglicherweise auf eine falsche Annotation dieser Viren in IMG/VR hinweist und die Gesamtzahl ergibt von verifizierten Archaeenviren bis zu 221 (Ergänzungstabelle 2).

Funktionelle und taxonomische Annotationen für die Archaealviren im Benchmarking-Datensatz ergaben, dass durchschnittlich 47 % (Standardabweichung 33 %) der ORFs pro Sequenz eine Annotation von DRAMv erhalten [69]. Von den ORFs, die eine Zugehörigkeit erhielten, stimmten 76 % (Standardabweichung 30 %) entweder mit Archaea- oder Archaea-Viren aus den KEGG- (70) oder NCBI-Virusdatenbanken (62) überein. Nur 10 dieser Sequenzen kodierten kein nachweisbares archaisches Signal, von denen 7 <10 % ORFs aufwiesen, die irgendeine Zugehörigkeit erhielten. Unter den 20 IMG/VR [67]-Phagen, die als Archaeenviren vorhergesagt wurden, stimmten 78 % (Standardabweichung 28 %) der annotierten Gene entweder mit Archaeen oder Archaeenviren überein (Ergänzungstabelle 1).

Diese Analysen, sowohl durch Gen-Sharing-Netzwerke als auch durch genomische Funktionsannotationen, weisen darauf hin, dass es sich bei den Archaeenviren in der OcAVdb-Referenzdatenbank, dem Trainingsdatensatz und dem Benchmarking-Datensatz höchstwahrscheinlich um echte Archaeenviren handelt. Entscheidend ist, dass diese kuratierten Datenbanken die verfügbaren Referenzen zu Archaeenviren drastisch erweitern, die nun für eine sensiblere Entdeckung von Archaeenviren in nicht extremen Umgebungen genutzt werden können.

Mit den nun ausreichend verfügbaren Referenz-, Trainings- und Benchmarking-Daten versuchten wir als nächstes, das Tool MArVD2 für eine skalierbarere, benutzerfreundlichere und empfindlichere Identifizierung archaeischer Viren durch die Einbindung von maschinellem Lernen zu entwickeln. Zu diesem Zweck füllt MArVD2 zunächst eine Merkmalstabelle aus, die aus einem Satz von 27 genomischen Merkmalen besteht, die wir als informativ für die Identifizierung archaeischer Viren festgelegt haben (Ergänzungstabelle 3), und nutzt dabei mehrere Datenbanken und Tools wie folgt. Zunächst werden ORFs mit Prodigal [72] vorhergesagt, was Informationen zur Genlänge, Gendichte und Strangverzerrung liefert. Zweitens werden funktionale und taxonomische Annotationen bereitgestellt, indem (i) MMseq2 (73) zur Suche nach proteinkodierenden Regionen gegen Viren in der NCBI-Nr-Datenbank (62) und (ii) hmmsearch (74) zur Suche in der pVOGs-Datenbank (63) verwendet wird. und (iii) iterative Jackhmmer-Suchen [74] gegen OcAVdb (Abb. 1). Anschließend wird eine fünffache Kreuzvalidierung verwendet, um rekursiv nur die wichtigsten Merkmale basierend auf dem Gini-Wichtigkeitsindex [75] zu identifizieren und beizubehalten (ergänzende Abbildung 1A, B). Schließlich implementiert MArVD2 dann die resultierende Funktionstabelle in die Entwicklung eines zufälligen Waldmodells für maschinelles Lernen zur Identifizierung archaischer Viren, wobei die Trainingsdaten im Verhältnis 70:30 in Trainings- und Out-of-Bag-Testdatensätze aufgeteilt werden [75]. .

Die Auswertung der Entwicklung des Random-Forest-Modells zeigt, dass MArVD2 mit dem Trainingsdatensatz ein hohes Maß an Leistung aufweist. Unter Verwendung von Permutationen des Trainings- und Out-of-Bag-Testdatensatzes erreichte der F1-Score (harmonischer Mittelwert von Präzision und Recall, wobei ein Score von 1 perfekte Präzision und Recall anzeigt) für die Modellentwicklung ein Plateau bei 0,98 unter Einbeziehung von nur 8 der wichtigsten Merkmale, obwohl festgestellt wurde, dass alle 27 Merkmale zur optimalen Modellleistung beitragen (ergänzende Abbildung 1A). Dies spiegelt sich auch in einem erheblich höheren Gini-Wichtigkeitswert für diese 8 Merkmale wider (ergänzende Abbildung 1B), was darauf hinweist, dass nur eine Teilmenge der 27 Merkmale für eine genaue Identifizierung des Archaeenvirus erforderlich war. Während der Erstellung des Random-Forest-Modells (nicht zu verwechseln mit der späteren Implementierung mit dem Benchmarking-Datensatz) wiesen nur 19 der 857 Trainingssequenzen (10 Archaeenviren und 9 Phagen) laut hierarchischer Clusteranalyse mit der Random-Forest-Nähe inkonsistente Klassifizierungen auf Matrix (Ergänzende Abbildung 2). Die Proximity-Matrix ist in diesem Fall ein Maß für die Ähnlichkeit zwischen den Endknoten aller Entscheidungsbäume im Random-Forest-Modell zwischen den gegebenen Sequenzen. Bei allen zehn handelte es sich um Viren von Halobakterien, Methanobakterien oder Thermokokken. Eine genauere Untersuchung insbesondere der Thermococci-Sequenzen ergab, dass es sich bei dieser und einer anderen Sequenz um pTN2-ähnliche Plasmide handelt, die Replikations- und Regulationsgene weitgehend mit anderen Thermococces-Viren teilen [76, 77], was den Wert der Iteration zwischen Modellklassifizierungen und manueller Inspektion weiter unterstreicht. Der Hauptunterschied zwischen den übrigen Proximity-Ausreißern und den anderen Trainingsdaten bestand in einer verringerten Anzahl von Treffern für den OcAVdb (Mittelwert 3,74 ± 1,72 gegenüber Mittelwert 18,02 ± 20,6, ANOVA p = 0,002), dem zweitwichtigsten Merkmal in den Modellen. Leistung, was darauf hindeutet, dass die OcAVdb-Referenzdatenbank für diese Ausreißer nicht repräsentativ ist. Darüber hinaus waren von diesen 19 schlecht charakterisierten Proximity-Ausreißern 16 entweder Singletons oder Ausreißer in der vConTACT2-Netzwerkanalyse [68], was wiederum darauf hinweist, dass diese Sequenzen einen schlecht abgedeckten Sequenzraum darstellen, häufig mit unvollständigen Vertretern, in den Referenzdatenbanken (Ergänzungstabellen 2). und 3). Dennoch zwang uns die hohe Genauigkeit bei der Klassifizierung der übrigen 410 Archaeenviren dazu, die Genauigkeit des Modells anhand eines separaten Datensatzes weiter zu bewerten.

Die zufällige Waldklassifizierung wird aus den kollektiven Bezeichnungen aller Entscheidungsbäume pro Eingabeabfrage gezogen, wobei die Vorhersagewahrscheinlichkeit der Anteil der Bäume ist, die einer bestimmten Klassifizierung zustimmen [61]. Diese Vorhersagewahrscheinlichkeiten können als Konfidenzintervalle interpretiert werden und bieten ein hohes Maß an Auflösung, um den Vorhersagebereich zu erkennen, in dem MArVD2 zuverlässig ist (Abb. 1) [61]. Diese Konfidenzmetriken werden jedoch aus dem Trainingssatz abgeleitet, und es empfiehlt sich, sie mithilfe eines unabhängigen Benchmarking-Datensatzes zu überprüfen, der hier sowohl archaische Viren als auch Phagen aus einer Vielzahl von Umgebungen umfasst (siehe oben). Von den 221 verifizierten Archaeenviren im Benchmarking-Datensatz klassifizierte MArVD2 212 korrekt, darunter 13 der von IMG/VR vorhergesagten Phagen, die sich mit Referenz-Archaeenviren gruppieren, während nur 9 verifizierte Archaeenviren übersehen wurden (Ergänzungstabelle 4). Weitere 47 mutmaßliche Archaeenviren wurden von MArVD2 ebenfalls korrekt klassifiziert. MArVD2 klassifizierte nur 18 der 582 verifizierten Phagen fälschlicherweise als Archaeenviren (Abb. 3A). Insgesamt hatte MArVD2 einen TPR, ACC, SPEC, MCC und FDR von 0,96, 0,97, 0,97, 0,92 bzw. 0,08 (Abb. 3B) (metrische Definitionen siehe ergänzende Abb. 3). Diese Ergebnisse können mit dem verglichen werden, was von einer geführten Homologiesuche ohne maschinelles Lernen zu erwarten wäre, indem dieselbe Analyse unter Verwendung des ursprünglichen MArVD (im Wesentlichen ein Regelsatz für die Identifizierung archaischer Viren mithilfe von Homologiesuchen) berücksichtigt wird. Das ursprüngliche MArVD hatte einen TPR, ACC, SPEC, MCC und FDR von 0,98, 0,92, 0,90, 0,79 bzw. 0,27, was zeigt, dass MArVD2 im Vergleich zu MArVD eine viel höhere Präzision, aber eine leicht geringere Genauigkeit aufwies (Abb. 3B) [32] . Zusammen mit der Tatsache, dass das ursprüngliche MArVD aufgrund seiner Abhängigkeit von nicht unterstützter Software nicht mehr funktionsfähig ist, und seiner relativen Unflexibilität, mit fortschreitender Entdeckung von Archaeenviren zu wachsen, macht dies MArVD2 seinem Vorgänger weit überlegen.

Ein Venn-Diagramm, das die Anzahl der verifizierten archaischen Viren und Phagen darstellt, die von MArVD2 im Benchmarking-Datensatz korrekt und falsch klassifiziert wurden. B Mehrere Leistungsmetriken aus der Analyse des Benchmarking-Datensatzes mit MArVD oder MArVDv2. Jede Metrik wird mit denselben proportionalen Einheiten aufgezeichnet, wobei höhere Werte auf eine bessere Leistung hinweisen, mit Ausnahme von FDR, wo ein niedrigerer Wert auf eine verbesserte Leistung hinweist. Mathematische Definitionen für jede Metrik sind in der ergänzenden Abbildung 3 verfügbar.

Um die Leistung von MArVD2 besser beurteilen zu können und zu bestimmen, welche Wahrscheinlichkeitsschwellen die optimalsten Ergebnisse liefern, haben wir die Betriebskennlinie des Empfängers im Verhältnis zu den Vorhersagewahrscheinlichkeiten von MArVD2 ausgewertet. Die verifizierten Archaeenviren aus dem Benchmarking-Datensatz hatten eine durchschnittliche MArVD2-Vorhersagewahrscheinlichkeit von 0,87 (Abb. 4) mit einem sehr hohen Wert der Fläche unter der Empfängerbetriebskurve (AUROC) (0,99) (Abb. 5A). Oberhalb dieser konservativen Wahrscheinlichkeitsschwelle wurden 71 % der verifizierten Archaeenviren (n = 157) identifiziert, wobei nur ein falsch positives Ergebnis unter den verifizierten Phagen auftrat. Die Senkung der Wahrscheinlichkeitsschwelle auf 0,80 erleichterte die korrekte Identifizierung von 85 % der verifizierten Archaeenviren (n = 188) mit nur 2 falsch positiven Ergebnissen unter den verifizierten Phagen. Der FPR überschreitet 2 % nicht, bis die MArVD2-Wahrscheinlichkeitsschwelle unter 0,55 fällt. Zu diesem Zeitpunkt klassifiziert MArVD2 95 % der echten Archaeenviren (n = 210) korrekt, mit 13 falsch positiven Ergebnissen unter den verifizierten Phagen und weiteren 20 unter den mutmaßlichen Phagen.

Verifizierte Archaeenviren sind solche mit Archaeen- oder Archaeenvirus-Genhomologen und gruppieren sich zu Modulen mit Referenz-Archaeenviren. Archaeal-Virus-Singletons sind Viruspopulationen, die entweder von IMG/VR (n = 22) oder unserer manuellen Kuration (n = 1) als Archaeal-Viren vermutet werden, aber sie sind in keinem der vConTACT2-Netzwerkcluster enthalten. Mutmaßliche Archaeenviren sind diejenigen, die von IMG/VR (n = 25) oder von unserer manuellen Kuration (n = 33) als Archaeenviren vermutet werden und im Netzwerk enthalten sind, jedoch ohne Referenzen. Äquivalente Notationen gelten für den mutmaßlichen (n = 144), den Singleton- (n = 347) und den verifizierten (n = 582) Phagen.

Eine Receiver Operating Characteristic Curve (ROC), die die MArVDv2-Empfindlichkeit (TPR) im Vergleich zum FPR darstellt. B Präzisionskurve (TP/TP + FP) vs. Empfindlichkeitskurve (TPR) (PR) für MArVDv2-Vorhersagen. Die Daten für (A) und (B) stammen aus den MArVD2-Ergebnissen des IMG/VR- und GOV2.0-Benchmarking-Datensatzes, wobei nur die manuell verifizierten Phagen- und Archaeenviren verwendet wurden. Quantitative Leistungsmaße für jede Bewertung werden als Fläche unter der Kurve in A und B angegeben, wobei die Leistung umso besser ist, je näher der Wert an 1 liegt. Die Wahrscheinlichkeiten der MArVD2-Vorhersage werden im Regenbogenfarbverlauf angegeben.

Bei Verwendung mit unausgeglichenen Datensätzen (d. h. mehr Phagen- als Archaeenviren) können Klassifikatoren mit einem niedrigen FPR in Benchmark-Datensätzen immer noch genauso viele oder sogar mehr falsch-positive Vorhersagen als wahr-positive Vorhersagen liefern, wodurch das Modell unwirksam wird. Zusätzlich zur Erkennung von Archaeenviren haben wir mithilfe einer Präzisions-Erinnerungskurve auch bewertet, ob MArVD2 Viren, die keine Archaeenviren waren, korrekt klassifizieren konnte. Auch hier ist der Wert der Fläche unter der Precision-Recall-Kurve (AUPRC) hoch (0,99), wobei die Präzision des Modells nicht unter 98 % fällt, bis die Empfindlichkeit 80 % überschreitet (Abb. 5B). Daher sollte die Leistung von MArVD2 nicht wesentlich durch potenziell unausgeglichene Datensätze beeinträchtigt werden, die viel mehr Phagen als Archaeenviren umfassen würden.

Zusammengenommen deuten diese Analysen darauf hin, dass MArVD2 mit einer permissiven Vorhersagewahrscheinlichkeit (wir empfehlen 0,80) die meisten archaealen Viren (~85 %) aus Meeres-, Hypersaline- und heißen Quellenumgebungen mit sehr wenigen falsch klassifizierten Phagen identifizieren wird.

Viele virale Datensätze sind mit kurzen Sequenzen oder erheblichen Mengen an mikrobieller Kontamination behaftet, die erhebliche Auswirkungen auf die Identifizierung und Klassifizierung von Viren haben können [78]. Um festzustellen, wie gut MArVD2 bei realistischen Datensätzen abschneiden würde, haben wir unseren Benchmarking-Datensatz in drei Testgruppen aufgeteilt, um die Auswirkung variabler Datensatzgröße, Sequenzlänge und mikrobieller Kontamination zu untersuchen. Der erste Testdatensatz enthielt zufällig ausgewählte Sequenzen aus dem Benchmarking-Datensatz mit Sequenzzahlen zwischen 5 und 75 % (in 25 %-Intervallen) der ursprünglichen Zahl. Der zweite Testdatensatz enthält Genomfragmente mit variablen Sequenzgrößen zwischen 1 kb und 10 kb (in 2,5 kb-Intervallen) aus dem Benchmarking-Datensatz. Der dritte Testdatensatz enthält unterschiedliche Anteile zwischen 10 und 75 % (in 25 %-Intervallen) zufällig ausgewählter mikrobieller Genomfragmente von IMG/M [79] (gleiche Teile Bakterien und Archaeen) mit Größen zwischen 10 kb und 200 kb.

Die Größe des Datensatzes im Hinblick auf die Anzahl der enthaltenen Sequenzen hatte einen vernachlässigbaren Einfluss auf die Leistung von MArVD2. Über alle Datensatzgrößenfraktionen hinweg (5 %, 25 %, 50 %, 75 % Anzahl der Originalsequenzen) gab es minimale Abweichungen bei TPR, ACC, SPEC, MCC und FDR im Vergleich zum Originaldatensatz (durchschnittlich 0,96, 0,97, 0,97). 0,92 bzw. 0,8) (Ergänzende Abbildung 4).

Andere maschinelle Lerntools zur Virusidentifizierung wie DeepVirFinder [57], MARVEL [58], VIBRANT [59] und Virsorter2 [60] weisen eine verringerte Leistung auf, da die Länge der Virusgenomfragmente abnimmt. Es überrascht nicht, dass wir festgestellt haben, dass die Leistung von MArVD2 bei zunehmend kleineren Fragmenten beeinträchtigt ist, wobei die TPR-, ACC-, MCC-, AUROC- und AUPRC-Werte bei Datensätzen mit Contigs > 10 kbp nur 90 % überschreiten (Abb. 6A und C). Die Ausnahme bildete die SPEC, die in den fraktionierten Datensätzen mit variabler Sequenzgröße (1 kb, 2,5 kb, 5 kb, 7,5 kb, 10 kb, >10 kb) hoch und nahezu unverändert blieb. Darüber hinaus blieb der FDR über alle Fragmentgrößen hinweg relativ niedrig und überschritt nie 15 % (Abb. 6A, C).

Eine MArVD2-Leistung im Verhältnis zur Contig-Größe unter Verwendung eines Wahrscheinlichkeitsschwellenwerts von 0,50. Die Werte wurden anhand der IMG/VR- und GOV2.0-Benchmarking-Datensätze berechnet, wobei die Contig-Größen in verschiedene Größenkategorien fragmentiert und zufällig die gleiche Anzahl von Eingabe-Contigs wie im ursprünglichen Datensatz ausgewählt wurden. B MArVD2-Leistung im Verhältnis zu unterschiedlichen Anteilen zellulärer Kontamination, unter Verwendung eines Wahrscheinlichkeitsschwellenwerts von 0,50, wobei die IMG/VR- und GOV2.0-Benchmarking-Datensätze durch zelluläre Genfragmente mit gleichen Anteilen an Archaeen und Bakterien mit einer Größe zwischen 10 und 200 kb ergänzt wurden. C, D Diese stellen dieselbe Analyse mit einem angepassten Wahrscheinlichkeitsschwellenwert von 0,80 dar, der unseren empfohlenen Schwellenwert widerspiegelt. Die rote Linie zeigt 0,90 an, wobei die Leistung als akzeptabel angesehen wird. Leistungsmetriken werden in der ergänzenden Abbildung 3 ausführlich beschrieben.

Ebenso führten zunehmende Mengen „kontaminierender“ mikrobieller Fragmente im Virusdatensatz zu einer höheren Wahrscheinlichkeit, eine nicht-virale Sequenz fälschlicherweise als Archaeenvirus zu identifizieren. Selbst bei 10 % Einbeziehung mikrobieller Sequenzen wurde der MCC von MArVD2 auf weniger als 90 % reduziert, während der FDR anstieg und ein Maximum von 53 % erreichte, wobei 75 % der Eingabedaten mikrobieller Natur waren. Interessanterweise waren MCC und FDR die einzigen Werte, die durch die Einbeziehung mikrobieller Sequenzen beeinflusst wurden, was darauf hindeutet, dass die echten Archaeenviren immer noch identifiziert wurden, die Falsch-Positiv-Rate jedoch aufgrund der Klassifizierung nicht-viraler Sequenzen durch Archaeenviren in die Höhe getrieben wurde (Abb. 6B). , D). Insbesondere bei Anwendung des oben empfohlenen Schwellenwerts für die Vorhersagewahrscheinlichkeit von 0,80 und Verwendung des mikrobiellen Datensatzes von 75 % wird der FDR auf 16 % reduziert, und die über diesem Schwellenwert identifizierten falsch positiven Ergebnisse stammten alle von Archaeen, die aus metagenomischen Datensätzen abgeleitet wurden.

Pragmatisch bedeutet dies, dass wir für die bestmögliche Leistung von MArVD2 die Verwendung von Datensätzen empfehlen, die aus Contigs bestehen, die nicht kleiner als 10 kb sind und die zuvor durch die verschiedenen derzeit verfügbaren Tools zur Virusidentifizierung sowie eines Archaeenvirus als viral identifiziert wurden Wahrscheinlichkeitsschwelle von 0,80 (Abb. 6B, D) [57,58,59,60].

Über diese minimalen Empfehlungen hinaus stellen wir fest, dass die zugrunde liegenden Trainings- und Testdatensätze, die zur Entwicklung von MArVD2 verwendet wurden, überwiegend aus Meeres-, Hypersaline- und Thermalquellenumgebungen stammen. MArVD2 wird bei der Vorhersage von Archaealviren aus anderen ungetesteten Umgebungen oder anderen taxonomischen Abstammungslinien, die nicht in den aktuellen Trainingsdatensätzen nicht vertreten sind, möglicherweise unwirksam sein, da noch nicht geklärt ist, ob sich diese Viren wesentlich von denen in den aktuellen Trainingsdatensätzen unterscheiden. Darüber hinaus ist unklar, ob MArVD2 mit Datensätzen funktioniert, die aus ssDNA-Viren bestehen, da es in dieser Funktion noch nicht getestet wurde. Obwohl dies derzeit einen Entwicklungsbedarf der „nächsten Grenze“ darstellt, ist MArVD2 so konzipiert, dass es diese bewältigen kann, sobald geeignete Referenzgenome verfügbar sind. Darüber hinaus besteht die Möglichkeit, dass eukaryontische DNA-Viren von MArVD2 fälschlicherweise als Archaeenviren identifiziert werden, obwohl sie noch nicht getestet wurden. Obwohl angenommen wird, dass die überwiegende Mehrheit der dsDNA-Viren Prokaryoten infiziert, weisen wir Benutzer darauf hin, sich dieser Faktoren bewusst zu sein.

Kontaminierende mikrobielle Sequenzen, Probleme, die sich aus der Erkennung von Provirus-Grenzen ergeben, und die Möglichkeit, neue, divergierende Virustypen zu übersehen, stellen erhebliche Herausforderungen für alle Bemühungen zur Virusidentifizierung dar. Diese Herausforderungen können noch verschärft werden, wenn weiter nach Archaeenviren mit relativ unbekanntem Sequenzraum gesucht wird, die in manchen Fällen erhebliche Teile ihres Genoms mit Wirtselementen teilen. Diese Schwierigkeiten stellen möglicherweise unvorhergesehene Mängel in der Leistung von MArVD2 dar. Wir empfehlen dem Benutzer dringend, jeden identifizierten mutmaßlichen Archaeenvirus sorgfältig zu untersuchen, um sicherzustellen, dass es sich bei der betreffenden Sequenz tatsächlich um einen Virus und einen Archaeenvirus handelt.

Die Identifizierung von Viren in der gesamten Virosphäre der Erde schreitet mit erstaunlicher Geschwindigkeit voran, wobei groß angelegte Sequenzierungs- und Probenahmebemühungen neue Möglichkeiten bieten, diese oft verborgenen, nanoskaligen Ökosystemakteure zu entdecken. Sobald sie identifiziert sind, besteht die Herausforderung darin, sie zu klassifizieren, wobei bakterielle [68, 80, 81] und eukaryotische Viren [80] große Fortschritte gemacht haben, archaische Viren jedoch zurückbleiben. Hier wollten wir eine kuratierte genomische Ressource und ein auf maschinellem Lernen basierendes Tool entwickeln, das unsere Fähigkeit verbessern wird, archaische Viren in nicht extremen Umgebungen zu erkennen, in denen Archaeen selbst zunehmend als wichtig erkannt werden [3]. Eine solche Fähigkeit, archaische Viren von anderen Viren zu trennen, wird eine zunehmende Auflösung beim Verständnis der ökologischen Interaktome [82, 83] ermöglichen, die das Erdsystem antreiben.

Alle Berechnungsanalysen wurden mithilfe des Ohio Supercomputing Center [84] oder des National Energy Research Scientific Computation Center am Lawrence Berkeley National Laboratory durchgeführt.

Die Datenbank mariner Archaeenviren (OcAVdb) wurde durch die Sammlung aller mutmaßlichen Archaeenviren erstellt, die bis 2019 aus marinen Metagenom-, Einzelzellgenom- und Virusisolationsstudien veröffentlicht wurden [18, 32, 34,35,36,37,38, 39,40, 42]. Dazu gehörten insgesamt 226 Archaeenviren, die mithilfe von vConTACT2 [68] manuell kuratiert wurden, um einen taxonomischen Kontext für jedes der mutmaßlichen Archaeenviren bereitzustellen, und mit DRAMv [69] zur Bereitstellung funktionaler Anmerkungen. In der endgültigen Datenbank wurden nur die Viren mit einer Größe von mehr als 10 kb beibehalten, die in ein Netzwerkmodul (eine Sammlung verwandter taxonomischer Cluster im Gattungsmaßstab) fielen, das nur aus anderen Archaeenviren bestand und Archaeen oder Archaeenvirus-ähnliche ORFs umfasste.

Der Trainingsdatensatz, der zur Entwicklung des MArVD2-Random-Forest-Modells für die Identifizierung archaischer Viren verwendet wurde, wurde unter Verwendung einer Kombination aus öffentlichen Referenzdatenbanken und Datenbanken erstellt, die vom ursprünglichen MArVD erstellt wurden (unten beschrieben) [32] und jeweils von vConTACT2 [68] auf Einbeziehung überprüft wurden Sequenzen, die in dasselbe Netzwerkmodul fallen wie ein Referenz-Archaeen-Virus, und funktionelle und taxonomische Anmerkungen, die mit Archaeen oder Archaeen-Viren aus DRAMv in Zusammenhang stehen (69). Insgesamt umfasst der Trainingsdatensatz 857 Virussequenzen, die größer als 10 kb sind, mit ungefähr gleichen Teilen Archaeenvirus und Phagen. Dazu gehören 194 Phagen aus der RefSeq-Datenbank der Version 85 (62), 112 Phagen und 70 Archaeenviren aus der VirSorter-Datenbank (64) sowie 131 Phagen und 350 Archaeenviren aus einem veröffentlichten Meeresumweltvirom des ETSP (65, 66). . Jeder dieser Phagen und Archaeenviren wurde für die Aufnahme in den Trainingsdatensatz ausgewählt, weil sie gemäß einer Netzwerkanalyse von vConTACT2 so viel wie möglich des taxonomischen Sequenzraums abdecken und aus einer Vielzahl von Umgebungen stammen, darunter heiße Quellen, hypersaline Teiche usw die Ozeane. Trainingsdaten wurden in der Modellerstellung von Scikit-learn in einem Verhältnis von 70 und 30 % Trainings- und Testdatensätzen implementiert [75].

Der Benchmarking-Testdatensatz wurde durch Mining des IMG/VR-db v2.0 [67] für alle archaealen Viren unter anderem aus Anreicherungskulturen, der Meeresumwelt, hypersalinen oder alkalischen Lebensräumen und Thermalquellen erstellt. Phagen wurden zufällig aus denselben Umgebungen ausgewählt, wobei Phagen aus Böden, Süßwasser und Süßwassersedimenten hinzugefügt wurden. Um den Mangel an Archaeenviren aus dem offenen Ozean im IMG/VR-Datensatz zu erklären, wurden durch das ursprüngliche MArVD weitere 25 mutmaßliche Archaeenviren aus zwei mesopelagischen Proben des offenen Ozeans im GOV2.0-Datensatz der Tara-Ozeane [17] identifiziert [32]. ] wie unten beschrieben und in diesem Testdatensatz enthalten. Alle Viren im Benchmarking-Datensatz waren >10 kbp.

Das ursprüngliche MArVD [32] wurde als Python 2.7+-Skript neu erstellt, um die Ausgabeinformationen der allgemein zugänglichen Virenidentifizierungssoftware VirSorter [64] zu verwenden. Diese neu gestaltete Version des ursprünglichen MArVD verwendet zunächst MetaGeneAnnotator [85] vorhergesagte Proteine ​​aus den von VirSorter identifizierten Viren und verwendet BLASTp [62], um anhand der Refseq-Datenbank (Version 77) zu suchen [62]. Funktionelle und taxonomische Anmerkungen werden dann in Übereinstimmung mit der Zielsequenz mit der höchsten Bewertung mit einem Bitscore > 50 und einem Wert > 0,001 vorgeschrieben. Diese Annotationen werden dann in die VirSorter-Genannotationsdatei „affi_contigs.csv“ integriert, wobei die von VirSorter abgeleiteten Pfam-Bezeichnungen (86) >40 Bitscore und <0,00001 Evaluierung beibehalten werden. Unter Verwendung dieser aktualisierten Annotationsdatei pro Gen funktioniert MArVD genau wie sein erster Ansatz [32]. Nur mutmaßliche Archaeenviren der MArVD-Kategorien 1 und 2, die Viren entsprechen, bei denen mehr als 66 bzw. 50 % ihrer annotierten Gene mit Archaeenviren assoziiert sind und deren Bitscore >75 und höher als die für die Phagenzugehörigkeiten ist, wurden als von MArVD vorhergesagte Archaeenviren beibehalten . Diese aktualisierte Version von MArVD ermöglichte die Erstellung der neuen Umwelt-Archaeen-Virus-Datensätze aus den ETSP- und GOV2.0-Datensätzen, die zum Trainieren und Testen von MArVD2 erforderlich sind, und ermöglicht den Vergleich der Leistung von MArVD mit MArVD2.

Aufschlussreiche Merkmale, die archaische Viren von Phagen unterscheiden, wurden zunächst identifiziert, indem eine Merkmalstabelle mit zahlreichen Genomattributen (z. B. durchschnittliche Genlänge, Gendichte, Strangverzerrung usw.) erstellt wurde (Ergänzungstabelle 3) und diese mit aggregierten Ergebnissen aus Suchen nach verschiedenen kombiniert wurde Datenbanken. ORFs wurden mithilfe von Prodigal [72] mit der Option „-p meta“ vorhergesagt. Jeder der endgültigen Merkmalssätze wurde entweder aus genomischen Attributen der Eingabesequenzen, einem MMseq2-Vergleich (73) mit der NCBI-Nr-Datenbank (62), einem hmmsearch-Vergleich (74) mit der pVOGs-Datenbank (63) oder einem Vergleich mit OcAVdb abgeleitet mit jackhmmer [74], jeweils mit Standardparametern. Werte und Attribute für jedes Feature pro Eingabesequenz wurden erstellt und in einer umfassenden Feature-Tabelle tabellarisch dargestellt, die die Grundlage für die Generierung des Random-Forest-Modells bildet [61]. Um mögliche Verzerrungen zu vermeiden, die im Random-Forest-Modell durch die Kokorrelation von Merkmalen entstehen, wurde eine Kokorrelationsanalyse durchgeführt. Merkmale mit Korrelationskoeffizienten von mehr als 0,95 wurden entfernt. Schließlich wurde jedes Virus als Archaeenvirus oder Phagen bezeichnet und in Pythons Scikit-Learn-Implementierung [75] des Random-Forest-Modells eingespeist. Eine manuelle Untersuchung aller hier verwendeten Archaeenviren (mit Ausnahme bekannter Archaeenviren in öffentlichen Repositorien) ist in der Ergänzungstabelle 1 aufgeführt.

MArVD2 erstellt zunächst die Feature-Tabelle wie oben beschrieben und berücksichtigt nur MMseq2-Treffer mit Werten <1e-5, hmmsearch-Treffer mit Werten für die vollständige Proteinlänge von <1e-10 und Jackhmmer-Treffer mit Werten von <1e-5. Das MArVD2 Random Forest-Modell wird dann vom Python-Scikit-Learn-Paket [75] erstellt. Um die optimale Anzahl an Features zu erhalten, um den höchsten F1-Score zu erzielen, wurde die rekursive Feature-Eliminierung verwendet. Features mit den niedrigsten Gini-Wichtigkeitswerten wurden iterativ entfernt, wobei mindestens fünf Features beibehalten wurden. Anschließend wird eine fünffache Kreuzvalidierung der endgültigen Genauigkeit des Modells anhand eines permutierten Satzes von Trainings- und Out-of-Bag-Testdatensätzen berechnet. Es wurden auch mehrere zusätzliche Algorithmen für maschinelles Lernen getestet, aber fast immer schnitt Random Forest am besten ab. Das endgültige Zufallswaldmodell und die vorläufige Merkmalstabelle für den Trainingsdatensatz werden für die spätere Implementierung mit anderen neuartigen Datensätzen gespeichert. Durch die erneute Ausführung des Modells mit neuen Eingabedaten wird eine neue Feature-Tabelle mit Vorhersagen zu archaealen oder nicht-archaealen Viren und den mit diesen Vorhersagen verbundenen Wahrscheinlichkeiten generiert. Hierarchisches Clustering und eine Visualisierung der Proximity-Matrix wurden mit den R-Paketen „vegan“ und „pheatmap“ durchgeführt [87, 88].

Mithilfe des aus IMG/VR [67] abgeleiteten Benchmarking-Testdatensatzes und der GOV2.0-Daten [17] bewerteten wir als nächstes die Leistung von MArVD2 bei der Unterscheidung von Archaeenviren von Phagen. Der Test-IMG/VR-Datensatz wurde erstmals von VirSorter als viralen Ursprungs bestätigt [64]. Die Unterscheidung zwischen archaischen Viren und Phagen wurde als nächstes von MArVD verifiziert und durch vConTACT2 (68) Netzwerkanalyse und manuelle Kuratierung der von DRAMv (69) bereitgestellten Funktionsanmerkungen bestätigt. Der verifizierte Phagen- und Archaealvirus-Datensatz von IMG/VR wurde dann größenfraktioniert, um Contigs mit Längen von 1 kb, 2,5 kb, 5 kb, 7,5 kb, 10 kb und >10 kb einzuschließen. Für die Größenfraktion >10 kbp wurde ein zweiter Testdatensatz mit unterschiedlichen Mengen an mikrobiellen Sequenzen mit gleichen Anteilen an Bakterien und Archaeen einbezogen. Genomfragmente aus mikrobiellen Sequenzen wurden zufällig aus der IMG/M-Datenbank [79] ausgewählt und nur einbezogen, wenn ihre Größe zwischen 10 kb und 200 kb lag. Mikrobielle Sequenzen wurden bei 10, 25, 50, 75 und 95 % der Gesamtdaten hinzugefügt. Durch den Einsatz von VirSorter wurde sichergestellt, dass mikrobielle Sequenzen nicht viral sind. Die Datensatzgröße im Hinblick auf die Anzahl der Contigs wurde ebenfalls getestet, wobei der Benchmarking-Datensatz in die Sätze 10, 25, 50, 75 und 95 % der Gesamtzahl der Contigs aus dem ursprünglichen Validierungsdatensatz unterteilt wurde.

Anschließend wurde eine Sensitivitätsanalyse des unveränderten Benchmarking-Datensatzes und jedes Datensatzes verschiedener Größenfraktionen und mit unterschiedlichen Anteilen der enthaltenen Zellsequenzen durchgeführt. Für jeden Datensatz wurden die True-Positiv-Rate (TPR), die Spezifität (SPEC), die Genauigkeit (ACC), der Matthews-Korrelationskoeffizient (MCC) und die Falscherkennungsrate (FDR) mithilfe des R-Pakets „EvaluationMeasures“ berechnet [89]. Die MCC-Berechnung wird hier einem F1-Score vorgezogen, da Umweltdatensätze in der Praxis wahrscheinlich einen überproportionalen Anteil an Phagen- und Archaeenviren aufweisen werden. Daher ist ein Test, der sowohl die wirklich positiven als auch die wirklich negativen Ergebnisse berücksichtigt, aussagekräftiger als einer, der nur die Ergebnisse berücksichtigt die wirklich positiven Aspekte. Für die MArVD-Analyse wurden auch TPR, SPEC, ACC und MCC berechnet. Für jeden Datensatz wurden AUROC- und AUPRC-Analysen mit dem R-Paket „PRROC“ durchgeführt [90]. Die Visualisierung der Wahrscheinlichkeit gegenüber dem Wirtsstamm und die statistischen Bewertungen wurden mit den R-Paketen „pROC“ (91) und „gglpot2“ (92) aufgezeichnet. Der Genaustausch zwischen archaealen Viren und Phagen wurde mithilfe von vConTact2 mit Standardeinstellungen durch Anpassen der „Schlüsselwörter“ in der Eingabe „proteins.csv“ bewertet.

Alle hier beschriebenen Datenbanken, Trainingsdaten, Benchmarking-Daten, OcAVdb und das Random-Forest-Modell sind auf Cyverse verfügbar unter https://de.cyverse.org/data/ds/iplant/home/shared/commons_repo/curated/DeanVik_MArVD2_Apr2022 https: //doi.org/10.25739/1ttq-2q60 und Zenodo unter https://zenodo.org/record/7768113/files/MArVD2_files.tar.gz MArVD2 ist verfügbar bei Bitbucket https://bitbucket.org/MAVERICLab/marvd2/ und als Bioconda-Paket unter https://anaconda.org/bioconda/marvd2.

Falkowski PG, Fenchel T, Delong EF. Die mikrobiellen Motoren, die die biogeochemischen Kreisläufe der Erde antreiben. Wissenschaft. 2008. https://doi.org/10.1126/science.1153213.

Artikel PubMed Google Scholar

Karner MB, DeLong EF, Karl DM. Archaeen-Dominanz in der mesopelagischen Zone des Pazifischen Ozeans. Natur. 2001;409:507–10.

Santoro AE, Richter RA, Dupont CL. Planktonische Meeresarchaeen. Ann. Rev. Mar. Sci. 2019;11:131–58. https://doi.org/10.1146/annurev-marine-121916-063141.

Artikel PubMed Google Scholar

Belmar L, Molina V, Ulloa O. Häufigkeit und phylogenetische Identität von Archäoplankton in der permanenten Sauerstoffminimumzone des östlichen tropischen Südpazifiks. FEMS Microbiol Ecol. 2011;78:314–26. https://doi.org/10.1111/j.1574-6941.2011.01159.

Artikel CAS PubMed Google Scholar

Santoro AE, Casciotti KL. Anreicherung und Charakterisierung von Ammoniak oxidierenden Archaeen aus dem offenen Ozean: Phylogenie, Physiologie und stabile Isotopenfraktionierung. ISME J. 2011;5:1796–808. https://doi.org/10.1038/ismej.2011.58.

Artikel CAS PubMed PubMed Central Google Scholar

Wright JJ, Konwar KM, Hallam SJ. Mikrobielle Ökologie expandierender Sauerstoffminimumzonen. Nat Rev Microbiol. 2012;10:381–94. https://doi.org/10.1038/nrmicro2778.

Artikel CAS PubMed Google Scholar

Gilly WF, Beman JM, Litvin SY, Robison BH. Ozeanographische und biologische Auswirkungen der Schwarmbildung der Sauerstoffminimumzone. Annu. Rev. Mar Sci. 2013;5:393–420. https://doi.org/10.1146/annurev-marine-120710-100849.

Artikel Google Scholar

Stramma L, Prince ED, Schmidtko S, Luo J, Hoolihan JP, Visbeck M, et al. Die Ausweitung der Sauerstoffminimumzonen kann den verfügbaren Lebensraum für tropische pelagische Fische verringern. Nat Clim Change. 2012;2:33–7. https://doi.org/10.1038/nclimate1304.

Artikel CAS Google Scholar

Crowther TW, van den Hoogen J, Wan J, Mayes MA, Keiser AD, Mo L. et al. Die globale Bodengemeinschaft und ihr Einfluss auf die Biogeochemie. Wissenschaft. 2019;365:eaav0550. https://doi.org/10.1126/science.aav0550.

McGuire AD, Anderson LG, Christensen TR, Dallimore S, Guo L, Hayes DJ, et al. Empfindlichkeit des Kohlenstoffkreislaufs in der Arktis gegenüber dem Klimawandel. Ecol Monogr. 2009;79:523–55. https://doi.org/10.1890/08-2025.1.

Artikel Google Scholar

Duhaime MB, Sullivan MB. Ozeanviren: Genaue Bewertung der metagenomischen Probe-zu-Sequenz-Pipeline. Virologie. 2012;434:181–6. https://doi.org/10.1016/j.virol.2012.09.036.

Artikel CAS PubMed Google Scholar

Pratama AA, Bolduc B, Zayed AA, Zhong ZP, Guo J, Vik DR, et al. Erweiterte Standards in der Viromik: In-silico-Bewertung der Identifizierung, Klassifizierung und Kuration von Hilfsmetabolikgenomen des dsDNA-Virusgenoms. PeerJ. 2021;9:e11447. https://doi.org/10.7717/peerj.11447.

Artikel PubMed PubMed Central Google Scholar

Roux S, Adriaenssens EM, Dutilh BE, Koonin EV, Kropinski AM, Krupovic M. et al. Mindestinformationen über ein unkultiviertes Virusgenom (MIUViG). Nat Biotechnol. 2019;37:29–37. https://doi.org/10.1038/nbt.4306.

Artikel CAS PubMed Google Scholar

Roux S, Emerson JB, Eloe-Fadrosh EA, Sullivan MB. Benchmarking-Viromics: eine In-silico-Bewertung von Metagenom-basierten Schätzungen der Zusammensetzung und Diversität der Virusgemeinschaft. PeerJ. 2017;5:e3817. https://doi.org/10.7717/peerj.3817.

Artikel PubMed PubMed Central Google Scholar

Bolduc B, Youens-Clark K, Roux S, Hurwitz BL, Sullivan MB. iVirus: Ermöglichung neuer Einblicke in die virale Ökologie mit Software und Community-Datensätzen, die in eine Cyberinfrastruktur eingebettet sind. ISME J. 2017;11:7–14. https://doi.org/10.1038/ismej.2016.89.

Artikel PubMed Google Scholar

Bolduc B, Zablocki O, Guo J, Zayed AA, Vik D, Dehal P, et al. iVirus 2.0: Von der Cyberinfrastruktur unterstützte Tools und Daten zur Förderung der DNA-Virus-Ökologie. ISME-Komm. 2021;1:1–8 https://doi.org/10.1038/s43705-021-00083-3

Artikel Google Scholar

Gregory AC, Zayed AA, Conceição-Neto N, Temperton B, Bolduc B, Alberti A, et al. Makro- und Mikrodiversität mariner DNA-Viren von Pol zu Pol. Zelle. 2019;177:1109–23.e14. https://doi.org/10.1016/j.cell.2019.03.040.

Artikel CAS PubMed PubMed Central Google Scholar

Koordinatoren von Tara Oceans, Roux S, Brum JR, Dutilh BE, Sunagawa S, Duhaime MB, et al. Ökogenomik und mögliche biogeochemische Auswirkungen global vorkommender Meeresviren. Natur. 2016;537:689–93. https://doi.org/10.1038/nature19366.

Artikel CAS Google Scholar

Paez-Espino D, Eloe-Fadrosh EA, Pavlopoulos GA, Thomas AD, Huntemann M, Mikhailova N, et al. Das Virom der Erde aufdecken. Natur. 2016;536:425–30. https://doi.org/10.1038/nature19094.

Artikel CAS PubMed Google Scholar

Emerson JB, Roux S, Brum JR, Bolduc B, Woodcroft BJ, Jang HB, et al. Wirtsgebundene Bodenvirenökologie entlang eines Permafrost-Taugradienten. Nat. Mikrobiol. 2018;3:870–80. https://doi.org/10.1038/s41564-018-0190-y.

Artikel CAS PubMed PubMed Central Google Scholar

Fuhrman JA. Meeresviren und ihre biogeochemischen und ökologischen Auswirkungen. Natur. 1999;399:541–8. https://doi.org/10.1038/21119.

Artikel CAS PubMed Google Scholar

Suttle CA. Meeresviren – wichtige Akteure im globalen Ökosystem. Nat Rev Microbiol. 2007;5:801–12. https://doi.org/10.1038/nrmicro1750.

Artikel CAS PubMed Google Scholar

Brum JR, Sullivan MB. Sich der Herausforderung stellen: Das beschleunigte Entdeckungstempo verändert die Meeresvirologie. Nat Rev Microbiol. 2015;13:147–59. https://doi.org/10.1038/nrmicro3404.

Artikel CAS PubMed Google Scholar

Breitbart M, Bonnain C, Malki K, Sawaya NA. Phagen-Marionettenspieler im Reich der Meeresmikroben. Nat Microbiol. 2018;3:754–66. https://doi.org/10.1038/s41564-018-0166-y.

Artikel CAS PubMed Google Scholar

Warwick-Dugdale J, Buchholz HH, Allen MJ, Temperton B. Host-Hijacking und planktonische Piraterie: Wie Phagen die mikrobielle Hochsee beherrschen. Virol J. 2019;16:15. https://doi.org/10.1186/s12985-019-1120-1.

Artikel PubMed PubMed Central Google Scholar

Hurwitz BL, Hallam SJ, Sullivan MB. Stoffwechselumprogrammierung durch Viren im sonnenbeschienenen und dunklen Ozean. Genombiol. 2013;14:R123. https://doi.org/10.1186/gb-2013-14-11-r123.

Artikel PubMed PubMed Central Google Scholar

Howard-Varona C, Lindback MM, Bastien GE, Solonenko N, Zayed AA, Jang H, et al. Phagenspezifische metabolische Neuprogrammierung von Virozellen. ISME J. 2020;14:881–95. https://doi.org/10.1038/s41396-019-0580-z.

Artikel PubMed PubMed Central Google Scholar

Guidi L, Chaffron S, Bittner L, Eveillard D, Larhlimi A. Koordinatoren des Tara Oceans Consortium et al. Planktonnetzwerke treiben den Kohlenstoffexport im oligotrophen Ozean an. Natur. 2016;532:465–70. https://doi.org/10.1038/nature16942.

Artikel CAS PubMed PubMed Central Google Scholar

Krupovic M, Cvirkaite-Krupovic V, Iranzo J, Prangishvili D, Koonin EV. Archaeenviren: strukturelle, funktionelle, umweltbedingte und evolutionäre Genomik. Virus Res. 2018;244:181–93. https://doi.org/10.1016/j.virusres.2017.11.025.

Artikel CAS PubMed Google Scholar

Borrel G, Colombet J, Robin A, Lehours AC, Prangishvili D, Sime-Ngando T. Unerwartete und neuartige mutmaßliche Viren in den Sedimenten eines tiefdunklen, permanent anoxischen Süßwasserlebensraums. ISME J. 2012;6:2119–27. https://doi.org/10.1038/ismej.2012.49.

Artikel CAS PubMed PubMed Central Google Scholar

Krupovic M, Spang A, Gribaldo S, Forterre P, Schleper C. Ein thaumarchäisches Provirus zeugt von einer alten Assoziation von Schwanzviren mit Archaeen. Biochem Soc Trans. 2011;39:82–88. https://doi.org/10.1042/BST0390082.

Artikel CAS PubMed Google Scholar

Vik DR, Roux S, Brum JR, Bolduc B, Emerson JB, Padilla CC, et al. Mutmaßliche Archaeenviren aus dem mesopelagischen Ozean. PeerJ. 2017;5:e3428. https://doi.org/10.7717/peerj.3428.

Artikel CAS PubMed PubMed Central Google Scholar

Rahlff J, Turzynski V, Esser SP, Monsees I, Bornemann TLV, Figueroa-Gonzalez PA. et al. Lytische Archaeenviren infizieren zahlreiche Primärproduzenten in der Erdkruste. Nat. Komm. 2021;12:4642. https://doi.org/10.1038/s41467-021-24803-4.

Artikel CAS PubMed PubMed Central Google Scholar

Philosof A, Yutin N, Flores-Uribe J, Sharon I, Koonin EV, Béjà O. Neuartige, häufig vorkommende ozeanische Viren unkultivierter mariner Euryarchaeota der Gruppe II. Curr Biol. 2017;27:1362–8. https://doi.org/10.1016/j.cub.2017.03.052.

Artikel CAS PubMed PubMed Central Google Scholar

Nishimura Y, Watai H, Honda T, Mihara T, Omae K, Roux S, et al. Umweltvirale Genome werfen neues Licht auf Virus-Wirt-Interaktionen im Ozean. MSphere. 2017;2:e00359–16. https://doi.org/10.1128/mSphere.00359-16.

Artikel CAS PubMed PubMed Central Google Scholar

Ahlgren NA, Fuchsman CA, Rocap G, Fuhrman JA. Entdeckung mehrerer neuartiger, weit verbreiteter und ökologisch unterschiedlicher mariner Thaumarchaeota-Viren, die AmoC-Nitrifikationsgene kodieren. ISME J. 2019;13:618–31. https://doi.org/10.1038/s41396-018-0289-4.

Artikel CAS PubMed Google Scholar

López-Pérez M, Haro-Moreno JM, de la Torre JR, Rodriguez-Valera F. Neuartige Caudovirales assoziiert mit marinen Thaumarchaeota der Gruppe I, zusammengesetzt aus Metagenomen. Umwelt Mikrobiol. 2019;21:1980–8. https://doi.org/10.1111/1462-2920.14462.

Artikel CAS PubMed Google Scholar

Kim JG, Kim SJ, Cvirkaite-Krupovic V, Yu WJ, Gwak JH, Lopez-Perez M, et al. Spindelförmige Viren infizieren marine Ammoniak oxidierende Thaumarchaea. Proc Natl Acad Sci. 2019;116:15645–50. https://doi.org/10.1073/pnas.

Artikel CAS PubMed PubMed Central Google Scholar

Gorlas A, Koonin EV, Bienvenu N, Prieur D, Geslin C. TPV1, das erste Virus, das aus der hyperthermophilen Gattung Thermococcus isoliert wurde. Umwelt Mikrobiol. 2012;14:503–16. https://doi.org/10.1111/j.1462-2920.2011.02662.

Artikel CAS PubMed Google Scholar

Geslin C, Le Romancer M, Erauso G, Gaillard M, Perrot G, Prieur D. PAV1, das erste virusähnliche Partikel, das aus einem hyperthermophilen Euryarchaeoten, „Pyrococcus abyssi“, isoliert wurde. J Bakteriol. 2003;185:3888–94. https://doi.org/10.1128/JB.185.13.3888-3894.2003.

Artikel CAS PubMed PubMed Central Google Scholar

Labonté JM, Swan BK, Poulos B, Luo H, Koren S, Hallam SJ, et al. Einzelzellgenomik-basierte Analyse von Virus-Wirt-Wechselwirkungen im Bakterioplankton der Meeresoberfläche. ISME J. 2015;9:2386–99. https://doi.org/10.1038/ismej.2015.48.

Artikel CAS PubMed PubMed Central Google Scholar

Chow C-ET, Winget DM, White RA, Hallam SJ, Suttle CA. Kombination genomischer Sequenzierungsmethoden zur Erforschung der Virusvielfalt und zur Aufdeckung potenzieller Virus-Wirt-Interaktionen. Vordere Mikrobiol. 2015;6:265. https://doi.org/10.3389/fmicb.2015.00265.

Artikel PubMed PubMed Central Google Scholar

Roux S, Páez-Espino D, Chen I-MA, Palaniappan K, Ratner A, Chu K, et al. IMG/VR v3: ein integriertes ökologisches und evolutionäres Framework zur Untersuchung von Genomen nicht kultivierter Viren. Nukleinsäuren Res. 2021;49:D764–D775. https://doi.org/10.1093/nar/gkaa946.

Artikel CAS PubMed Google Scholar

Munson-McGee JH, Snyder JC, Young MJ. Archaeale Viren aus Hochtemperaturumgebungen. Gene. 2018;9:128. https://doi.org/10.3390/genes9030128.

Artikel CAS PubMed PubMed Central Google Scholar

Prangishvili D. Die wunderbare Welt der Archaeenviren. Ann Rev Microbiol. 2013;67:565–85. https://doi.org/10.1146/annurev-micro-092412-155633.

Artikel CAS Google Scholar

Prangishvili D, Bamford DH, Forterre P, Iranzo J, Koonin EV, Krupovic M. Die rätselhafte archaische Virosphäre. Nat Rev Microbiol. 2017;15:724–39. https://doi.org/10.1038/nrmicro.2017.125.

Artikel CAS PubMed Google Scholar

Dellas N, Snyder JC, Bolduc B, Young MJ. Archaeenviren: Diversität, Replikation und Struktur. Ann Rev Virol. 2014;1:399–426. https://doi.org/10.1146/annurev-virology-031413-085357.

Artikel CAS Google Scholar

Snyder JC, Bolduc B, Young MJ. 40 Jahre archaische Virologie: Erweiterung der Virusvielfalt. Virologie. 2015;479–480:369–78. https://doi.org/10.1016/j.virol.2015.03.031.

Artikel CAS PubMed Google Scholar

Iranzo J, Krupovic M, Koonin EV. Die doppelsträngige DNA-Virosphäre als modulares hierarchisches Netzwerk der gemeinsamen Nutzung von Genen. MBio. 2016;7:e00978-16. https://doi.org/10.1128/mBio.00978-16.

Koonin EV, Dolja VV, Krupovic M, Varsani A, Wolf YI, Yutin N, et al. Globale Organisation und vorgeschlagene Megataxonomie der Viruswelt. Microbiol Mol Biol Rev. 2020;84:e00061–19. https://doi.org/10.1128/MMBR.00061-19.

Artikel CAS PubMed PubMed Central Google Scholar

Krupovic M, Dolja VV, Koonin EV. Das LUCA und sein komplexes Virom. Nat Rev Microbiol. 2020;18:661–70. https://doi.org/10.1038/s41579-020-0408-x.

Artikel CAS PubMed Google Scholar

Liu Y, Demina TA, Roux S, Aiewsakun P, Kazlauskas D, Simmonds P, et al. Diversität, Taxonomie und Evolution archaischer Viren der Klasse Caudoviricetes. PloS Biol. 2021;19:e3001442. https://doi.org/10.1371/journal.pbio.3001442.

Artikel PubMed PubMed Central Google Scholar

Danovaro R, Dell'Anno A, Corinaldesi C, Rastelli E, Cavicchioli R, Krupovic M, et al. Virusvermittelte archaische Hekatombe im Tiefseeboden. Ski Adv. 2016;2:e1600492. https://doi.org/10.1126/sciadv.1600492.

Artikel CAS PubMed PubMed Central Google Scholar

Danovaro R, Rastelli E, Corinaldesi C, Tangherlini M, Dell'Anno A. Marine Archaeen und archaeale Viren im globalen Wandel. F1000Res. 2017;6:1241. https://doi.org/10.12688/f1000research.11404.1.

Artikel CAS PubMed PubMed Central Google Scholar

Danovaro R, Dell'Anno A, Corinaldesi C, Magagnini M, Noble R, Tamburini C, et al. Erheblicher viraler Einfluss auf die Funktion benthischer Tiefseeökosysteme. Natur. 2008;454:1084–7. https://doi.org/10.1038/nature07268.

Artikel CAS PubMed Google Scholar

Roux S, Tournayre J, Mahul A, Debroas D, Enault F. Metavir 2: Neue Tools für den Vergleich viraler Metagenome und die Analyse zusammengesetzter Virome. BMC Bioinform. 2014;15:76. https://doi.org/10.1186/1471-2105-15-76.

Artikel CAS Google Scholar

Ren J, Song K, Deng C, Ahlgren NA, Fuhrman JA, Li Y, et al. Identifizierung von Viren aus metagenomischen Daten mithilfe von Deep Learning. Quant Biol. 2020;8:64–77. https://doi.org/10.1007/s40484-019-0187-4.

Artikel CAS PubMed PubMed Central Google Scholar

Amgarten D, Braga LPP, da Silva AM, Setubal JC. MARVEL, ein Tool zur Vorhersage von Bakteriophagensequenzen in metagenomischen Behältern. Vordere Ginsterkatze. 2018;9:304. https://doi.org/10.3389/fgene.2018.00304.

Artikel CAS PubMed PubMed Central Google Scholar

Kieft K, Zhou Z, Anantharaman K. VIBRANT: Automatisierte Wiederherstellung, Annotation und Kuration mikrobieller Viren und Bewertung der Funktion der Virusgemeinschaft anhand genomischer Sequenzen. Mikrobiom. 2020;8:90. https://doi.org/10.1186/s40168-020-00867-0.

Artikel CAS PubMed PubMed Central Google Scholar

Guo J, Bolduc B, Zayed AA, Varsani A, Dominguez-Huerta G, Delmont TO, et al. VirSorter2: ein von Experten geleiteter Multiklassifizierer-Ansatz zum Nachweis verschiedener DNA- und RNA-Viren. Mikrobiom. 2021;9:37. https://doi.org/10.1186/s40168-020-00990-y.

Artikel PubMed PubMed Central Google Scholar

Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Maschinelles Lernen in Python. J Mach Learn Res. 2011;12:2825–30.

Google Scholar

NCBI-Ressourcenkoordinatoren. Datenbankressourcen des Nationalen Zentrums für biotechnologische Informationen. Nukleinsäuren Res. 2018;46:D8–D13. https://doi.org/10.1093/nar/gkx1095.

Artikel CAS Google Scholar

Grazziotin AL, Koonin EV, Kristensen DM. Orthologe Gruppen des prokaryotischen Virus (pVOGs): eine Ressource für vergleichende Genomik und Annotation von Proteinfamilien. Nukleinsäuren Res. 2017;45:D491–D498. https://doi.org/10.1093/nar/gkw975.

Artikel CAS PubMed Google Scholar

Roux S, Enault F, Hurwitz BL, Sullivan MB. VirSorter: Gewinnung viraler Signale aus mikrobiellen Genomdaten. PeerJ. 2015;3:e985. https://doi.org/10.7717/peerj.985.

Artikel CAS PubMed PubMed Central Google Scholar

Vik D, Gazitúa MC, Sun CL, Zayed AA, Aldunate M, Mulholland MR, et al. Genomaufgelöste Virusökologie in einer marinen Sauerstoffminimumzone. Umwelt Mikrobiol. 2021;23:2858–74. https://doi.org/10.1111/1462-2920.15313.

Artikel CAS PubMed Google Scholar

Gazitúa MC, Vik DR, Roux S, Gregory AC, Bolduc B, Widner B, et al. Möglicher virusvermittelter Stickstoffkreislauf in sauerstoffarmen Meeresgewässern. ISME J. 2021;15:981–98. https://doi.org/10.1038/s41396-020-00825-6.

Artikel CAS PubMed Google Scholar

Paez-Espino D, Roux S, Chen I-MA, Palaniappan K, Ratner A, Chu K, et al. IMG/VR v.2.0: ein integriertes Datenverwaltungs- und Analysesystem für kultivierte und umweltbedingte Virusgenome. Nukleinsäuren Res. 2019;47:D678–D686. https://doi.org/10.1093/nar/gky1127.

Artikel CAS PubMed Google Scholar

Bin Jang H, Bolduc B, Zablocki O, Kuhn JH, Roux S, Adriaenssens EM, et al. Die taxonomische Zuordnung unkultivierter prokaryontischer Virusgenome wird durch Gen-Sharing-Netzwerke ermöglicht. Nat Biotechnol. 2019;37:632–9. https://doi.org/10.1038/s41587-019-0100-8.

Artikel CAS Google Scholar

Shaffer M, Borton MA, McGivern BB, Zayed AA, La Rosa SL, Solden LM, et al. DRAM zum Destillieren des mikrobiellen Stoffwechsels, um die Kuration der Mikrobiomfunktion zu automatisieren. Nukleinsäuren Res. 2020;48:8883–8900. https://doi.org/10.1093/nar/gkaa621.

Artikel CAS PubMed PubMed Central Google Scholar

Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: Neue Perspektiven auf Genome, Signalwege, Krankheiten und Medikamente. Nukleinsäuren Res. 2017;45:D353–D361. https://doi.org/10.1093/nar/gkw1092.

Artikel CAS PubMed Google Scholar

Galiez C, Siebert M, Enault F, Vincent J, Söding J. WUNSCH: Wer ist der Gastgeber? Vorhersage prokaryotischer Wirte aus metagenomischen Phagen-Contigs. Bioinformatik. 2017;33:3113–4. https://doi.org/10.1093/bioinformatics/btx383.

Artikel CAS PubMed PubMed Central Google Scholar

Hyatt D, Chen GL, LoCascio PF, Land ML, Larimer FW, Hauser LJ. Prodigal: prokaryotische Generkennung und Identifizierung der Translationsinitiationsstelle. BMC Bioinform. 2010;11:119. https://doi.org/10.1186/1471-2105-11-119.

Artikel CAS Google Scholar

Steinegger M, Söding J. MMseqs2 ermöglicht die Suche nach sensiblen Proteinsequenzen für die Analyse umfangreicher Datensätze. Nat Biotechnol. 2017;35:1026–8. https://doi.org/10.1038/nbt.3988.

Artikel CAS PubMed Google Scholar

Potter SC, Luciani A, Eddy SR, Park Y, Lopez R, Finn RD. HMMER-Webserver: Update 2018. Nukleinsäuren Res. 2018;46:W200–W204. https://doi.org/10.1093/nar/gky448.

Artikel CAS PubMed PubMed Central Google Scholar

Scikit-learn: Maschinelles Lernen in Python – Dokumentation zu Scikit-learn 1.0.2. (nd). Abgerufen im März 2022 von https://scikit-learn.org/stable/.

Krupovic M, Gonnet M, Hania WB, Forterre P, Erauso G. Einblicke in die Dynamik mobiler genetischer Elemente in hyperthermophilen Umgebungen anhand von fünf neuen Thermococcus-Plasmiden. Plus eins. 2013;8:e49044. https://doi.org/10.1371/journal.pone.0049044.

Artikel CAS PubMed PubMed Central Google Scholar

Gill S, Krupovic M, Desnoues N, Béguin P, Sezonov G, Forterre P. Eine stark divergierende archäo-eukaryotische Primase aus dem Thermococcus nautilus-Plasmid, pTN2. Nukleinsäuren Res. 2014;42:3707–19. https://doi.org/10.1093/nar/gkt1385.

Artikel CAS PubMed PubMed Central Google Scholar

Ponsero AJ, Hurwitz BL. Die Versprechen und Fallstricke des maschinellen Lernens zur Erkennung von Viren in aquatischen Metagenomen. Vordere Mikrobiol. 2019;10:806. https://doi.org/10.3389/fmicb.2019.00806.

Artikel PubMed PubMed Central Google Scholar

Chen I-MA, Chu K, Palaniappan K, Ratner A, Huang J, Huntemann M, et al. Das IMG/M-Datenverwaltungs- und Analysesystem v.6.0: Neue Tools und erweiterte Funktionen. Nukleinsäuren Res. 2021;49:D751–D763. https://doi.org/10.1093/nar/gkaa939.

Artikel CAS PubMed Google Scholar

Aiewsakun P, Simmonds P. Die genomischen Grundlagen der Taxonomie eukaryontischer Viren: Schaffung eines sequenzbasierten Rahmens für die Virusklassifizierung auf Familienebene. Mikrobiom. 2018;6:38. https://doi.org/10.1186/s40168-018-0422-7.

Artikel PubMed PubMed Central Google Scholar

Moraru C, Varsani A, Kropinski AM. VIRIDIC – ein neuartiges Tool zur Berechnung der intergenomischen Ähnlichkeiten prokaryoteninfizierender Viren. Viren. 2020;12:1268. https://doi.org/10.3390/v12111268.

Artikel CAS PubMed PubMed Central Google Scholar

Lima-Mendez G, Faust K, Henry N, Decelle J, Colin S, Carcillo F, et al. Determinanten der Gemeinschaftsstruktur im globalen Plankton-Interaktom. Wissenschaft. 2015;348:1262073. https://doi.org/10.1126/science.1262073.

Artikel CAS PubMed Google Scholar

Chaffron S, Delage E, Budinich M, Vintache D, Henry N, Nef C, et al. Umweltgefährdung des Interaktoms der epipelagischen Planktongemeinschaft im globalen Ozean. Sci Adv. 2021;7:eabg1921. https://doi.org/10.1126/sciadv.abg1921.

Artikel CAS PubMed PubMed Central Google Scholar

Ohio Supercomputer Center. 1987. Ohio Supercomputer Center. Columbus OH: Ohio Supercomputer Center. http://osc.edu/ark:/19495/f5s1ph73.

Noguchi H, Taniguchi T, Itoh T. Metageneannotator: Erkennung artspezifischer Muster der ribosomalen Bindungsstelle für eine präzise Genvorhersage in anonymen prokaryotischen und Phagengenomen. DNA-Res. 2008;15:387–96. https://doi.org/10.1093/dnares/dsn027.

Artikel CAS PubMed PubMed Central Google Scholar

Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, et al. Pfam: die Proteinfamilien-Datenbank. Nukleinsäuren Res. 2014;42:D222–D230. https://doi.org/10.1093/nar/gkt1223.

Artikel CAS PubMed Google Scholar

Oksanen J, Blanchet FG, Kindt R, Legendre P, Minchin P, O'Hara B, et al. Vegan: Community-Ökologie-Paket. R-Paket Version 2.2-1. 2015;2, 1–2

Pheatmap-Funktion – RDocumentation. (nd). Abgerufen am 20. Januar 2022 von https://www.rdocumentation.org/packages/pheatmap/versions/1.0.12/topics/pheatmap.

EvaluationMeasures: Sammlung von Model Evaluation Measure Functions Version 1.1.0 von CRAN. (nd). Abgerufen am 20. Januar 2022 von https://rdrr.io/cran/EvaluationMeasures/.

Keilwagen J & Grau J. PRROC: Precision-Recall und ROC-Kurven für gewichtete und ungewichtete Daten (1.3.1). 2018. https://CRAN.R-project.org/package=PRROC.

Robin X, Turck N, Hainard A, Tiberti N, Lisacek F, Sanchez JC, et al. (2021). pROC: ROC-Kurven anzeigen und analysieren (1.18.0). https://CRAN.R-project.org/package=pROC.

ggplot-Funktion – RDocumentation. (nd). Abgerufen am 20. Januar 2022 von https://www.rdocumentation.org/packages/ggplot2/versions/3.3.5/topics/ggplot.

Referenzen herunterladen

Dieses Material basiert auf Arbeiten, die vom US-Energieministerium, dem Office of Science, dem Office of Workforce Development for Teachers and Scientists und dem Office of Science Graduate Student Research (SCGSC)-Programm unterstützt werden. Das SCGSR-Programm wird vom Oak Ridge Institute for Science and Education (ORISE) für das DOE verwaltet. ORISE wird von ORAU unter der Vertragsnummer DE-SC0014664 verwaltet. Alle in diesem Dokument geäußerten Meinungen sind die des Autors und spiegeln nicht unbedingt die Richtlinien und Ansichten von DOE, ORAU oder ORISE wider. Für diese Forschung wurden Ressourcen des National Energy Research Scientific Computing Center (NERSC) genutzt, einer Benutzereinrichtung des US-Energieministeriums, die sich im Lawrence Berkeley National Laboratory befindet und unter der Vertragsnummer DE-AC02-05CH11231 betrieben wird. Programmatische Fördermittel gingen an MBS (NSF-OCE1829832, NSF-ABI1759874, DOE-BER-248445), und MK wurde von der Agence Nationale de la Recherche unterstützt (Zuschuss ANR-20-CE20-009-02). Die vom Joint Genome Institute des US-Energieministeriums (https://ror.org/04xm1d337), einer Benutzereinrichtung des DOE Office of Science, durchgeführten Arbeiten werden vom Office of Science des US-Energieministeriums unterstützt, das im Rahmen der Vertragsnummer betrieben wird. DE-AC02-05CH11231 (SR). Wir möchten uns auch beim NSF EMERGE Biology Integration Institute für den Zugang zu Daten und Ressourcen bedanken (Finanzierung für den MBS-Preis 29640).

Abteilung für Mikrobiologie, Ohio State University, Columbus, OH, 43210, USA

Dean Vik, Benjamin Bolduc, Christine L. Sun, Akbar Adjie Pratama und Matthew B. Sullivan

Zentrum für Mikrobiomwissenschaft, Ohio State University, Columbus, OH, USA

Dean Vik, Benjamin Bolduc, Christine L. Sun, Akbar Adjie Pratama und Matthew B. Sullivan

DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA

Simon Roux

Abteilung für Archaealvirologie, Institut Pasteur, Universität Paris Cité, CNRS UMR6047, Paris, Frankreich

Mart Krupovic

Abteilung für Bau-, Umwelt- und Geodätische Ingenieurwissenschaften, Ohio State University, Columbus, OH, USA

Matthew B. Sullivan

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MBS, DV und SR erhielten Fördermittel und benannten die Studie. DV, SR, CLS und AAP generierten oder erhielten virale Daten für das Training und Benchmarking des Modells. BB und DV haben das Modell entwickelt, getestet und einem Benchmarking unterzogen. MK lieferte fachkundige Einblicke in die genomische Struktur und den Inhalt des Archaeenvirus. DV und MBS haben das Manuskript unter Mitwirkung aller Autoren verfasst. DV hat alle Abbildungen und Datentabellen erstellt.

Korrespondenz mit Dean Vik oder Matthew B. Sullivan.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Vik, D., Bolduc, B., Roux, S. et al. MArVD2: ein durch maschinelles Lernen verbessertes Tool zur Unterscheidung zwischen archaealen und bakteriellen Viren in viralen Datensätzen. ISME COMMUN. 3, 87 (2023). https://doi.org/10.1038/s43705-023-00295-9

Zitat herunterladen

Eingegangen: 04. Mai 2022

Überarbeitet: 04. August 2023

Angenommen: 09. August 2023

Veröffentlicht: 24. August 2023

DOI: https://doi.org/10.1038/s43705-023-00295-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt