Una herramienta automatizada para evaluar la calidad de los datos de virus


Gracias a los avances en las tecnologías de secuenciación y los enfoques computacionales, cada vez se recuperan e identifican más secuencias de virus a partir de muestras ambientales (metagenomas). 


por DOE / Joint Genome Institute


Sin embargo, la calidad y la integridad de las secuencias de virus ensambladas en el metagenoma varían ampliamente. En un esfuerzo anterior, un consorcio internacional recomendó pautas específicas y mejores prácticas para caracterizar virus no cultivados. Siguiendo esas pautas, los investigadores de JGI han desarrollado CheckV (pronunciado «Check-Vee») para ayudar a los investigadores a evaluar y mejorar la calidad de los genomas virales ensamblados en metagenomas.

Los microbios que desempeñan un papel clave en el ciclo de los nutrientes, como el carbono, el nitrógeno y el azufre, están regulados por virus en sus entornos. La secuenciación del ADN ambiental puede ayudar a los científicos a recuperar los genomas de estos virus y asociarlos con sus huéspedes microbianos. Sin embargo, ensamblar genomas virales a partir de metagenomas es un desafío y, a menudo, da como resultado datos muy fragmentados, lo que limita la capacidad de los investigadores para realizar con precisión la evaluación funcional, la predicción del huésped y el análisis filogenético. El desarrollo de CheckV ayuda a los investigadores a evaluar la integridad de estas secuencias y complementa un esfuerzo de la comunidad para desarrollar pautas y mejores prácticas para definir la calidad de los datos de virus .

Caracterizar los fragmentos del genoma viral puede ser difícil, similar a la historia de los ciegos que se encuentran con un elefante por primera vez. Según la única parte del cuerpo que toca cada ciego (un colmillo, la oreja o la cola), deciden individualmente que el elefante es peligroso, parecido a una alfombra o un trozo de cuerda inofensivo. De manera similar, los fragmentos del genoma pueden proporcionar una imagen incompleta de un virus, y para los virus que se han integrado en el genoma del hospedador, estas secuencias pueden estar contaminadas por la presencia de genes no virales.

Hasta este punto, ha habido una falta de herramientas rápidas y precisas para que los investigadores evalúen la calidad de los genomas virales ensamblados en el metagenoma, incluida la estimación de la integridad del genoma y la eliminación de la contaminación del organismo huésped. Como se informó en Nature Biotechnology , un equipo del Instituto Conjunto del Genoma (JGI) del Departamento de Energía de EE. UU. (DOE), una instalación para usuarios de la Oficina de Ciencias del DOE ubicada en el Laboratorio Nacional Lawrence Berkeley (Berkeley Lab), ha desarrollado una herramienta de línea de comandos llamada CheckV que puede hacer ambas cosas automáticamente. El trabajo fue dirigido por el científico investigador Stephen Nayfach, el primer autor del estudio en el grupo de Ciencia de Datos del Microbioma dirigido por Nikos Kyrpides.

Para demostrar su utilidad, Nayfach aplicó CheckV a secuencias de virus no cultivados (de muestras de metagenoma ambiental) de IMG / VR, una base de datos que forma parte de Integrated Microbial Genomes & Microbiomes (IMG / M)suite, así como secuencias del conjunto de datos Global Ocean Virome 2.0 basadas en muestras de mar abierto. CheckV identificó un total de 44,652 genomas virales completos o casi completos en ambos conjuntos de datos, separándolos de la gran mayoría de otras secuencias que eran fragmentos incompletos. Además, CheckV pudo identificar poco más de 17.000 secuencias contiguas (contigs) de provirus flanqueados en uno o ambos lados por genes del organismo huésped. Con el límite virus-hospedador claramente definido utilizando métodos de anotación funcional, fue posible distinguir entre genes metabólicos encontrados en el genoma viral y los del organismo hospedador. Sin este paso de predicción, numerosos genes de resistencia a los antibióticos y metabolismo secundario se habrían atribuido incorrectamente a los virus.

La herramienta puede ser utilizada ampliamente por la comunidad de investigadores para medir la calidad de los datos de virus y ayudará a los investigadores a seguir las mejores prácticas y pautas para proporcionar la cantidad mínima de información para un genoma de virus no cultivado. CheckV ya se ha aplicado a más de 2,4 millones de genomas virales disponibles en la última versión de IMG / VR .