El Proyecto Genomas de Vertebrados introduce una nueva era de secuenciación del genoma

genoma
Crédito: CC0 Public Domain

El Vertebrate Genomes Project (VGP) anunció su estudio insignia y las publicaciones asociadas centradas en la calidad y estandarización del ensamblaje del genoma para el campo de la genómica. 


por la Universidad Rockefeller


Este estudio incluye 16 conjuntos de genomas de referencia de vertebrados diploides de alta calidad, casi libres de errores y casi completos para especies de todos los taxones con columna vertebral (es decir, mamíferos, anfibios, aves, reptiles y peces) de cinco años de pilotaje de la primera fase. del proyecto VGP.

En un número especial de Nature , con artículos complementarios publicados simultáneamente en otras revistas científicas, el VGP detalla numerosas mejoras tecnológicas basadas en estos 16 conjuntos de genomas. En el estudio insignia, el VGP demuestra la viabilidad de establecer y lograr métricas de calidad del genoma de referencia de alta calidad utilizando su enfoque automatizado de vanguardia de combinar enfoques de andamiaje de cromosomas de lectura larga y de largo alcance con algoritmos novedosos que ponen a la las piezas del ensamblaje del genoma se unen.

A partir de la misión de una década de la comunidad de científicos Genome 10K (G10K) de secuenciar los genomas de 10,000 especies de vertebrados y otros esfuerzos de genómica comparativa, el VGP está aprovechando las mejoras dramáticas en las tecnologías de secuenciación en los últimos años para comenzar la producción. de conjuntos de genomas de referencia de alta calidad para los ~ 70.000 vertebrados vivos. Hasta la fecha, las tuberías actuales de VGP han llevado a la presentación de 129 ensamblajes diploides que representan las versiones más completas y precisas de esas especies hasta la fecha y está en camino de generar miles de ensamblajes genómicos, demostrando viabilidad no solo en la estandarización de la calidad sino también en la escala. .

«Cuando me pidieron que asumiera el liderazgo del G10K en 2015, hice hincapié en la necesidad de trabajar con socios tecnológicos y expertos en ensamblaje del genoma en enfoques que produzcan datos de la más alta calidad posible, ya que a mis estudiantes y postdoctorados les estaba tomando meses por gen. para corregir la estructura genética y las secuencias para sus experimentos, lo que estaba causando errores en nuestros estudios biológicos «, dijo Erich Jarvis, líder del centro de secuenciación de VGP en la Universidad Rockefeller, presidente del G10K e investigador del Instituto Médico Howard Hughes. «Para mí, esto no fue sólo una misión práctica, sino un imperativo moral».

Arang Rhie, primer autor del artículo principal del Instituto Nacional de Investigación del Genoma Humano, Institutos Nacionales de Salud, Bethesda, Maryland, EE. UU., Agrega: «Realmente fue un desafío diseñar una canalización aplicable a genomas muy divergentes. Nuestro genoma más grande, Con un tamaño de 5 Gb, se rompieron casi todas las herramientas comúnmente utilizadas en los procesos de ensamblaje. El nivel extremo de heterocigosidad o contenido repetido planteó un gran desafío. Esto es solo el comienzo; estamos mejorando continuamente nuestra cartera en respuesta a las nuevas mejoras tecnológicas «.

El enfoque de VGP combina tuberías de ensamblaje con curación manual para corregir fallas de ensamblaje, brechas importantes y otros errores, lo que informa el desarrollo iterativo de mejores algoritmos. Por ejemplo, el VGP ayudó a revelar altos niveles de duplicaciones, pérdidas o ganancias de genes falsos , debido principalmente a que los algoritmos no separan adecuadamente los cromosomas maternos y paternos. Una solución incluye un enfoque de agrupamiento trío de usar ADN de los padres para separar las secuencias paterna y materna en la descendencia. Para los casos en los que los datos de los padres no están disponibles, otra solución desarrollada por VGP y colaboradores es un algoritmo llamado FALCON-Phase que reduce la complejidad computacional de la secuenciación de secuencias de ADN materno y paterno a escala cromosómica.

Kerstin Howe, líder del equipo de curación del Instituto Wellcome Sanger en el Reino Unido, dice: «Nuestro nuevo enfoque para producir conjuntos de genomas a nivel de cromosomas validados estructuralmente a escala será la base de conocimientos innovadores en genómica comparativa y evolutiva. «

Adam Phillippy, presidente del grupo de trabajo de ensamblaje e informática del genoma VGP de más de 100 miembros y jefe de la Sección de Informática del Genoma del Instituto Nacional de Investigación del Genoma Humano, Institutos Nacionales de Salud, Bethesda, Maryland, EE. UU., Agrega: «Completando el primer vertebrado El genoma de referencia, humano, tomó más de 10 años y $ 3 mil millones de dólares. Gracias a la investigación e inversión continuas en tecnología de secuenciación de ADN durante los últimos 20 años, ahora podemos repetir esta increíble hazaña varias veces al día por solo unos pocos miles de dólares por genoma. «

La excelente calidad de estos conjuntos de genomas permite nuevos descubrimientos sin precedentes que tienen implicaciones para caracterizar la biodiversidad para todas las formas de vida, conservación y salud y enfermedades humanas. Los primeros genomas de referencia de alta calidad de seis especies de murciélagos , generados con el consorcio Bat 1K , revelaron la selección y pérdida de genes relacionados con la inmunidad que pueden ser la base de la tolerancia única de los murciélagos a la infección viral. Este hallazgo proporciona nuevas vías de investigación para aumentar la capacidad de supervivencia, particularmente relevante para las enfermedades infecciosas emergentes, como la pandemia actual de COVID-19.

Específicamente para la conservación y en colaboración con los maoríes en Nueva Zelanda y funcionarios en México, los análisis genómicos del kākāp ?, un loro no volador, y la vaquita , una pequeña marsopa y el mamífero marino más amenazado, respectivamente, sugieren historias evolutivas y demográficas de purgando mutaciones dañinas en la naturaleza. La implicación de estos pequeños tamaños de población a largo plazo en el equilibrio genético da esperanza para la supervivencia de estas especies.

Richard Durbin, profesor de la Universidad de Cambridge y director del centro de secuenciación de VGP en el Instituto Wellcome Sanger en el Reino Unido, dice: «Estos estudios marcan el inicio de una nueva era de secuenciación del genoma que se acelerará durante la próxima década para permitir aplicaciones genómicas en todo el árbol de la vida, cambiando nuestras interacciones científicas con el mundo viviente «.

Gene Myers, líder del centro de secuenciación de VGP en el Instituto Max Planck en Dresden, Alemania, explica: «El proyecto VGP está a la vanguardia de la creación de un catálogo genómico en analogía con la clasificación de vida de Linnaeus. Yo y mis colegas en Dresden está emocionado de contribuir con magníficas reconstrucciones del genoma con la financiación de la Sociedad Max-Planck de Alemania «.

El VGP involucra a cientos de científicos internacionales que trabajan juntos de más de 50 instituciones en 12 países diferentes desde que se inició el VGP en 2016 y es ejemplar en su cooperación científica, amplia infraestructura y liderazgo colaborativo. Además, como el primer proyecto de genomas eucariotas a gran escala para producir conjuntos de genomas de referencia que cumplen con un estándar mínimo de calidad específico, el VGP se ha convertido en un modelo de trabajo para otros grandes consorcios, incluido Bat 1K , Pan Human Genome Project , Earth BioGenome Project , Darwin Tree of Life y European Reference Genome Atlas , entre otros.

Como siguiente paso, el VGP continuará trabajando en colaboración en todo el mundo y con otros consorcios para completar la Fase 1 del proyecto, aproximadamente una especie representativa por cada 260 órdenes de vertebrados separados por un mínimo de 50 millones de años de un ancestro común con otras especies. en la Fase 1. El VGP tiene la intención de crear recursos genómicos comparativos con estas 260 especies, incluidas las alineaciones del genoma completo sin referencia , que proporcionarán un medio para comprender la historia evolutiva detallada de estas especies y crear anotaciones genéticas consistentes. Los datos del genoma se generan principalmente en tres centros de secuenciación que han invertido en la misión del VGP, incluido el Vertebrate Genome Lab de la Universidad Rockefeller , Nueva York, EE. UU.;Wellcome Sanger Institute , Reino Unido; y el Instituto Max Planck , Alemania.

La Fase 2 se enfocará en especies representativas de cada familia de vertebrados y actualmente está en proceso de identificación de muestras y recaudación de fondos. El VGP tiene una política de puertas abiertas y da la bienvenida a otros para que se unan a sus esfuerzos, que van desde la recaudación de fondos y la recolección de muestras hasta la generación de conjuntos de genomas o la inclusión de sus propios conjuntos de genomas que cumplen con las métricas de VGP como parte de nuestra misión general.

El VGP colaboró ​​y probó muchos protocolos de compañías de secuenciación del genoma, algunos de cuyos científicos también son coautores del estudio insignia, incluidos Pacific Biosciences, Oxford Nanopore Technologies, Illumina, Arima Genomics, Phase Genomics y Dovetail Genomics. El VGP también colaboró ​​con DNAnexus y Amazon para generar una tubería de ensamblaje de VGP disponible públicamente y alojar los datos genómicos en la base de datos Genome Ark . Los genomas, las anotaciones y las alineaciones también están disponibles en las bases de datos de análisis y exploración del genoma público internacional, incluido el Visor de datos del genoma del Centro Nacional de Información Biotecnológica , el navegador del genoma Ensembl y el Instituto de Genómica de UC Santa Cruz.Navegador del genoma. Todos los datos son de código abierto y están disponibles públicamente bajo las políticas de uso de datos G10K .

Otros descubrimientos biológicos novedosos de los 16 genomas en el artículo principal y 25 genomas en total de más de 20 artículos en esta primera ola de publicaciones incluyen:

  • Correcciones de pérdidas de genes o cromosomas falsos , donde ensamblajes anteriores perdieron entre el 30% y el 50% de las regiones reguladoras de genes codificantes de proteínas ricas en GC, que se consideraba que pertenecían a la «materia oscura» del genoma ;
  • Cromosomas recientemente identificados en el pinzón cebra y el ornitorrinco;
  • Genomas mitocondriales completos y libres de errores para la mayoría de las especies, algunos generados en secuencias de una sola molécula sin necesidad de ensamblaje;
  • Evolución de los cromosomas sexuales salvajes en mamíferos y aves monotremas;
  • Variaciones genéticas entre humanos y titíes que tienen implicaciones para los titíes como un sistema modelo emergente de primates no humanos para la investigación biomédica;
  • Lineage-específica cambia la conformación de la evolución de los genomas de aves y mamíferos: pato , emu y platypus y echidna ; y
  • Propuesta para una nomenclatura revisada basada en la evolución universal para las familias de ligandos y receptores de oxitocina y vasotocina .