Los científicos actualizan el genoma de la soja a la referencia de oro

por Science China Press

La soja es uno de los cultivos más importantes a nivel mundial. Un genoma de referencia de alta calidad facilitará su análisis funcional y mejoramiento molecular.

Anteriormente, los biólogos de China (Academia de Ciencias de China, Universidad de Ciencia y Tecnología de China, Academia de Ciencias Agrícolas de Jiangsu, Berry Genomics Corporation) de novo ensamblaron un genoma de soja chino de alta calidad: Gmax_ZH13 (Shen et al., 2018). Sin embargo, debido a limitaciones técnicas, una gran cantidad de contigs pequeños no estaban anclados a los cromosomas.

Recientemente, el grupo de investigación líder para el proyecto del genoma Gmax_ZH13 del Instituto de Genética y Biología del Desarrollo, Academia de Ciencias de China, actualizó el genoma Gmax_ZH13 a un genoma de referencia dorado Gmax_ZH13_v2.0.

Basado en el Gmax_ZH13, agregando más datos de secuenciay renovando la tubería de ensamblaje (Figura 1A), los investigadores finalmente ensamblaron Gmax_ZH13_v2.0 con una longitud de 1,011,174,350 pb. Su calidad de montaje se incrementó dramáticamente. En comparación con Gmax_ZH13, el tamaño Contig N50 de Gmax_ZH13_v2.0 aumentó 6.5 veces (de 3.46 Mb a 22.6 Mb), el número de brecha disminuyó 1.8 veces (de 815 a 448) y la longitud de la brecha disminuyó 8.8 veces (de 20.49 Mb a 2.33Mb) . Mientras tanto, el número de contig no anclado disminuyó 17 veces (de 549 a 36), lo que resultó en que la proporción de secuencias ancladas a 20 cromosomas alcanzaba el 98%. Todos estos parámetros de ensamblaje indicaron la alta integridad de Gmax_ZH13_v2.0. Además de los cromosomas nucleares, los investigadores ensamblaron los genomas circulares de cloroplastos y mitocondrias con una longitud de 152,220 pb y 513,779 pb respectivamente.

Para mejorar la precisión de la anotación genética, además de las lecturas de Iso-seq utilizadas para la anotación Gmax_ZH13, los investigadores realizaron RNA-seq y smRNA-seq para otras 27 muestras de ZH13, que se recolectaron de diferentes tejidos en diferentes etapas de desarrollo. Finalmente anotaron 55,443 genes codificadores de proteínas que contienen 96,366 ARNm en el genoma nuclear, 81 genes codificadores de proteínas en el genoma del cloroplasto y 49 genes codificadores de proteínas en el genoma mitocondrial. El 97% de los 1.440 genes Embryophyta de copia única en BUSCO_v3 se ensamblaron por completo, lo que confirma la alta calidad de la anotación del gen codificador de proteínas. Además de eso, los genes no codificantes también fueron anotados, incluyendo 297 rRNA, 1.112 tRNA, 166 snRNA, 1.816 snoRNA y 35926 TE. Especialmente, 331 genes MIRNA y los miRNAs maduros que produjeron fueron anotados por datos smRNA-seq (Figura 1B).

Los investigadores también proporcionaron un perfil de expresión detallado para todos los genes de codificación de proteínas y miRNA anotados (Figura 1C). Estos datos de perfil de expresión serán útiles para la investigación fundamental de la soja , por ejemplo, buscando los patrones de expresión de genes individuales o eligiendo genes de expresión específicos de tejido. Además, los datos se pueden utilizar para investigar la relación de los miRNA y sus genes objetivo porque provienen de los mismos conjuntos de muestras.

«Actualizamos el genoma Gmax_ZH13 a un genoma de referencia de platino más completo y continuo Gmax_ZH13_ v2.0, hicimos una anotación completa y proporcionamos información de expresión detallada para él», dijo el profesor Zhixi Tian, líder del proyecto de genoma de soja chino Gmax_ZH13 . «Creemos que el nuevo genoma facilitará en gran medida la investigación fundamental y la mejora molecular de la soja».

La soja es uno de los cultivos más importantes a nivel mundial. Un genoma de referencia de alta calidad facilitará su análisis funcional y mejoramiento molecular.

Leer más