El software localiza los genes de interés de la caña de azúcar


Las plantas tienen genomas más grandes y complejos que todos los animales, ya sean mamíferos, aves, reptiles o anfibios. Los peces son la excepción a la regla.


Peter Moon, FAPESP


El ADN humano consta de unos 3.200 millones de pares de bases repartidas en 23 pares de cromosomas, para un total de 46 cromosomas. El genoma del trigo (Triticum aestivum), sin embargo, comprende 17 mil millones de pares de bases divididos en 21 pares de cromosomas (un total de 42). El genoma de la caña de azúcar (Saccharum spp.) Contiene 10 mil millones de pares de bases en 100-130 cromosomas.

La caña de azúcar que se cultiva hoy en día es un híbrido (S. hybridum) cruzado de dos especies, S. officinarum —la caña de azúcar original domesticada en la India hace 3.000 años— y S. spontaneum.

«El genoma de la caña de azúcar se ha convertido en un gigante. Es muy difícil trabajar con él usando los métodos genómicos actuales. Descifrarlo requiere una gran cantidad de potencia de cómputo. Es difícil incluso con computadoras de última generación en términos de procesamiento, y caro. En resumen, esto es un desafío para la bioinformática «, dijo Marcelo Falsarella Carazzolle, coordinador de bioinformática en el Laboratorio de Genómica y Bioenergía (LGE) del Instituto de Biología de la Universidad de Campinas (IB-UNICAMP) en el estado de São Paulo, Brasil.

«Durante años, laboratorios en varias partes del mundo han intentado y fallado en el mapeo del genoma de la caña de azúcar. El primer esfuerzo exitoso se completó hace solo unos meses por un consorcio de investigadores en varios países, incluido Brasil», dijo Carazzolle.

La estrategia implementada por el consorcio involucró una computación masiva a gran escala y una gran inversión para secuenciar todo el genoma, es decir, los 10 mil millones de pares de bases.

En un artículo publicado en la revista DNA Research , Carazzolle y sus colegas presentan una estrategia diferente que es mucho menos costosa y requiere mucho tiempo. Esta técnica está diseñada para mapear porciones específicas de los genomas de plantas poliploides.

Algunas de las investigaciones que respaldan esta innovación se realizaron para un Ph.D. tesis de Karina Yanagui de Almeida y para un proyecto postdoctoral de Juliana José. Ambos son biólogos en IB-UNICAMP y fueron supervisados ​​por el profesor Gonçalo Amarante Guimarães Pereira. El Consejo Nacional de Desarrollo Científico y Tecnológico de Brasil (CNPq) también proporcionó financiamiento.

«Desarrollamos el software necesario para reconstruir estos genomas complejos y lo aplicamos a la caña de azúcar. No estábamos tratando de ensamblar todo el genoma. Estudios previos se propusieron reconstruir todo el ADN de la planta, pero nuestra estrategia consistió en concentrarnos en pequeñas porciones correspondientes a aproximadamente 1% -2%, exactamente donde se encuentran los genes de interés para los fitomejoradores «, explicó Carazzolle.

Esta estrategia ahorró al menos dos órdenes de magnitud en comparación con las decenas de millones de dólares que costaría mapear todo el genoma. Cuando se completó el proyecto, el consorcio aún no había publicado sus resultados, por lo que los genetistas brasileños tuvieron que usar datos disponibles públicamente, como los genomas de sorgo, arroz y maíz, que están relacionados en mayor o menor medida con la caña de azúcar, para ubique las áreas que deseaban descifrar en las regiones análogas del genoma de la caña de azúcar.

La selección por analogía fue posible porque todas las hierbas tienen un ancestro común que existió hace más de 50 millones de años. En otras palabras, después de todo este tiempo, el ADN de cualquier hierba en la actualidad (caña de azúcar, trigo, sorgo, arroz, maíz, etc.) aún conserva la estructura central original, junto con los miles de millones de mutaciones que se han producido a lo largo de los eones.

Ensamblador genético

El resultado de la investigación realizada en IB-UNICAMP fue un paquete de software llamado Polyploid Gene Assembler (PGA). «PGA representa una estrategia novedosa para el ensamblaje de un espacio genético basado en genomas complejos que utilizan una secuenciación de ADN de baja cobertura», dijo Carazzolle.

Aunque PGA requiere menos potencia de computadora que el procesamiento masivo del genoma completo de un poliploide, todavía se requiere un sistema muy grande para ejecutar el programa de manera oportuna. En este caso, los investigadores utilizaron el grupo de computadoras que pertenece al Centro de Computación en Ingeniería y Ciencia (CCES), uno de los Centros de Investigación, Innovación y Difusión (RIDC, financiado por la Fundación de Investigación de São Paulo, FAPESP. Carazzolle es el investigador principal de Bioinformática en el CCES.

«El proyecto requirió el uso de computadoras de alto rendimiento de CCES con mucha memoria», dijo Carazzolle.

Cargaron PGA con loci de genes conocidos de bases de datos de genoma públicas, desplegando estrategias de ensamblaje para construir secuencias de genoma de alta calidad para las especies investigadas, y validaron el procedimiento con trigo (Triticum aestivum), una especie hexaploide, que utiliza cebada (Hordeum vulgare) referencia. Se identificaron más del 90% de los genes, así como varios genes nuevos.

Además, utilizaron PGA para ensamblar los genes de las especies de gramíneas S. spontaneum: agrupados en el mismo género que la caña de azúcar tradicional (S. officinarum), S. spontaneum se utiliza en el linaje parental de las variedades híbridas de caña de azúcar que se cultivan en la actualidad (S . hybridum).

«Identificamos un total de 39,234 genes, 60.4% de los cuales se agruparon en familias de genes de gramíneas conocidas. Treinta y siete familias de genes se expandieron en comparación con otras gramíneas. Tres destacaron por el número de copias de genes potencialmente involucradas en el desarrollo inicial y el estrés. respuesta «, dijo Carazzolle.

«Nuestros hallazgos para el genoma de S. spontaneum destacaron por primera vez las bases moleculares de ciertas características significativas, como la alta productividad y la resistencia al estrés biótico y abiótico. Estos resultados se pueden usar en futuros estudios funcionales y genéticos. También Apoyar el desarrollo de nuevas variedades de caña de azúcar .

«Al utilizar PGA, proporcionamos un ensamblaje de alta calidad de regiones genéticas en T. aestivum y S. spontaneum, lo que demuestra que la PGA puede ser más eficiente que las estrategias convencionales aplicadas a genomas complejos y el uso de una secuenciación de ADN de baja cobertura. La comparación con la estrategia de montaje convencional también es una ventaja «.

Carazzolle destacó que incluso con avances significativos en la tecnología de secuenciación, el ensamblaje de genomas complejos todavía representa un cuello de botella, debido principalmente a la poliploidía y la alta heterocigosidad. El desarrollo de nuevos esfuerzos de bioinformática, agregó, puede ayudar a superar estas limitaciones, especialmente en el caso de genomas completos de organismos estrechamente relacionados, para los cuales se pueden utilizar métodos de ensamblaje guiados por referencia.


Más información: Leandro Costa Nascimento et al, Desentrañando el complejo genoma de Saccharum spontaneum utilizando Polyploid Gene Assembler, DNA Research (2019). DOI: 10.1093 / dnares / dsz001Proporcionado por FAPESP