Hallan errores en las secuencias genéticas del coronavirus incluidas en la mayor base de datos mundial

foto recurso covid

Un estudio liderado por el Instituto de Biología Integrativa de Sistemas (I2SysBio, UV-CSIC) detecta un volumen muy superior de errores de datos en las secuencias de ciertas mutaciones del virus SARS-CoV-2, tras comparar la información procedente de GISAID –principal base de datos utilizada durante la pandemia– con la obtenida de la secuenciación directa de genomas. Los resultados, que ponen de manifiesto los puntos débiles de las bases de datos públicas, ayudarán a mejorar la vigilancia del virus y, por tanto, las metodologías de detección viral y los procesos de intervención clínica.

El trabajo, recientemente publicado en la revista Virus Evolution, presenta una nueva perspectiva sobre la capacidad del virus SARS-CoV-2 para mutar, de modo inusual, e infectar a humanos. Los resultados indican que muchas de las secuencias con reparación de mutaciones en la proteína spike del virus –la más variable de todo el genoma vírico y la principal vía de infección de células humanas– se debieron a errores introducidos para su procesamiento en grandes bases de datos genéticas.

Según el estudio, los métodos informáticos empleados para analizar millones de secuencias virales pueden llevar a error, generando la impresión de que el virus corrige un tipo de mutaciones con mayor frecuencia de la real. Al comparar estos datos ya procesados con la información obtenida directamente de la secuenciación de genomas, el equipo ha logrado obtener una visión más realista de los cambios genéticos que sufre el virus. “Si se estudian esas regiones, esa parte de la proteína spike que se ha perdido, y se confía en los datos procesados, se está sobreestimando la cantidad real de mutaciones presentes en esa secuencia de ADN”, asegura Mireia Coscollà Devís, investigadora del CSIC en el I2SysBio y líder del proyecto. “Nos dimos cuenta de que las secuencias de la base de datos de GISAID están procesadas por cada laboratorio de forma diferente y contenían muchas distorsiones para este tipo de marcadores”, añade la científica.

Intercambio de datos genómicos de patógenos

Si bien la investigación pone de relieve la importancia de examinar detenidamente los datos genéticos para evitar conclusiones erróneas, y la Organización Mundial de la Salud (OMS) recomienda una política de intercambio de datos genómicos de patógenos para proteger la salud pública, en España no existe una recopilación central de datos de secuencias de patógenos humanos, animales y ambientales, como tampoco existe una política para el intercambio de datos anonimizados entre instituciones de salud y científicas. “Esto dificulta el seguimiento y la respuesta a las enfermedades infecciosas incluyendo el seguimiento de la resistencia a los antimicrobianos”, destaca Fernando González-Candelas, catedrático de Genética de la Universitat de València e investigador de la fundación FISABIO, también participante en el estudio. Ron Geller, investigador del CSIC en el I2SysBio, ha destacado la importancia de combinar la biología computacional y evolutiva con los experimentos en el laboratorio para avanzar en el conocimiento de los patógenos.

Liderado por el I2SysBio (grupos de Patogenómica y de Biología Viral), participan también en el estudio el Instituto de Biomedicina de Valencia (IBV, CSIC) y el Instituto de Investigación Sanitaria La Fe (IIS-La Fe).

El trabajo ha sido financiado por el Ministerio de Ciencia, Innovación y Universidades y por la Unión Europea, con fondos NextGenerationEU/PRTR a través de la PTI+ Salud Global del CSIC. Además, está apoyado por la Generalitat Valenciana y el Fondo Social Europeo a través de la ayuda CIACIF/2022/333. El trabajo computacional se realizó en Garnatxa, el clúster de computación de alto rendimiento (HPC) del Instituto de Biología Integrativa de Sistemas.

Referencia:

Miguel Álvarez-Herrera, Paula Ruiz-Rodriguez, Beatriz Navarro-Domínguez, Joao Zulaica, Brayan Grau, María Alma Bracho, Manuel Guerreiro, Cristóbal Aguilar‐Gallardo, Fernando González-Candelas, Iñaki Comas, Ron Geller, Mireia Coscollá, Genome data artifacts and functional studies of deletion repair in the BA.1 SARS-CoV-2 spike protein, Virus Evolution, 2025; https://doi.org/10.1093/ve/veaf015

Más información: