La Consejería de Universidad, Investigación e Innovación ha respaldado un innovador proyecto desarrollado por el departamento de Ingeniería Informática de la Universidad de Cádiz. Este trabajo ha dado lugar a la creación de REDIBAGG, un método que logra acelerar el entrenamiento de modelos de inteligencia artificial hasta en un 70%, utilizando menos datos sin comprometer la precisión. Esta técnica tiene aplicaciones potenciales en sectores tan variados como la medicina, la industria y las finanzas.
REDIBAGG está diseñado para manejar grandes volúmenes de información, especialmente en tareas de clasificación donde los algoritmos deben seleccionar entre múltiples opciones. Por ejemplo, en el ámbito sanitario, podría optimizar sistemas automáticos de diagnóstico sin perder fiabilidad; en la industria, facilitaría la detección de fallos en tiempo real con menor consumo de recursos; y en finanzas, permitiría procesar extensos registros más rápidamente para prevenir fraudes o evaluar riesgos.
Eficiencia y versatilidad del método
Según un artículo publicado en la revista Engineering Applications of Artificial Intelligence, este sistema se destaca por su adaptabilidad. “No es un método orientado a ciertos tipos de datos, sino que es muy versátil y robusto ante cualquier volumen con gran número de características o instancias”, señala Juan Francisco Cabrera, coautor del estudio.
Una característica notable de REDIBAGG es su fácil implementación. Puede ser utilizado en entornos comunes que emplean inteligencia artificial, como el lenguaje de programación Python y bibliotecas estándar como Scikit-learn. Esto facilitará su adopción por investigadores, empresas e instituciones.
Detalles técnicos y pruebas realizadas
REDIBAGG es una variante del método ‘bagging’ (abreviatura en inglés de ‘bootstrap aggregating’), ampliamente utilizado para mejorar la precisión de los clasificadores en inteligencia artificial. Este enfoque genera múltiples subconjuntos a partir del conjunto original de datos. Cada submuestra se utiliza para entrenar un clasificador base y luego se combinan las predicciones para tomar decisiones más confiables. La técnica emplea el ‘remuestreo’ bootstrap, creando submuestras aleatorias con reemplazo.
A pesar de su eficacia, el bagging presenta un alto coste computacional debido a que cada modelo se entrena con una submuestra del mismo tamaño que el conjunto original. Para superar esta limitación, los expertos han implementado un nuevo sistema que genera subconjuntos más pequeños pero representativos.
Resultados prometedores y futuros objetivos
A partir de estas submuestras reducidas, se entrenaron varios modelos independientes, combinando sus predicciones al igual que en el bagging clásico. “En la era del big data, donde se trabaja con grandes volúmenes de datos, utilizar métodos que reduzcan los tiempos de aprendizaje es fundamental, especialmente si logramos disminuirlos hasta un 70% respecto al método original”, destaca Esther Lydia Silva, autora principal del estudio.
Para validar su efectividad, REDIBAGG fue probado en 30 conjuntos de datos reales utilizando Urania, el supercomputador de la Universidad de Cádiz. Los investigadores exploraron áreas tan diversas como medicina, biología, física y ciencias sociales aplicando diferentes algoritmos de clasificación como árboles de decisión y redes neuronales.
Próximos pasos para REDIBAGG
Los resultados mostraron una precisión comparable al método original. En promedio, se logró reducir el tiempo de entrenamiento en un 35%, alcanzando reducciones del 70% en conjuntos muy grandes. “Al trabajar con modelos menos complejos se disminuyen las horas necesarias para el entrenamiento y los costes asociados al almacenamiento”, aclara Silva.
A futuro, los investigadores planean liberar REDIBAGG para que esté disponible a toda la comunidad científica. También están considerando cómo podría aplicarse a otros sistemas de aprendizaje automático más allá del bagging y sus variantes, así como combinarlo con técnicas para optimizar aún más los modelos o adaptarlo a tareas específicas como regresión.
Este trabajo ha sido financiado no solo por la Consejería de Universidad sino también por Fondos FEDER.
La noticia en cifras
Cifra |
Descripción |
70% |
Aumento en la velocidad de entrenamiento de modelos de IA. |
35% |
Reducción media del tiempo de entrenamiento. |
30 |
Número de conjuntos de datos reales utilizados para validar el método. |