El arte invisible del dato limpio: donde empieza la verdadera ciencia de datos
septiembre 26, 2025

De meses a semanas: cómo reinventar el “estado del arte” con automatización

En cualquier proyecto de investigación, desarrollo o innovación hay un punto de partida que resulta ineludible: conocer qué se ha hecho antes. Ese repaso inicial, conocido como estado del arte, es el cimiento que asegura que no se parte de cero, que no se reinventa lo ya resuelto y que las nuevas propuestas realmente aportan valor.

En teoría parece sencillo: buscar en bases de datos científicas, leer artículos relevantes y sintetizar lo más importante. En la práctica, sin embargo, se convierte en un desafío cada vez mayor. El volumen de publicaciones científicas crece de manera exponencial —cada año se publican más de 2,5 millones de artículos en revistas indexadas—, lo que hace que localizar, filtrar, leer y resumir la información más útil se convierta en un proceso lento, tedioso y con riesgo de omitir piezas clave.

Tradicionalmente, la elaboración de un estado del arte podía consumir dos meses de trabajo a un equipo de varias personas, con decenas de horas invertidas en lecturas repetitivas, resúmenes manuales y discusiones sobre qué artículos valía la pena conservar. Una inversión de tiempo y recursos que retrasaba el arranque de los proyectos y, en muchos casos, hacía perder impulso en el momento más crítico: el inicio.

En Aubay hemos afrontado este reto con una pregunta muy concreta: ¿cómo podemos acelerar este proceso sin perder calidad ni rigor científico? La respuesta es clara: automatización e inteligencia artificial. Gracias a la combinación de diferentes técnicas de procesamiento de lenguaje natural (PLN), herramientas de extracción de información y modelos de agrupamiento, hemos conseguido reducir esta fase de dos meses a apenas tres semanas.

El reto de la calidad: cómo separar lo valioso del ruido

Uno de los principales problemas de la investigación científica hoy no es encontrar información, sino filtrar lo que realmente importa. Basta con introducir una palabra clave en Google Scholar para que aparezcan miles de resultados. ¿Cuál leer primero? ¿Cuáles son relevantes? ¿Cuáles están bien fundamentados y cuáles no?

Aquí entra en juego nuestro sistema de puntuación de calidad de artículos científicos.

El enfoque consiste en aplicar criterios tanto de contenido como de contexto:

  • Contenido: si el artículo incluye código fuente o dataset reutilizable, si cita sus fuentes de manera rigurosa, si incluye gráficos, benchmarks o comparaciones sólidas.
  • Contexto: la reputación de la revista o conferencia donde se publica, la trayectoria de los autores, la fecha de publicación (un artículo de 2010 puede ser interesante, pero quizás no útil para un proyecto que busca vanguardia).

Para operacionalizar esta evaluación utilizamos varias herramientas clave que permitan:

  • Recuperar metadatos de publicaciones y autores directamente desde Google Scholar, lo que facilita evaluar la reputación y trayectoria.
  • Convertir documentos en formato markdown, lo que permite una extracción de información más limpia y rápida.
  • Rastrear la disponibilidad de código fuente asociado al artículo.
  • Analizar las imágenes incluidas en un PDF y permite detectar si aparecen diagramas arquitectónicos, benchmarks o figuras relevantes.

Cada criterio recibe una puntuación en una escala común. Pero además, cada indicador tiene un peso distinto según su relevancia. No es lo mismo incluir un gráfico ilustrativo que aportar el código completo del experimento. El resultado es una puntuación global ponderada que clasifica los artículos del más al menos útil.

De esta forma, lo que antes era un mar de documentos inabarcables se convierte en una lista ordenada y transparente, en la que se puede ver claramente por qué un artículo está arriba y otro más abajo.

Agrupar para comprender: el poder del modelado de temas

El siguiente paso es organizar los artículos seleccionados en grupos coherentes. Aquí surge otro gran desafío: los temas de investigación son amplios y se ramifican en múltiples direcciones.

Si queremos entender un área, no basta con tener treinta buenos artículos. Necesitamos saber cuáles hablan de lo mismo, cuáles representan corrientes distintas y cómo se relacionan entre sí.

Para ello utilizamos BERTopic, un marco de modelado de temas basado en BERT (Bidirectional Encoder Representations from Transformers). Su funcionamiento combina varias técnicas de PLN:

  1. Cada artículo se convierte en un vector que captura su contenido semántico.
  2. Simplificar el espacio vectorial para hacerlo interpretable.
  3. Agrupar artículos con contenidos similares.
  4. Identificar las palabras clave que definen mejor cada subtema.

El resultado es un mapa temático donde los artículos se distribuyen en subgrupos que reflejan las principales líneas de investigación. Por ejemplo, dentro de un proyecto sobre procesamiento de lenguaje natural, un grupo puede centrarse en modelos generativos, otro en evaluación de calidad de datos y otro en aplicaciones industriales.

Esta clasificación permite:

  • Identificar rápidamente qué subtemas son relevantes para nuestro proyecto.
  • Descubrir corrientes emergentes que quizás no estaban en el radar inicial.
  • Descartar ramas que, aunque interesantes, no aportan al objetivo.

Lo más sorprendente es que, con unos pocos ajustes, el modelo es capaz de reproducir clasificaciones muy similares a las que haría un grupo de expertos humanos.

Resumir sin perder esencia: la doble capa extractiva y generativa

 

El último gran cuello de botella es la lectura. Incluso tras filtrar y clasificar, seguimos teniendo decenas de artículos de 10, 20 o 30 páginas cada uno. Leerlos todos en detalle no es viable.
Aquí entra la fase más visible de nuestra solución: la generación automática de resúmenes.

Hemos adoptado un enfoque en dos pasos:

  1. Resumen extractivo:
  • Se identifican las frases más relevantes comparando cada oración del artículo con el resumen oficial (abstract).
  • La métrica utilizada, que mide coincidencias de palabras entre frases y abstract.
  • Se seleccionan solo las oraciones con mayor puntuación.
  • Ventaja: conserva literalmente partes del texto original, garantizando fidelidad.

2. Resumen generativo:

  • Con esas frases seleccionadas, un modelo basado en transformadores genera un texto nuevo.
  • Este modelo utiliza atención de ventana, que permite procesar documentos largos sin perder coherencia.
  • El resultado es un párrafo fluido y legible que condensa lo esencial del artículo.

Así, en lugar de invertir horas leyendo un paper completo, un investigador puede entender su esencia en apenas un minuto. Y si el artículo resulta prometedor, entonces sí, profundizar en él.

El impacto real: de dos meses a tres semanas

Cuando aplicamos esta solución en un caso real, nuestras estimaciones reflejan una gran mejora:

  • Un equipo de cinco personas necesita alrededor de dos meses para elaborar un estado del arte de 30 artículos.
  • Con la automatización, ese mismo proceso se puede completar en tres semanas.
  • La calidad no solo no se resiente, sino que aumenta, gracias a la clasificación objetiva y a la claridad de los resúmenes.

Esto supone un cambio de escala: menos tiempo invertido en tareas mecánicas y más tiempo disponible para lo realmente valioso —analizar, debatir, interpretar y crear nuevas ideas.

Más allá de la investigación: aplicaciones en empresa

Aunque este ejemplo nace en un contexto de I+D, sus aplicaciones se extienden a muchos otros ámbitos empresariales:

  • Consultoría estratégica: sintetizar información sobre tendencias de mercado.
  • Compliance y legal: revisar normativas y jurisprudencia en menos tiempo.
  • Healthcare y farmacéutica: filtrar literatura clínica y ensayos en fases tempranas.
  • Tecnología e innovación: evaluar rápidamente qué soluciones ya existen antes de lanzar un nuevo producto.

En todos los casos, el valor es el mismo: convertir el exceso de información en conocimiento útil de forma más rápida y rigurosa.

Conclusión: un nuevo paradigma en la investigación

El estado del arte siempre es una tarea crítica y, al mismo tiempo, una de las más pesadas en cualquier proyecto de investigación. La combinación de automatización + inteligencia artificial + experiencia humana nos permite reinventar este proceso y adaptarlo al ritmo que exige la innovación actual.

Ya no se trata de pasar meses leyendo y clasificando artículos de forma manual. Ahora podemos hacerlo en semanas, con mayor transparencia, más rigor y resúmenes que facilitan decisiones rápidas.

En definitiva:

  • Menos tiempo perdido en tareas repetitivas.
  • Más foco en lo que aporta valor.
  • Resultados más claros, estructurados y accionables.

La automatización no sustituye al investigador, lo potencia. Y en un mundo donde la velocidad es clave, esa diferencia puede marcar el éxito de un proyecto.
En Aubay trabajamos cada día para que la innovación no se quede en teoría, sino que se traduzca en soluciones prácticas que transformen la manera en la que las organizaciones investigan, crean y evolucionan.

Porque al final, innovar es tener nuevas ideas y hacerlas realidad más rápido que nadie.

👉 ¿Quieres descubrir cómo aplicamos esta metodología en proyectos reales de Aubay?

Hablemos.

 

Siguenos en:

Artículos que podrían interesarte

Haz clic para acceder al queso de inicio de sesión o registro Ir al contenido
LOGO Aubay
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles. Política de Cookies