En este artículo se presenta el desarrollo de una aplicación capaz de convertir reuniones en diagramas visuales en tiempo real utilizando IA generativa. A través de la integración de captura de audio, transcripción automática y generación estructurada con LLM, se logró transformar conversaciones en representaciones gráficas dinámicas en formato SVG. Este caso muestra cómo combinar múltiples tecnologías para estructurar información compleja y mejorar la comprensión en entornos colaborativos.

Las reuniones suelen ser espacios donde se generan muchas ideas, pero no siempre es fácil seguir el hilo de la conversación o recordar los puntos clave después. En muchos casos, la información se vuelve abstracta, desordenada o difícil de sintetizar.
En este contexto, surge una oportunidad interesante: utilizar IA generativa no solo para procesar texto, sino para estructurar y visualizar el pensamiento en tiempo real. Este artículo explora el desarrollo de una aplicación que convierte conversaciones en diagramas visuales automáticamente, combinando tecnologías de audio, transcripción y modelos de lenguaje para transformar reuniones en experiencias más claras, dinámicas y comprensibles.

El sistema se diseñó como un flujo continuo que transforma audio en visualizaciones sin interrupciones. La arquitectura conecta múltiples etapas que trabajan en tiempo real. Primero se captura el audio desde el micrófono, luego se transcribe y finalmente se transforma en un diagrama visual.
Puntos clave:
Este enfoque permite que el diagrama evolucione a medida que avanza la reunión, sin necesidad de reprocesar todo desde cero.
Uno de los mayores retos fue decidir cómo representar visualmente la información. Se evaluaron diferentes opciones, pero muchas presentaban limitaciones importantes. Las imágenes generadas por IA eran atractivas, pero poco consistentes y difíciles de actualizar.
Puntos clave:

El uso de SVG resolvió estos problemas:
Esto lo convierte en una opción ideal para visualizaciones dinámicas en tiempo real.
El modelo de lenguaje no se utilizó solo para generar contenido, sino para estructurarlo de forma lógica y visual. Para lograrlo, se diseñó un prompt con reglas estrictas que guían el comportamiento del modelo.
Puntos clave:
Este enfoque permite que el sistema construya un diagrama coherente y evolutivo, en lugar de producir resultados aislados.

Además del texto estructurado, se buscó enriquecer los diagramas con elementos visuales complementarios. Inicialmente se probó generar imágenes con IA, pero los tiempos de respuesta eran demasiado altos para un sistema en tiempo real.
Puntos clave:
Este enfoque permitió mantener la velocidad del sistema sin sacrificar calidad visual, combinando IA generativa con técnicas de recuperación eficiente.

El desarrollo de esta aplicación demuestra que la IA generativa puede ir más allá de la generación de texto, permitiendo estructurar ideas y visualizarlas en tiempo real. Al combinar audio, transcripción y modelos de lenguaje con formatos como SVG, es posible transformar reuniones en experiencias más claras y comprensibles. Este tipo de soluciones abre nuevas posibilidades para mejorar la comunicación, la toma de decisiones y la forma en que interactuamos con la información en entornos colaborativos.