Detección de palabras prohibidas a escala usando Aho-Corasick en Go

We strive to create digital
products that harmoniously coexist

Introducción

En entornos digitales donde los usuarios generan contenido constantemente nombres, comentarios, mensajes o formularios la detección de palabras prohibidas (NG words) es clave para garantizar cumplimiento, seguridad y una experiencia consistente. Desde una perspectiva de producto y plataforma, este problema no solo es funcional, sino también operativo: debe resolverse en tiempo real y sin degradar el rendimiento del sistema. Este blog presenta una solución basada en el algoritmo Aho-Corasick, utilizada para optimizar la detección de palabras prohibidas en un sistema real, mostrando cómo pasar de una implementación simple pero costosa a una arquitectura eficiente y preparada para escalar.

El problema: detección simple, pero costosa

Una implementación básica de detección de palabras prohibidas suele recorrer toda la lista de términos bloqueados y verificar si alguno aparece en el texto de entrada.

Aunque este enfoque es fácil de implementar, su complejidad en el peor caso es:

O(n × m × k)
n: longitud del texto
m: longitud promedio de las palabras prohibidas
k: número de palabras en la lista

En sistemas con alto tráfico o listas extensas, este enfoque se vuelve inviable desde el punto de vista de rendimiento.

Requisitos funcionales del sistema

Desde el punto de vista de producto, el sistema debe permitir:
Deny List: palabras que deben bloquearse si aparecen en el texto
Allow List: excepciones explícitas que anulan bloqueos
Evaluación en tiempo real, sin afectar la latencia
Comportamiento determinista y fácil de depurar desde el panel administrativo

Aho-Corasick: detección eficiente de múltiples patrones

El algoritmo Aho-Corasick permite buscar múltiples patrones simultáneamente en un texto, con una complejidad de búsqueda O(n), independientemente del número de palabras prohibidas.

El proceso se divide en tres etapas:

Construcción del Trie

Todas las palabras de la lista prohibida y permitida se almacenan en una estructura tipo Trie, compartiendo prefijos comunes para reducir redundancia.

Construcción de transiciones de fallo

Cada nodo del Trie define una transición alternativa que permite continuar la búsqueda cuando no hay coincidencia directa, evitando retrocesos innecesarios y manteniendo el flujo lineal.

Búsqueda

El texto se recorre carácter por carácter. El Trie y las transiciones de fallo permiten detectar coincidencias completas sin reiniciar el análisis.

Implementación en Go

La implementación utiliza una estructura de nodos que mantiene:

Relación padre-hijo
Indicadores de fin de palabra
Flags para deny y allow
Referencias a nodos de fallo

Durante la inicialización del servicio:

Se construye el Trie a partir de las listas configuradas
Se calculan las transiciones de fallo
El sistema queda listo para evaluar entradas con complejidad lineal

Durante la ejecución:

Cada texto se analiza carácter a carácter
Las reglas de Allow List tienen prioridad sobre Deny List
El resultado indica si el texto debe ser bloqueado o permitido

Impacto en sistemas reales

Desde una perspectiva Meetlabs, este enfoque aporta:

Escalabilidad: el coste por evaluación no crece con la cantidad de palabras
Baja latencia: ideal para validaciones síncronas

Consistencia: reglas claras incluso con excepciones

Experiencia de usuario estable incluso bajo alta carga
Este tipo de optimización es clave en productos donde la moderación ocurre en cada interacción del usuario.

Conclusión

El uso del algoritmo Aho-Corasick para la detección de palabras prohibidas permite transformar un problema aparentemente simple en una solución robusta, eficiente y preparada para escalar. Al mover la complejidad al momento de inicialización y mantener búsquedas en tiempo lineal, es posible garantizar moderación en tiempo real sin comprometer el rendimiento del sistema ni la experiencia del usuario.

Recomendaciones

Diseñar reglas claras de allow/deny
Preprocesar patrones al iniciar el servicio ·
Priorizar búsquedas O(n)
Separar configuración de lógica
Pensar moderación como parte del producto, no solo como validación

Glosario

Trie: estructura de árbol para almacenar y buscar cadenas eficientemente
Aho-Corasick: algoritmo para búsqueda simultánea de múltiples patrones
Failure transition: salto alternativo que evita reiniciar la búsqueda
Deny List: lista de términos explícitamente prohibidos
Allow List: excepciones que anulan reglas de bloqueo

Table of Contents