¿Qué métricas importan en un sistema de IA?

Las métricas de IA permiten saber si un sistema funciona correctamente, se mantiene operativo y mejora el resultado empresarial para el que fue construido.

No existe una métrica universal. Un clasificador, un asistente de soporte y un agente que ejecuta acciones necesitan criterios distintos.

Conviene separar tres niveles: calidad del comportamiento, funcionamiento del sistema e impacto en el proceso. Una mejora en uno no garantiza una mejora en los demás.

Métricas de comportamiento

Miden si la salida cumple la tarea: exactitud, cobertura, formato, uso correcto de fuentes, elección de herramientas y respeto de límites. En agentes también importa la trayectoria, no sólo la respuesta final.

Las evaluaciones pueden corregirse con reglas, personas u otros modelos. El criterio debe definirse con ejemplos para evitar que una valoración subjetiva cambie en cada revisión.

Métricas operativas

Incluyen latencia, disponibilidad, coste por ejecución, consumo de tokens, errores de herramientas, reintentos, colas y porcentaje de intervención humana. Permiten localizar si el problema está en el modelo o en la infraestructura.

Las medias deben acompañarse de percentiles y segmentos. Una latencia media aceptable puede ocultar una cola de conversaciones extremadamente lentas.

Métricas del proceso y del negocio

Miden el resultado que justificó el proyecto: tiempo de resolución, trabajo manual, errores, conversión, margen, satisfacción, capacidad atendida o cumplimiento de plazos.

Una alta resolución automática puede ser engañosa si aumentan reaperturas o reclamaciones. Las métricas deben capturar el resultado posterior, no sólo el instante en que el sistema declara éxito.

Línea base y comparación

Antes del piloto se mide el proceso actual. Después se compara la solución con esa línea base o con un grupo de control. Sin contrafactual, es difícil saber si la mejora vino de la IA, de un cambio de volumen o de otro ajuste operativo.

La comparación debe mantener condiciones parecidas y observar suficiente tiempo para incluir casos difíciles, no sólo el periodo de lanzamiento.

Segmentar para no ocultar fallos

El rendimiento agregado puede ocultar problemas por idioma, canal, intención, tipo de cliente o grupo afectado. Google recomienda evaluar por segmentos porque una buena media puede esconder errores sistemáticos en subconjuntos pequeños.

La segmentación debe elegirse según el caso y el posible daño. No se trata de producir paneles infinitos, sino de detectar dónde la experiencia o el riesgo cambian.

Indicadores adelantados y retrasados

Los indicadores adelantados aparecen rápido: tasa de error, latencia o revisión humana. Los retrasados muestran el efecto final: renovación, ingresos, reclamaciones o ahorro sostenido.

Ambos son necesarios. Esperar únicamente al ROI puede tardar meses; optimizar sólo una métrica técnica puede alejar el sistema del objetivo empresarial.

Cómo probar agentes de IA

ROI de la IA

Estrategia de IA para empresas

Sesgos en la IA

Riesgos de la IA

Si quieres aplicar IA en tu negocio,

Te explico qué hago y cómo trabajo: Aquí

Una idea práctica sobre IA, cada día

Recibe cada día un email con un consejo para aplicar inteligencia artificial en tu negocio sin perder tiempo ni dinero.