¿Qué métricas importan en un sistema de IA?
Las métricas de IA permiten saber si un sistema funciona correctamente, se mantiene operativo y mejora el resultado empresarial para el que fue construido.
No existe una métrica universal. Un clasificador, un asistente de soporte y un agente que ejecuta acciones necesitan criterios distintos.
Conviene separar tres niveles: calidad del comportamiento, funcionamiento del sistema e impacto en el proceso. Una mejora en uno no garantiza una mejora en los demás.
Métricas de comportamiento
Miden si la salida cumple la tarea: exactitud, cobertura, formato, uso correcto de fuentes, elección de herramientas y respeto de límites. En agentes también importa la trayectoria, no sólo la respuesta final.
Las evaluaciones pueden corregirse con reglas, personas u otros modelos. El criterio debe definirse con ejemplos para evitar que una valoración subjetiva cambie en cada revisión.
Métricas operativas
Incluyen latencia, disponibilidad, coste por ejecución, consumo de tokens, errores de herramientas, reintentos, colas y porcentaje de intervención humana. Permiten localizar si el problema está en el modelo o en la infraestructura.
Las medias deben acompañarse de percentiles y segmentos. Una latencia media aceptable puede ocultar una cola de conversaciones extremadamente lentas.
Métricas del proceso y del negocio
Miden el resultado que justificó el proyecto: tiempo de resolución, trabajo manual, errores, conversión, margen, satisfacción, capacidad atendida o cumplimiento de plazos.
Una alta resolución automática puede ser engañosa si aumentan reaperturas o reclamaciones. Las métricas deben capturar el resultado posterior, no sólo el instante en que el sistema declara éxito.
Línea base y comparación
Antes del piloto se mide el proceso actual. Después se compara la solución con esa línea base o con un grupo de control. Sin contrafactual, es difícil saber si la mejora vino de la IA, de un cambio de volumen o de otro ajuste operativo.
La comparación debe mantener condiciones parecidas y observar suficiente tiempo para incluir casos difíciles, no sólo el periodo de lanzamiento.
Segmentar para no ocultar fallos
El rendimiento agregado puede ocultar problemas por idioma, canal, intención, tipo de cliente o grupo afectado. Google recomienda evaluar por segmentos porque una buena media puede esconder errores sistemáticos en subconjuntos pequeños.
La segmentación debe elegirse según el caso y el posible daño. No se trata de producir paneles infinitos, sino de detectar dónde la experiencia o el riesgo cambian.
Indicadores adelantados y retrasados
Los indicadores adelantados aparecen rápido: tasa de error, latencia o revisión humana. Los retrasados muestran el efecto final: renovación, ingresos, reclamaciones o ahorro sostenido.
Ambos son necesarios. Esperar únicamente al ROI puede tardar meses; optimizar sólo una métrica técnica puede alejar el sistema del objetivo empresarial.
Cómo probar agentes de IA
ROI de la IA
Estrategia de IA para empresas
Sesgos en la IA
Riesgos de la IA
Si quieres aplicar IA en tu negocio,
Te explico qué hago y cómo trabajo: Aquí