¿Qué son los modelos pequeños SLM?
Los small language models, o SLM, son modelos de lenguaje con menos parámetros y menores requisitos de cómputo que los modelos de gran tamaño.
Su tamaño puede permitir una ejecución más rápida, barata o cercana al dispositivo donde se utilizan. A cambio, normalmente disponen de menos capacidad general para seguir instrucciones complejas o resolver tareas abiertas.
Pequeño no significa necesariamente poco útil. Un modelo especializado en una función concreta puede superar a otro mucho mayor si la tarea, los datos y la evaluación están bien definidos.
Qué ventajas aporta el tamaño
Puede reducir latencia, consumo energético y coste por petición. Algunos modelos pueden ejecutarse en portátiles, móviles, navegadores o infraestructura propia, lo que abre opciones de privacidad y funcionamiento sin conexión.
También permite dedicar modelos distintos a tareas específicas en lugar de enviar cada solicitud al modelo más potente disponible.
Dónde suelen funcionar mejor
Encajan en clasificación, extracción, resumen acotado, enrutamiento y llamadas a funciones con un conjunto limitado de herramientas. Google publica FunctionGemma como modelo ligero pensado específicamente para adaptar llamadas a funciones.
En voz, un modelo rápido puede ayudar a reducir el tiempo de respuesta. Pero hay que medir el sistema completo: transcripción, red, modelo, herramientas y síntesis.
Qué limitaciones tienen
Pueden perder precisión en instrucciones largas, razonamiento de varios pasos, idiomas o dominios poco representados. Una ventana de contexto amplia tampoco garantiza que sepan utilizar toda la información con la misma eficacia que un modelo mayor.
Cuando necesitan conocimiento empresarial, suele ser mejor aportarlo mediante una base de conocimiento que esperar que el tamaño del modelo lo contenga.
Modelos pequeños, abiertos y locales
Son conceptos relacionados, pero no equivalentes. Un modelo pequeño puede ofrecerse únicamente mediante API; uno de pesos abiertos puede ser grande; y la ejecución local depende tanto del tamaño como del hardware y la cuantización.
Familias como Gemma incluyen modelos ligeros con pesos abiertos diseñados para diferentes dispositivos. Esa posibilidad concede más control de despliegue, pero también traslada al equipo la responsabilidad de operar, actualizar y proteger el modelo.
Cómo elegir entre un SLM y un LLM
Conviene probar ambos con el mismo conjunto de casos y medir calidad, coste y latencia. Una arquitectura también puede enrutar las tareas sencillas al modelo pequeño y reservar un modelo de razonamiento para las excepciones.
El mejor modelo no es el mayor, sino el más pequeño que cumple de forma estable los requisitos del proceso.
¿Qué es un LLM?
¿Qué es un modelo de razonamiento?
¿Qué es la ventana de contexto?
Fine-tuning
Latencia en agentes de voz
Si quieres aplicar IA en tu negocio,
Te explico qué hago y cómo trabajo: Aquí