Los Small Language Models (SLM) cambian esa conversación: ofrecen menor requerimiento computacional, menos latencia y una vía realista para implementar IA en entornos donde la infraestructura es limitada. En otras palabras, no son “una versión menor” por casualidad; son una respuesta técnica y estratégica a un problema muy concreto: cómo llevar IA a lugares donde el modelo gigante simplemente no es viable.
Con los SLM nos referimos a modelos de entre unos pocos miles de millones de parámetros hasta alrededor de 13B, aunque el límite no es rígido. Ahí entran, por ejemplo, TinyLlama 1.1B, Phi-3-mini 3.8B, Mistral 7B, Qwen2.5-7B y Llama 3.1 8B. Mistral 7B destaca por usar Grouped-Query Attention y Sliding Window Attention; Phi-3-mini se presentó como un modelo de 3.8B que rinde mejor que modelos del doble de su tamaño; Qwen2.5-7B incorpora 131,072 tokens de contexto y mejoras notables en seguimiento de instrucciones, código y salida estructurada; y Llama 3.1 8B se perfila como un modelo equilibrado entre potencia y eficiencia.