IA local: elige el modelo para tu máquina

Vas a poner un “cerebro” de IA a funcionar en tu propio ordenador y a elegir el adecuado según tu equipo. Este capítulo es la base de casi todos los proyectos del libro.

Objetivos de aprendizaje

Qué programas usar para ejecutar modelos en local (Ollama y LM Studio).
Qué es la cuantización y por qué te deja usar modelos grandes en equipos modestos.
Qué modelo elegir según tu portátil, tu GPU o tu Mac.

Dos programas para ejecutar IA en local

Ollama — gratuito, se maneja con comandos sencillos. Ideal para conectar modelos a tus aplicaciones. Es el que usamos por defecto. ollama.com
LM Studio — aplicación con ventana gráfica para descargar y chatear con modelos sin tocar la terminal. Perfecto para probar y comparar. lmstudio.ai

En cristiano: ¿cuál elijo?. Usa LM Studio para trastear y ver qué modelo te gusta (todo con el ratón). Usa Ollama cuando quieras que tus aplicaciones hablen con el modelo automáticamente. En la práctica muchos tienen los dos.

Cuantización: modelos grandes en equipos pequeños

Un modelo “en crudo” puede ocupar muchísima memoria. La cuantización lo comprime para que quepa en tu equipo perdiendo muy poca calidad.

En cristiano: cuantización (los Q4, Q8...). Es como pasar una foto RAW enorme a un JPG: ocupa mucho menos y a simple vista se ve casi igual. Q4 comprime bastante (rápido, poca memoria); Q8 comprime menos (más fiel, más pesado). Para empezar, Q4 es una gran relación calidad/tamaño.

Qué modelo elegir (edición 2026)

Los modelos evolucionan rápido; estas familias son las recomendables a fecha de 2026. Elige por la memoria de tu equipo:

Tu equipo	Modelos recomendados (empieza por el primero)
Portátil 8 GB RAM	Qwen3.5 (2B–4B), Gemma 4 pequeño, Llama 3.2 (1B–3B), Phi-4-mini
Portátil 16 GB RAM	Qwen3.5 4B, Gemma 4 mediano, Ministral 3 (8B), Phi-4-mini
GPU RTX 8–12 GB	Qwen3.5 9B, Gemma 4 (Q4), Llama 3.1 8B, phi-4 (14B, Q4)
GPU RTX 16–24 GB	Qwen3.6 (27B / 35B MoE), Phi-4-reasoning, Gemma 4 grande

Idea clave. Regla sencilla: empieza pequeño. Un modelo de 4B que responde al instante es más útil para aprender que uno enorme que va a trompicones. Cuando domines el flujo, sube de tamaño y compara.

En cristiano: ¿y un PC sin GPU potente, o un Mac?. Los Mac con chip M (Apple Silicon) ejecutan modelos sorprendentemente bien gracias a su memoria unificada; Ollama los aprovecha automáticamente. En un PC con tarjeta NVIDIA RTX, el modelo corre en la GPU y vuela. Y equipos nuevos tipo NVIDIA DGX Spark están pensados justo para esto. Sin GPU, funciona igual pero más despacio: usa modelos pequeños.

Pruébalo ahora

Descarga un modelo y háblale, sin escribir código:

Terminal

ollama pull qwen3:4b
ollama run qwen3:4b "Explícame qué es la energía solar en dos frases"

Comprueba que funciona. Si te responde en tu terminal con un par de frases coherentes, ya tienes inteligencia artificial corriendo en tu ordenador, gratis y sin conexión. Escribe /bye para salir del chat.

Guardar y reabrir el proyecto.

Los modelos que descargas con ollama pull se guardan una sola vez en tu ordenador y quedan disponibles para todos tus proyectos. Para ver los que tienes: ollama list. Para liberar espacio y borrar uno: ollama rm nombre-del-modelo.

Reto para practicar

Descarga dos modelos de distinto tamaño (por ejemplo qwen3:4b y un Gemma). Hazles la misma pregunta con ollama run y compara la calidad y la velocidad. Así aprendes a elegir el equilibrio que te conviene.

← Escribir buenos encargos Conecta Claude Code con tu IA local →