🛠️ Cómo instalar y ejecutar Phi-4 o Llama-3.5 en tu propia PC usando LM Studio o Ollama


Guía técnica: Instala Phi-4 o Llama-3.5 en tu PC usando LM Studio u Ollama. Disfruta de una IA privada, sin internet y sin suscripciones pagas.



La tendencia hacia la soberanía tecnológica ha consolidado el uso de los Small Language Models (SLM) como la alternativa definitiva a las IAs basadas en la nube. Con un crecimiento del 400% en el interés por soluciones "offline", los usuarios técnicos y profesionales buscan hoy el control total de sus datos. Modelos como Phi-4 y Llama-3.5 han optimizado sus pesos para ofrecer razonamiento lógico de alto nivel en hardware doméstico, eliminando la dependencia de internet y las cuotas mensuales de suscripción.

🛠️ Paso 1: Requisitos de Hardware y Optimización

Para que un modelo de lenguaje corra de forma fluida (más de 15-20 tokens por segundo), es fundamental entender la relación entre los parámetros del modelo y la VRAM de la GPU:

  • Phi-4 (3.8B - 14B): Requiere entre 4GB y 10GB de VRAM según la cuantización.

  • Llama-3.5 (8B): Funciona de manera óptima con 8GB de VRAM en formato Q4_K_M.

  • Cuantización: Es el proceso de reducir la precisión de los pesos (de 16 bits a 4 o 5 bits) para que el modelo ocupe menos memoria sin perder capacidades perceptibles de razonamiento.

🛠️ Paso 2: Ejecución simplificada con Ollama (Consola y Backend)

Ollama es la herramienta más eficiente para quienes prefieren un sistema ligero que funcione en segundo plano.

  1. Instalación: Descarga e instala el binario desde el sitio oficial de Ollama.

  2. Llamada al modelo: Abre una terminal (CMD o Terminal de Mac/Linux) y digita:

    • ollama run llama3.5 (Para la versión estable de Meta).

    • ollama run phi4 (Para el modelo de alta eficiencia de Microsoft).

  3. Ventaja: Ollama gestiona automáticamente la descarga de los manifiestos y la asignación de recursos entre CPU y GPU de forma transparente.

🛠️ Paso 3: Control total con LM Studio (Interfaz Gráfica)

LM Studio es la opción ideal para usuarios que necesitan comparar versiones y ajustar parámetros de temperatura o contexto visualmente.

  1. Búsqueda: Utiliza el buscador integrado para localizar los repositorios de Hugging Face. Busca términos como Phi-4 GGUF o Llama-3.5 GGUF.

  2. Descarga Proporcional: Selecciona siempre la versión cuantizada que se ajuste a tu memoria RAM. El software marcará en verde las opciones que tu PC puede soportar con éxito.

  3. Configuración de Inferencia: En el panel de ajustes, localiza "GPU Offload". Desliza la barra al máximo para asegurarte de que todas las capas del modelo se procesen en la tarjeta de video, lo cual garantiza una respuesta instantánea.

  4. Chat Privado: Una vez cargado, puedes iniciar una conversación. LM Studio desconecta cualquier acceso externo para garantizar que tu información nunca salga del equipo.

📊 Tabla Comparativa de Modelos Locales

AtributoMicrosoft Phi-4Meta Llama-3.5 (8B)
EspecialidadLógica matemática y códigoConversación general y creativa
Peso en Disco~2.3 GB - 9 GB~4.7 GB (Q4)
Memoria Recomendada8GB RAM / 4GB VRAM16GB RAM / 8GB VRAM
LatenciaUltra BajaMedia-Baja

La implementación de estos modelos locales permite configurar sistemas de RAG (Retrieval-Augmented Generation), donde la IA puede leer tus documentos PDF, hojas de cálculo o bases de datos locales sin que esos archivos se suban jamás a un servidor externo, protegiendo así la propiedad intelectual y la privacidad personal.

🔍 FAQ: Implementación de IA Offline y SLM

¿Qué es la cuantización y por qué es necesaria para correr IAs locales?

Es el proceso de reducir la precisión de los pesos del modelo (por ejemplo, de 16 a 4 bits). Esto reduce drásticamente el uso de VRAM y espacio en disco, permitiendo que modelos como Llama-3.5 corran en hardware doméstico sin perder capacidades críticas de razonamiento.

¿Cuánta VRAM necesito para ejecutar Phi-4 o Llama-3.5 de forma fluida?

Para obtener un rendimiento superior a 15 tokens por segundo, se recomiendan al menos 4GB-6GB de VRAM para Phi-4 y un mínimo de 8GB de VRAM para Llama-3.5 (8B) utilizando cuantizaciones optimizadas como Q4_K_M.

¿Cuál es la diferencia de uso entre Ollama y LM Studio?

Ollama es ideal para usuarios que buscan un motor ligero por línea de comandos o backend. LM Studio es la mejor opción para quienes requieren una interfaz gráfica, comparación de modelos de Hugging Face y ajuste visual de parámetros como el GPU Offload.

¿Cómo garantiza el uso de modelos locales la privacidad de mis datos?

Al ejecutarse íntegramente en tu GPU/CPU de forma offline, los datos, documentos (vía RAG) y conversaciones nunca salen de tu equipo. Esto elimina el riesgo de filtraciones en servidores externos y protege la propiedad intelectual empresarial.

Jhonathan I. Castro M.

Por: Jhonathan Castro

CEO | Editor en NEWSTECNICAS

Manténgase al día con la información minuto a minuto en Facebook Twitter/X Threads Bluesky ¡!NEWSTECNICAS | Tecnologia, IA y Gaming!


 

Blogarama - Blog Directory