Ollama: Ejecutando LLMs de Forma Local
Por: Santiago Matiz
Fecha: Enero 3 del 2025
En el panorama actual de la Inteligencia Artificial, los Modelos grandes de lenguaje (LLMs) han revolucionado la forma en que interactuamos con la tecnología. Sin embargo, la mayoría de estos servicios requieren conexión a internet y pueden presentar preocupaciones sobre privacidad y costos. Aquí es donde Ollama marca la diferencia.
Ollama es una herramienta de código abierto que permite ejecutar LLMs directamente en tu máquina local, ofreciendo una alternativa potente y flexible a los servicios en la nube. Desarrollada pensando en la simplicidad y la eficiencia, Ollama hace accesible la tecnología de LLMs para desarrolladores, investigadores y entusiastas.
Ventajas Principales
- Privacidad: Todos los datos permanecen en tu máquina local
- Sin costos recurrentes: Una vez descargado, no hay gastos adicionales
- Acceso sin conexión: Funciona sin necesidad de internet
- Personalización completa: Control total sobre los parámetros del modelo
- Bajo latencia: Respuestas más rápidas al ejecutarse localmente
Modelos Disponibles
Ollama ofrece acceso a una amplia biblioteca de modelos, incluyendo:
- Llama 3.1, 3.2 ,3.3 (7B, 13B, 70B)
- Mistral (variantes optimizadas)
- CodeLlama (especializado en código)
- Vicuna
- Y más de 74 modelos adicionales
Consideraciones de Hardware
Para ejecutar Ollama efectivamente, se recomienda:
- Mínimo 8GB de RAM para modelos pequeños (7B)
- 16GB+ RAM para modelos medianos (13B)
- GPU dedicada para mejor rendimiento
- Espacio en disco según el modelo (5-30GB por modelo)
Comunidad y Desarrollo
Ollama cuenta con una comunidad activa que constantemente desarrolla nuevas integraciones y mejoras. El proyecto está en GitHub, permitiendo contribuciones y personalizaciones por parte de la comunidad.
Ollama es una herramienta open source que permite ejecutar Modelos de Lenguaje Grandes (LLMs) localmente en tu máquina.
Características Principales
- Ejecución local de modelos
- API REST en puerto 11434
- Creación de modelos personalizados
- 74+ modelos disponibles
- Integración con Langchain
- Compatible con Llama 2, Mistral y CodeLlama
Uso de Ollama
Instalación
Descarga e instala Ollama desde su sitio web oficial. Verifica la instalación:
ollama run
Ejecutar Modelos
# Descargar modelo
ollama pull mistral
# Ejecutar modelo
ollama run mistral
Integración con Python
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA
llm = Ollama(model="mistral")
qa = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff",
retriever=retriever,
return_source_documents=True
)
Modelos Personalizados
Crea modelos usando Modelfile:
FROM "./modelo-personalizado.gguf"
PARAMETER temperature 0.001
PARAMETER top_k 20
SYSTEM "Tu prompt personalizado aquí"
Crear modelo:
ollama create mimodelo -f Modelfile
Interfaz Web
Usa Ollama-WebUI para una interfaz estilo ChatGPT:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v ollama-webui:/app/backend/data --name ollama-webui ghcr.io/ollama-webui/ollama-webui:main
Ollama ofrece una forma accesible de ejecutar LLMs potentes localmente, manteniendo control sobre datos y opciones de personalización.