Ollama: Ejecutando LLMs de Forma Local

Por: Santiago Matiz

Fecha: Enero 3 del 2025

En el panorama actual de la Inteligencia Artificial, los Modelos grandes de lenguaje (LLMs) han revolucionado la forma en que interactuamos con la tecnología. Sin embargo, la mayoría de estos servicios requieren conexión a internet y pueden presentar preocupaciones sobre privacidad y costos. Aquí es donde Ollama marca la diferencia.

Ollama es una herramienta de código abierto que permite ejecutar LLMs directamente en tu máquina local, ofreciendo una alternativa potente y flexible a los servicios en la nube. Desarrollada pensando en la simplicidad y la eficiencia, Ollama hace accesible la tecnología de LLMs para desarrolladores, investigadores y entusiastas.

Ventajas Principales

    Privacidad: Todos los datos permanecen en tu máquina local
  • Sin costos recurrentes: Una vez descargado, no hay gastos adicionales
  • Acceso sin conexión: Funciona sin necesidad de internet
  • Personalización completa: Control total sobre los parámetros del modelo
  • Bajo latencia: Respuestas más rápidas al ejecutarse localmente

Modelos Disponibles

Ollama ofrece acceso a una amplia biblioteca de modelos, incluyendo:

    Llama 3.1, 3.2 ,3.3 (7B, 13B, 70B)
  • Mistral (variantes optimizadas)
  • CodeLlama (especializado en código)
  • Vicuna
  • Y más de 74 modelos adicionales

Consideraciones de Hardware

Para ejecutar Ollama efectivamente, se recomienda:

    Mínimo 8GB de RAM para modelos pequeños (7B)
  • 16GB+ RAM para modelos medianos (13B)
  • GPU dedicada para mejor rendimiento
  • Espacio en disco según el modelo (5-30GB por modelo)

Comunidad y Desarrollo

Ollama cuenta con una comunidad activa que constantemente desarrolla nuevas integraciones y mejoras. El proyecto está en GitHub, permitiendo contribuciones y personalizaciones por parte de la comunidad.

Ollama es una herramienta open source que permite ejecutar Modelos de Lenguaje Grandes (LLMs) localmente en tu máquina.

Características Principales

    Ejecución local de modelos
  • API REST en puerto 11434
  • Creación de modelos personalizados
  • 74+ modelos disponibles
  • Integración con Langchain
  • Compatible con Llama 2, Mistral y CodeLlama

Uso de Ollama

Instalación

Descarga e instala Ollama desde su sitio web oficial. Verifica la instalación:

https://ollama.com/

bash
ollama run

Ejecutar Modelos

bash
# Descargar modelo
ollama pull mistral


# Ejecutar modelo
ollama run mistral

Integración con Python

python
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA


llm = Ollama(model="mistral")
qa = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff",
retriever=retriever,
return_source_documents=True
)

Modelos Personalizados

Crea modelos usando Modelfile:

FROM "./modelo-personalizado.gguf"
PARAMETER temperature 0.001
PARAMETER top_k 20
SYSTEM "Tu prompt personalizado aquí"

Crear modelo:

bash
ollama create mimodelo -f Modelfile

Interfaz Web

Usa Ollama-WebUI para una interfaz estilo ChatGPT:

bash
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v ollama-webui:/app/backend/data --name ollama-webui ghcr.io/ollama-webui/ollama-webui:main

Ollama ofrece una forma accesible de ejecutar LLMs potentes localmente, manteniendo control sobre datos y opciones de personalización.