Saltar al contenido principal

Ollama (local)

Usa Ollama para ejecutar modelos de IA localmente — no se necesita ninguna clave de API en la nube. Es ideal para entornos air-gapped, despliegues on-premise o equipos con requisitos estrictos de residencia de datos.

Requisitos previos

  • Ollama instalado y ejecutándose en una máquina accesible desde QA Hub
  • Al menos un modelo descargado (p. ej., llama3, mistral, qwen2.5-coder)

Instalar e iniciar Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Descargar un modelo recomendado
ollama pull qwen2.5-coder:14b

# Iniciar el servidor (corre en el puerto 11434 por defecto)
ollama serve

Configurar en QA Hub

  1. Ve a Settings → AI Model.
  2. Selecciona Ollama como proveedor.
  3. Establece la Base URL a tu servidor Ollama (p. ej., http://localhost:11434 o http://192.168.1.50:11434).
  4. Introduce el nombre del modelo exactamente como aparece en ollama list (p. ej., qwen2.5-coder:14b).
  5. Haz clic en Test connection, luego en Save.

Modo navegador

Si QA Hub corre en un navegador y tu servidor Ollama está en localhost, las restricciones CORS del navegador pueden bloquear la solicitud. Habilita el Browser mode en Settings para enrutar las llamadas a Ollama a través del proceso de servidor de QA Hub en lugar de directamente desde el navegador.

Settings → AI Model → Use browser for Ollama requests — desactiva para enrutar via servidor.

Modelos recomendados

ModeloVRAMCalidadVelocidad
qwen2.5-coder:14b8 GBExcelente para salida estructuradaMedia
llama3.1:8b5 GBBueno para uso generalRápido
mistral:7b4 GBLigero, calidad aceptableMuy rápido

Modo de razonamiento extendido

Algunos modelos (p. ej., qwen3) soportan razonamiento extendido. Desactívalo en Settings si experimentas respuestas lentas:

Settings → AI Model → Disable thinking mode (Ollama)

Limitaciones

  • La calidad de la generación depende del modelo y el hardware
  • Sin cuota de facturación — pero aplican restricciones de hardware
  • No recomendado para despliegues cloud en producción donde la latencia importa