Ollama (local)

Usa Ollama para ejecutar modelos de IA localmente — no se necesita ninguna clave de API en la nube. Es ideal para entornos air-gapped, despliegues on-premise o equipos con requisitos estrictos de residencia de datos.

Requisitos previos

Ollama instalado y ejecutándose en una máquina accesible desde QA Hub
Al menos un modelo descargado (p. ej., llama3, mistral, qwen2.5-coder)

Instalar e iniciar Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Descargar un modelo recomendado
ollama pull qwen2.5-coder:14b

# Iniciar el servidor (corre en el puerto 11434 por defecto)
ollama serve

Configurar en QA Hub

Ve a Settings → AI Model.
Selecciona Ollama como proveedor.
Establece la Base URL a tu servidor Ollama (p. ej., http://localhost:11434 o http://192.168.1.50:11434).
Introduce el nombre del modelo exactamente como aparece en ollama list (p. ej., qwen2.5-coder:14b).
Haz clic en Test connection, luego en Save.

Modo navegador

Si QA Hub corre en un navegador y tu servidor Ollama está en localhost, las restricciones CORS del navegador pueden bloquear la solicitud. Habilita el Browser mode en Settings para enrutar las llamadas a Ollama a través del proceso de servidor de QA Hub en lugar de directamente desde el navegador.

Settings → AI Model → Use browser for Ollama requests — desactiva para enrutar via servidor.

Modelos recomendados

Modelo	VRAM	Calidad	Velocidad
`qwen2.5-coder:14b`	8 GB	Excelente para salida estructurada	Media
`llama3.1:8b`	5 GB	Bueno para uso general	Rápido
`mistral:7b`	4 GB	Ligero, calidad aceptable	Muy rápido

Modo de razonamiento extendido

Algunos modelos (p. ej., qwen3) soportan razonamiento extendido. Desactívalo en Settings si experimentas respuestas lentas:

Settings → AI Model → Disable thinking mode (Ollama)

Limitaciones

La calidad de la generación depende del modelo y el hardware
Sin cuota de facturación — pero aplican restricciones de hardware
No recomendado para despliegues cloud en producción donde la latencia importa

Requisitos previos​

Instalar e iniciar Ollama​

Configurar en QA Hub​

Modo navegador​

Modelos recomendados​

Modo de razonamiento extendido​

Limitaciones​