10 апреля 2026 · Редакция

Как направить Claude Code, Codex CLI и Gemini CLI на локальные модели Ollama через один прокси

На dev.to вышел разбор, как связать сразу три популярных CLI для работы с моделями — Claude Code, Codex CLI и Gemini CLI — с локальными моделями Ollama через единый прокси на localhost. В заголовке автор обещает «трёхминутный» сетап; в анонсе подчёркивается идея без API-ключей и без облачных затрат в этом контуре (так сформулировано у первоисточника). Материал попал в ленту по тегу ai и описывает практический мост между разными протоколами облачных CLI и OpenAI-совместимым endpoint Ollama.

Разные протоколы — одна «точка входа» для Ollama

Здесь ломается привычная картинка «подставил base URL и поехали». В посте зафиксировано: Claude Code опирается на протокол Anthropic, Codex CLI — на OpenAI, Gemini CLI — на Google. Ollama при этом имеет собственный протокол и дополнительно даёт OpenAI-совместимый endpoint по адресу http://localhost:11434. Несовместимость форматов на уровне CLI делает задачу нетривиальной: нужен слой, который понимает, что шлёт каждый клиент, и что ожидает Ollama.

CliGate: прокси между CLI, облаком и локальными моделями

Дальше в сюжете появляется CliGate — локальный прокси, который, по описанию автора, маршрутизирует перечисленные CLI к облачным провайдерам; поддержка локальных моделей добавляет Ollama как полноценную цель маршрутизации рядом с OpenAI, Anthropic и Google. Ссылка на репозиторий в материале: github.com/codeking-ai/cligate. При включённой локальной маршрутизации прокси, по словам автора, перехватывает запросы CLI и по конфигурации отправляет их в Ollama; трансляция протоколов выполняется на стороне прокси (запросы Claude Code в формате Anthropic адаптируются к ожиданиям Ollama, ответ возвращается в виде, который снова понятен CLI).

Сетап по шагам из первоисточника

Ниже — сжатый пересказ шагов так, как их перечисляет автор поста.

Ollama. Пример запуска модели: ollama run qwen2.5-coder:7b (или другая модель по выбору). Утверждается, что CliGate автоматически обнаруживает загруженные модели. Для проверки доступности Ollama приведены curl http://localhost:11434/api/version и пример JSON-ответа в комментарии с полем version в виде 0.6.x — в посте это подано как иллюстрация, а не как фиксированная версия у читателя.
Запуск CliGate: npx cligate@latest start; дашборд открывается по http://localhost:8081.
Подключение Ollama в интерфейсе: раздел Settings → Local Models; URL Ollama: http://localhost:11434; после проверки «здоровья» список моделей подтягивается через путь /v1/models (формулировка поста).
Маршрутизация: переключатель «Local Model Routing»; опционально помодельная настройка — в примере автора Claude Code направлен на локальную qwen2.5-coder:7b, а Codex CLI и Gemini CLI остаются на облако.
Проверка: вкладка Chat с источником «Local Model», затем в терминале обычная работа с Claude Code; в качестве примера приведена команда claude "explain what this function does" и пояснение, что прокси выполняет маршрутизацию (в посте также указано, что Claude Code уже нацелен на CliGate после «one-click setup»).

Стриминг: отдельный SSE-мост

Автор отдельно разбирает несовпадение потокового вывода: Claude Code ожидает SSE в формате Anthropic, у Ollama — свой формат потока. Решение в посте описано как отдельный SSE-мост в прокси, который перечитывает поток Ollama по чанкам и переиздаёт его в ожидаемом формате. Приведена схема цепочки: POST /v1/messages (Anthropic, streaming) → CliGate → при включённой локальной маршрутизации → Ollama /v1/chat/completions → обратная пересылка как Anthropic SSE.

Локальная модель и облако: как позиционирует автор

Важная оговорка из первоисточника: автор не предлагает полностью заменить GPT-4 или Claude Sonnet локальной 7B. Подчёркивается разница в возможностях и перенос «лёгких» задач на локальную модель при сохранении облака для более сложных задач.

В самом посте нет явных минимальных версий Claude Code, Ollama или перечисленных CLI; отдельного разбора ToS облачных API и лицензий моделей автор не приводит — при расширении темы это потребует независимой проверки.

Публикация на платформе датирована 2026-04-10T07:35:13Z. По счётчикам на странице поста на dev.to: один публичный комментарий, пять реакций (сумма по типам реакций платформы), расчётное время чтения 4 минуты; поле просмотров в карточке пустое (null), поэтому охват по просмотрам в цифрах здесь не формулируем.

Источники

Yiyao (yiyaoai). «"I Pointed Claude Code at My Local Ollama Models — Here's the 3-Minute Setup"». DEV Community. URL: dev.to (дата доступа: 2026-04-10, UTC).
Репозиторий CliGate (упомянут в посте): https://github.com/codeking-ai/cligate (дата доступа к описанию в статье-источнике: 2026-04-10, UTC).