Как направить Claude Code, Codex CLI и Gemini CLI на локальные модели Ollama через один прокси

На dev.to вышел разбор, как связать сразу три популярных CLI для работы с моделями — Claude Code, Codex CLI и Gemini CLI — с локальными моделями Ollama через единый прокси на localhost. В заголовке автор обещает «трёхминутный» сетап; в анонсе подчёркивается идея без API-ключей и без облачных затрат в этом контуре (так сформулировано у первоисточника). Материал попал в ленту по тегу ai и описывает практический мост между разными протоколами облачных CLI и OpenAI-совместимым endpoint Ollama.
Разные протоколы — одна «точка входа» для Ollama
Здесь ломается привычная картинка «подставил base URL и поехали». В посте зафиксировано: Claude Code опирается на протокол Anthropic, Codex CLI — на OpenAI, Gemini CLI — на Google. Ollama при этом имеет собственный протокол и дополнительно даёт OpenAI-совместимый endpoint по адресу http://localhost:11434. Несовместимость форматов на уровне CLI делает задачу нетривиальной: нужен слой, который понимает, что шлёт каждый клиент, и что ожидает Ollama.
CliGate: прокси между CLI, облаком и локальными моделями
Дальше в сюжете появляется CliGate — локальный прокси, который, по описанию автора, маршрутизирует перечисленные CLI к облачным провайдерам; поддержка локальных моделей добавляет Ollama как полноценную цель маршрутизации рядом с OpenAI, Anthropic и Google. Ссылка на репозиторий в материале: github.com/codeking-ai/cligate. При включённой локальной маршрутизации прокси, по словам автора, перехватывает запросы CLI и по конфигурации отправляет их в Ollama; трансляция протоколов выполняется на стороне прокси (запросы Claude Code в формате Anthropic адаптируются к ожиданиям Ollama, ответ возвращается в виде, который снова понятен CLI).
Сетап по шагам из первоисточника
Ниже — сжатый пересказ шагов так, как их перечисляет автор поста.
- Ollama. Пример запуска модели:
ollama run qwen2.5-coder:7b(или другая модель по выбору). Утверждается, что CliGate автоматически обнаруживает загруженные модели. Для проверки доступности Ollama приведеныcurl http://localhost:11434/api/versionи пример JSON-ответа в комментарии с полемversionв виде0.6.x— в посте это подано как иллюстрация, а не как фиксированная версия у читателя. - Запуск CliGate:
npx cligate@latest start; дашборд открывается поhttp://localhost:8081. - Подключение Ollama в интерфейсе: раздел Settings → Local Models; URL Ollama:
http://localhost:11434; после проверки «здоровья» список моделей подтягивается через путь/v1/models(формулировка поста). - Маршрутизация: переключатель «Local Model Routing»; опционально помодельная настройка — в примере автора Claude Code направлен на локальную
qwen2.5-coder:7b, а Codex CLI и Gemini CLI остаются на облако. - Проверка: вкладка Chat с источником «Local Model», затем в терминале обычная работа с Claude Code; в качестве примера приведена команда
claude "explain what this function does"и пояснение, что прокси выполняет маршрутизацию (в посте также указано, что Claude Code уже нацелен на CliGate после «one-click setup»).
Стриминг: отдельный SSE-мост
Автор отдельно разбирает несовпадение потокового вывода: Claude Code ожидает SSE в формате Anthropic, у Ollama — свой формат потока. Решение в посте описано как отдельный SSE-мост в прокси, который перечитывает поток Ollama по чанкам и переиздаёт его в ожидаемом формате. Приведена схема цепочки: POST /v1/messages (Anthropic, streaming) → CliGate → при включённой локальной маршрутизации → Ollama /v1/chat/completions → обратная пересылка как Anthropic SSE.
Локальная модель и облако: как позиционирует автор
Важная оговорка из первоисточника: автор не предлагает полностью заменить GPT-4 или Claude Sonnet локальной 7B. Подчёркивается разница в возможностях и перенос «лёгких» задач на локальную модель при сохранении облака для более сложных задач.
В самом посте нет явных минимальных версий Claude Code, Ollama или перечисленных CLI; отдельного разбора ToS облачных API и лицензий моделей автор не приводит — при расширении темы это потребует независимой проверки.
Публикация на платформе датирована 2026-04-10T07:35:13Z. По счётчикам на странице поста на dev.to: один публичный комментарий, пять реакций (сумма по типам реакций платформы), расчётное время чтения 4 минуты; поле просмотров в карточке пустое (null), поэтому охват по просмотрам в цифрах здесь не формулируем.
Источники
- Yiyao (yiyaoai). «"I Pointed Claude Code at My Local Ollama Models — Here's the 3-Minute Setup"». DEV Community. URL: dev.to (дата доступа: 2026-04-10, UTC).
- Репозиторий CliGate (упомянут в посте): https://github.com/codeking-ai/cligate (дата доступа к описанию в статье-источнике: 2026-04-10, UTC).