Статья

Локальный ИИ на массовом железе

TL;DR

Современные локальные ИИ-модели работают на массовом железе. Главный приоритет здесь — не экономия (облачные API могут быть относительно дёшевы), а возможность не передавать данные и намерения внешнему оператору. Локальный запуск гарантирует, что они не уйдут в монетизацию, не станут материалом для анализа слабых мест и не лягут в основу конкурентных продуктов, если ваша ниша окажется интересна оператору. На одной видеокарте RTX 3090 (~75 тыс. руб. на вторичном рынке) сегодня запускаются модели уровня лучших публичных LLM годичной давности — этого хватает для большинства корпоративных задач, с приемлемым временем отклика.

01.Что значит «массовое железо»

RTX 3090 / 4090 / 5090 — одна видеокарта класса prosumer, 24–32 ГБ VRAM, стандартный десктоп или сервер за 150–300 тыс. руб. Облачная инференс-инфраструктура для аналогичных моделей — кластер за 7,5–75 млн рублей и более.

02.Что это позволяет — пример из нашей практики

Мы развернули универсальную VLM на одной RTX 3090 и проверили её в задачах принятия решений по визуальному входу. Ключевые параметры стенда и результаты прогона:

Модель

Qwen3.6-35B-A3B (Mixture-of-Experts, ~35 млрд параметров, активны ~3 млрд за раз). VLM с нативным визуальным энкодером.
Железо стенда

Одна NVIDIA RTX 3090 (24 ГБ), стандартный десктопный конфиг без серверных компонентов. Квантизация: 4-bit AWQ + pruning (VRAP, Selode.ai), веса ~21 ГБ.
Латентность

~400 мс в среднем (p95 = 408 мс) на прогоне из 1000 выстрелов (4540 кадров принятия решений). В headless-режиме — ~380 мс.
Точность

Чтение позиций конуса и мишени (зоны ±1): 98–99%. Совпадение решений с правильным для сцены: 84%. Без дообучения, на модели общего назначения.

Что делала модель. Читала визуальную сцену, где в мишень (управляемую той же VLM) целились из рогатки, и принимала решение о перемещении мишени с предварительным размышлением о точке прицеливания, траектории полёта снаряда и собственном положении. Без дообучения, на модели общего назначения — той же, что применяется для задач генерации кода.

Гипотеза. VLM такого уровня в принципе достаточно, чтобы заменить отдельную VLA-модель (Vision-Language-Action) в задачах принятия решений по визуальному входу. Один движок выполнял бы и декомпозицию намерения, и его исполнение — без необходимости отдельно обучать модель действий. Гипотезу мы продолжаем проверять.

03.Почему это работает

Mixture-of-Experts

Total params ≫ active params: compute-требования сопоставимы с моделью, на порядок меньшей по полному размеру.
Квантизация Q3–Q6

Современные техники сжимают веса в 4–8 раз без катастрофической потери качества.
Expert pruning

Метод Ban&Pick: удаление малозначимых экспертов по KL-дивергенции на топ-1000 токенах. Экономия памяти, иногда даже улучшение качества на задаче.
Constrained decoding

В нашем тесте модель отвечала четырьмя цифрами в строгой последовательности: координата прицеливания, прогнозная высота попадания, положение мишени, выбранное действие. Никакого свободного текста — радикально сокращает время ответа.

04.Что это даёт прикладному применению

Локальный «мозг» за 200 Вт

Энергопотребление порядка холодильника (около 200 Вт при андервольте 3090): для роботов, систем мониторинга и наблюдения, охранных систем, цифровых агентов-помощников в мобильной среде.
Данные в локальном периметре

Данные и намерения пользователя не уходят внешнему оператору, не используются для производных вычислений или обогащения сторонней инфраструктуры.
Нет привязки к облаку

Нет зависимости от облачного провайдера и его pricing-политики. Капитальные затраты единоразовые, операционные — минимальные.
Регуляторное соответствие

Подходит под требования в чувствительных доменах: банки, медицина, госсектор, оборонка.

05.Что мы делаем сами

Собираем и тестируем серверные конфигурации для собственных сред разработки и для рекомендаций клиентам — чтобы в рекомендациях оборудования опираться на практический опыт.

Связанные ресурсы

Локальный ИИ на массовом железе

01.Что значит «массовое железо»

02.Что это позволяет — пример из нашей практики

Модель

Железо стенда

Латентность

Точность

03.Почему это работает

Mixture-of-Experts

Квантизация Q3–Q6

Expert pruning

Constrained decoding

04.Что это даёт прикладному применению

Локальный «мозг» за 200 Вт

Данные в локальном периметре

Нет привязки к облаку

Регуляторное соответствие

05.Что мы делаем сами