Статья
RTX 3090 / 4090 / 5090 — одна видеокарта класса prosumer, 24–32 ГБ VRAM, стандартный десктоп или сервер за 150–300 тыс. руб. Облачная инференс-инфраструктура для аналогичных моделей — кластер за 7,5–75 млн рублей и более.
Мы развернули универсальную VLM на одной RTX 3090 и проверили её в задачах принятия решений по визуальному входу. Ключевые параметры стенда и результаты прогона:
Qwen3.6-35B-A3B (Mixture-of-Experts, ~35 млрд параметров, активны ~3 млрд за раз). VLM с нативным визуальным энкодером.
Одна NVIDIA RTX 3090 (24 ГБ), стандартный десктопный конфиг без серверных компонентов. Квантизация: 4-bit AWQ + pruning (VRAP, Selode.ai), веса ~21 ГБ.
~400 мс в среднем (p95 = 408 мс) на прогоне из 1000 выстрелов (4540 кадров принятия решений). В headless-режиме — ~380 мс.
Чтение позиций конуса и мишени (зоны ±1): 98–99%. Совпадение решений с правильным для сцены: 84%. Без дообучения, на модели общего назначения.
Что делала модель. Читала визуальную сцену, где в мишень (управляемую той же VLM) целились из рогатки, и принимала решение о перемещении мишени с предварительным размышлением о точке прицеливания, траектории полёта снаряда и собственном положении. Без дообучения, на модели общего назначения — той же, что применяется для задач генерации кода.
Гипотеза. VLM такого уровня в принципе достаточно, чтобы заменить отдельную VLA-модель (Vision-Language-Action) в задачах принятия решений по визуальному входу. Один движок выполнял бы и декомпозицию намерения, и его исполнение — без необходимости отдельно обучать модель действий. Гипотезу мы продолжаем проверять.
Total params ≫ active params: compute-требования сопоставимы с моделью, на порядок меньшей по полному размеру.
Современные техники сжимают веса в 4–8 раз без катастрофической потери качества.
Метод Ban&Pick: удаление малозначимых экспертов по KL-дивергенции на топ-1000 токенах. Экономия памяти, иногда даже улучшение качества на задаче.
В нашем тесте модель отвечала четырьмя цифрами в строгой последовательности: координата прицеливания, прогнозная высота попадания, положение мишени, выбранное действие. Никакого свободного текста — радикально сокращает время ответа.
Энергопотребление порядка холодильника (около 200 Вт при андервольте 3090): для роботов, систем мониторинга и наблюдения, охранных систем, цифровых агентов-помощников в мобильной среде.
Данные и намерения пользователя не уходят внешнему оператору, не используются для производных вычислений или обогащения сторонней инфраструктуры.
Нет зависимости от облачного провайдера и его pricing-политики. Капитальные затраты единоразовые, операционные — минимальные.
Подходит под требования в чувствительных доменах: банки, медицина, госсектор, оборонка.
Собираем и тестируем серверные конфигурации для собственных сред разработки и для рекомендаций клиентам — чтобы в рекомендациях оборудования опираться на практический опыт.
Связанные ресурсы