Внимание

Статья

Локальный ИИ на массовом железе

01.Что значит «массовое железо»

RTX 3090 / 4090 / 5090 — одна видеокарта класса prosumer, 24–32 ГБ VRAM, стандартный десктоп или сервер за 150–300 тыс. руб. Облачная инференс-инфраструктура для аналогичных моделей — кластер за 7,5–75 млн рублей и более.

02.Что это позволяет — пример из нашей практики

Мы развернули универсальную VLM на одной RTX 3090 и проверили её в задачах принятия решений по визуальному входу. Ключевые параметры стенда и результаты прогона:

Что делала модель. Читала визуальную сцену, где в мишень (управляемую той же VLM) целились из рогатки, и принимала решение о перемещении мишени с предварительным размышлением о точке прицеливания, траектории полёта снаряда и собственном положении. Без дообучения, на модели общего назначения — той же, что применяется для задач генерации кода.

Гипотеза. VLM такого уровня в принципе достаточно, чтобы заменить отдельную VLA-модель (Vision-Language-Action) в задачах принятия решений по визуальному входу. Один движок выполнял бы и декомпозицию намерения, и его исполнение — без необходимости отдельно обучать модель действий. Гипотезу мы продолжаем проверять.

03.Почему это работает

04.Что это даёт прикладному применению

05.Что мы делаем сами

Собираем и тестируем серверные конфигурации для собственных сред разработки и для рекомендаций клиентам — чтобы в рекомендациях оборудования опираться на практический опыт.

Связанные ресурсы