Навык — это переносимая спецификация, а не модель, обученная под одну задачу. Создаётся в Skill Builder, публикуется в Skill Marketplace, адаптируется под конкретное тело через Skill Migrator. Выполняется универсальной VLM с constrained decoding на одной видеокарте — не нужно обучать VLA для каждого навыка и каждого типа робота.
Классический подход к навыкам для роботов — отдельная Vision-Language-Action (VLA) модель под конкретный тип робота и конкретное поведение.
Оператор записывает десятки или сотни часов демонстраций, инженеры размечают данные, на GPU-кластере дообучается базовая модель, затем — валидация на стенде и итерации до рабочего качества.
Новая платформа — новый набор демонстраций, новый цикл дообучения. Накопление навыков не ускоряет разработку следующих: каждый проект начинается с нуля.
Компании с разнородным парком ограничивают автоматизацию массовыми задачами. Узкие, но ценные задачи остаются без робота — разрабатывать под каждую отдельную VLA экономически невыгодно.
Мы разделяем спецификацию навыка и его исполнение. Спецификация описывает, что робот должен делать в терминах грамматики действий конкретного тела и нескольких опорных примеров (few-shot). Исполнение поручается универсальной VLM с constrained decoding — модель не обучается под каждый навык.
Текстовая спецификация навыка отделена от исполнения. Модель не нужно дообучать — она получает на вход визуальную сцену и текстовую спецификацию, а выход ограничен грамматикой допустимых действий.
Навык — это спецификация в грамматике конкретного тела. Между совместимыми платформами он переносится без переобучения модели.
Исполнение работает на одной RTX 3090. Не нужен GPU-кластер на обучение и инференс под каждый новый навык.
Разработка нового навыка занимает дни, а не недели: достаточно грамматики и набора few-shot примеров, без циклов дообучения VLA.
Мы развернули модель Qwen3.6-35B-A3B (Mixture-of-Experts, ~3 млрд активных параметров) на одной NVIDIA RTX 3090 с 4-битной квантизацией и задали ей задачу принимать решения по визуальной сцене. Сценарий: рогатка целится в подвижную мишень. Мишень управляется той же моделью и уклоняется, анализируя положение конуса прицеливания, траекторию снаряда и свои координаты. Грамматика ответа задана через constrained decoding и состоит из четырёх цифр: координата прицеливания, прогнозная высота точки попадания, положение мишени, выбранное действие.
Результат на прогоне из 1000 выстрелов (4540 кадров принятия решений): средняя задержка 400 мс (p95 = 408 мс), в headless-режиме — около 380 мс. Дообучение под задачу не проводилось: это была та же универсальная VLM, что используется для генерации кода.
Цифры подтверждают рабочую гипотезу: универсальная VLM нужного класса способна заменить отдельную VLA-модель в задачах принятия решений по визуальному входу, если описать пространство действий грамматикой и собрать набор few-shot примеров. Точность определения координат конуса и мишени — 98–99%, точность принятия решений — 84%. Подробное описание стенда, методики измерений и используемых техник квантизации — в статье /tech/local-ai.
Создание навыка, его распространение и адаптация под конкретный парк — это три разные задачи, и каждой соответствует отдельный продукт.
Создаёт навык для робота как структурированную спецификацию. Описывает грамматику действий целевого тела, подключает опорные примеры, проверяет исполнимость.
Skill Builder — специализированная версия Spec Builder для проектирования навыков роботов. Инженер-оператор описывает в нём целевое поведение и грамматику действий конкретного тела; среда структурирует описание в Design Document со ссылками между разделами. Опорные few-shot примеры подключаются из записей демонстраций или симуляции (Isaac Sim, MuJoCo).
На выходе — спецификация навыка как программный артефакт: пригодный для проверки экспертом, для версионирования, для исполнения универсальной VLM с constrained decoding без дополнительного дообучения. Оператор продолжает записывать демонстрации и собирать опорный набор, но Skill Builder берёт на себя оформление, проверку согласованности и упаковку.
Каталог переносимых навыков с обвязкой публикации, версионирования и совместимости с конкретными типами роботов.
Skill Marketplace — площадка обмена готовыми навыками между владельцами совместимых роботов. Навык публикуется как программный артефакт с метаданными: целевые тела, версии исполнителя, грамматика. Владелец парка фильтрует каталог по этим параметрам и находит решения под свою конфигурацию.
Раньше автоматизировать узкие задачи из «длинного хвоста» было невыгодно. Теперь это экономически целесообразно: готовый навык можно взять и применить, а не разрабатывать с нуля. Если совпадение по грамматике частичное — задействуется Skill Migrator.
Движок миграции структурированных артефактов между несовместимыми форматами с сохранением исходной логики. Сейчас работает на SQL между диалектами СУБД; в разработке — миграция навыков между разными типами роботов.
Skill Migrator адаптирует артефакт под новый целевой формат — будь то другой диалект СУБД или другой тип робота — за счёт constrained decoding по грамматике цели и валидации результата целевым парсером.
Миграция SQL между диалектами СУБД (PostgreSQL, MySQL, SQL Server и др.) — рабочее применение. Инженер передаёт исходный код. Skill Migrator преобразует его в промежуточное представление, генерирует код на целевом диалекте через constrained decoding по его грамматике и проверяет результат целевым парсером. Инженеру нужно проверить результат и вручную настроить граничные условия: проприетарные функции, нестандартные процедуры, специфичные опции оптимизатора.
Миграция навыков между разными типами роботов — в разработке. Инженер записывает демонстрации действий на исходном теле или собирает их через симулятор и предоставляет спецификацию целевого тела. Skill Migrator формирует сгруппированные команды по каждому приводу, добавляет снапшоты позиций суставов после каждого действия и упаковывает результат в шаблон навыка под целевую грамматику. Инженеру нужно провести финальную валидацию на конкретном железе и заполнить слоты, которые невозможно вывести из исходных данных (пороговые параметры, особенности целевых актуаторов).
В обоих случаях результат одинаковый: время адаптации сокращается с недель до часов.
Связанные ресурсы