Apr 6

Как видеосъемка ваших домашних дел может помочь обучить андроидов-дворецких будущего.

Мечта о появлении гуманоидных роботов в каждом доме породила новый вид работы. Всё, что требуется, — это крепление на голову, смартфон и список домашних дел.

С развитием искусственного интеллекта гуманоидные роботы стали новой ключевой областью в гонке за лидерство в передовых технологиях. Производители роботов один за другим представляют новые модели, которые умеют ходить, танцевать и даже драться, демонстрируя всё большую ловкость.

Однако главная цель быстро развивающейся отрасли — универсальный робот, способный работать в магазинах, офисах и домах — требует огромного объёма данных, чтобы научиться безопасно и эффективно заменять людей. Всё чаще эти данные создаются людьми, которые записывают себя за выполнением повседневных домашних задач.

Это породило огромный спрос на видео от первого лица, используемые для обучения роботов — так называемые «эгоцентрические данные» или «человеческие данные». За последние несколько месяцев стартапы начали удовлетворять этот спрос, собирая и размечая видеозаписи тысяч контрактных работников по всему миру.

«Производство, складские комплексы, розничная торговля, дома престарелых, больницы — такие данные понадобятся практически в любой среде, потому что движения везде разные», — сказал Ариан Садеги, вице-президент по данным робототехники компании Micro1, которая начала набирать собственную армию удалённых видеографов в прошлом году.

Каждый участник получает специальное крепление для камеры, инструкции по съёмке и список заданий — например, готовка, уборка, работа в саду и уход за домашними животными. От работников ожидается чередование заданий и отправка не менее 10 часов видео каждую неделю.

Хотя сейчас съёмка в основном связана с домашними делами, Садеги отметил, что компания поощряет подрядчиков экспериментировать с тем, что они снимают — на случай, если это поможет роботам быстрее адаптироваться к новым условиям и обязанностям.

«Мы говорим им: “Если вы хотите, чтобы робот когда-нибудь делал это за вас — просто запишите это”», — сказал Садеги.

«Миллиарды часов»

Хотя Micro1 базируется в Пало-Альто (Калифорния), у компании около 4 000 «универсальных специалистов по робототехнике» в домах из 71 страны, которые ежемесячно отправляют более 160 000 часов видео. По словам Садеги, этого всё равно недостаточно.

«Вероятно, нужны миллиарды часов», — сказал он. — «Мы даже ещё не дошли до человеческого взаимодействия. Пока это только простые домашние задачи».

Он отметил, что растущий спрос на данные в робототехнике напоминает ранний этап развития ChatGPT и других ИИ-чатботов. Обученные на сотнях миллиардов слов из интернета, такие модели используют знание текстовых закономерностей для генерации наиболее вероятных ответов на запросы пользователей.

После текста модели ИИ научились создавать изображения и видео по запросу, опираясь на доступный онлайн-контент. Однако разработчикам роботов требуется гораздо более специфический набор данных, а готовой «библиотеки», подобной интернету, у них нет.

Это стало многомиллиардной возможностью для стартапов вроде Micro1, которые также размечают видео, чтобы роботы могли различать объекты, расстояния и физические движения. По оценкам аналитиков рынка, индустрия сбора и разметки данных будет расти в среднем на 30% ежегодно и достигнет как минимум 10 миллиардов долларов к 2030 году, главным образом за счёт роста в Азии.

Основатель компании Objectways Рави Раджалингам ранее предоставлял аудио- и видеоданные для обучения виртуальных ассистентов и беспилотных автомобилей, но в прошлом году переключился на робототехнику. С тех пор как он начал нанимать подрядчиков для сбора человеческих данных, оказалось, что пригодной для использования оказывается лишь около половины присылаемых материалов.

Тем не менее, поскольку 90% его клиентов находятся в США и предполагают, что американские потребители смогут раньше других позволить себе гуманоидных роботов, некоторые готовы платить больше за данные из американских домов — несмотря на то, что почасовая оплата там может быть в три раза выше, чем у работников во Вьетнаме или Индии.

«Кухня в Индии сильно отличается от кухни в США. Даже веник там другой. Разнообразие важно, но всё зависит от того, где вы сначала будете внедрять роботов», — сказал Раджалингам. — «Поэтому мы собираем данные по всему миру».

Как обучить своего робота

На протяжении десятилетий роботов обучали выполнять задачи с помощью дистанционного управления человеком, но это требует дорогостоящего оборудования. Позже появилась более дешёвая альтернатива — моделирование виртуальных сценариев с помощью программного обеспечения, хотя такой подход хуже работает при взаимодействии с физическими объектами, например при попытке поднять стакан.

«В данных всегда существует компромисс между качеством и количеством», — сказала Алисия Венезиани, вице-президент по расширению рынка сингапурского стартапа Sharpa, специализирующегося на роботизированных руках.

Китай, активно инвестирующий государственные средства в высокие технологии, объявил о планах создать не менее 60 центров обучения роботов. Большинство гуманоидных роботов, массово произведённых в Китае, пока покупаются для обучения и исследований, сообщил аналитик компании Interact Analysis Марко Ван.

Однако к концу прошлого года индустрия начала активно использовать человеческие данные как промежуточное решение, поскольку затраты ограничиваются устройством записи — GoPro, очками Meta или смартфоном — и почасовой оплатой работников от 5 до 20 долларов в зависимости от региона.

«Идея проста: нам не нужно, чтобы задачу выполнял робот — пусть её выполняют люди», — сказал он. — «Так не нужно платить за роботов, достаточно оплатить оборудование и труд людей».

По словам Вана, похожие бизнес-модели существуют в Японии и Южной Корее, но с центрами сбора данных в Юго-Восточной Азии ради более дешёвой рабочей силы. Компания Tesla обучает своего гуманоидного робота Optimus на собственных объектах во Фримонте (Калифорния) и планирует расширение в Остине (Техас). США и Европа чаще делают ставку на симуляционное обучение, активно продвигаемое компанией Nvidia — разработчиком самых передовых компьютерных чипов.

В февральском отчёте Nvidia говорится, что добавление более 20 000 часов видео от первого лица в обучение роботов повысило успешность выполнения задач — например, складывания футболок, сортировки игральных карт, откручивания крышек бутылок и использования шприца — более чем на 50%.

«Если полагаться только на один способ сбора данных, это вряд ли лучший подход», — сказал Ван, ожидая, что компании будут всё чаще комбинировать разные методы. — «В будущем это будет смесь различных подходов».

Последний этап автоматизации

Переломный момент для автономных роботов произошёл три года назад, когда большие языковые модели, лежащие в основе ChatGPT, привели к появлению алгоритмов, способных переводить визуальные сигналы в физические действия, рассказал Пунеет Джиндал, сооснователь компании Labellerr AI.

Роботы, ранее запрограммированные на повторяющиеся операции, начали воспринимать и ориентироваться в окружающем мире.

В этом году его компания начала собирать видео от первого лица на производственных предприятиях Индии. По словам Джиндала, в ближайшие три года приоритет человеческих данных — «очевидное решение». Однако этот бум может быть временным: в будущем такие материалы могут улучшить симуляционное обучение, а если ИИ научится преобразовывать обычные видео с YouTube в формат от первого лица, они могут стать заменой.

«Даже лаборатории робототехники не уверены, какие данные им понадобятся через 12 месяцев», — сказал он.

Одна из причин, почему универсальным роботам требуется так много обучения, — чрезвычайная непредсказуемость домашних условий: мебель, техника и люди постоянно перемещаются, отметил исследователь робототехники Университета Техаса в Остине Рутав Шах.

«Чего действительно не хватает — это человеческой интуиции в понимании сил, трения и неопределённости, которую люди приобретают на протяжении жизни», — сказал Шах. — «Создание действительно полезных роботов для повседневных домашних задач, таких как готовка и уборка, станет последним этапом автоматизации».

Пока гуманоидные роботы в основном используются в контролируемых условиях — например, на фабриках, где они выполняют задачи с точностью 99,9%, сообщил Александр Верль, руководитель исследований Международной федерации робототехники. Даже при складывании футболок уровень успешности пока слишком низок для коммерческого применения.

«Вероятность успешного выполнения обычно составляет около 70–80%. Для промышленности этого недостаточно», — сказал Верль.

Раджалингам из Objectways также подчеркнул риски безопасности: если робот убирает игровую комнату, но не может отличить куклу от настоящего младенца, последствия могут быть катастрофическими.

«Если робот возьмёт моего ребёнка и выбросит его в мусорный бак — это сразу иск на миллионы долларов», — сказал он.

По его словам, тестирование роботов с младенцами пока остаётся далёкой перспективой. Однако, добавил он, испытания с собаками уже начались.

Latest from our blog

Created with