
Декількома словами
Дослідники активно працюють над створенням роботів з AI, але існують значні виклики, пов'язані з навчанням роботів у реальному світі. Потрібні великі обсяги даних та вдосконалені методи моделювання, щоб AI-роботи могли ефективно виконувати завдання в різних умовах. Попри скептицизм, більшість експертів погоджуються, що AI відіграватиме важливу роль у майбутньому робототехніки.
Штучний інтелект і робототехніка: Мрії та реальність
Штучний інтелект чудово справляється з віртуальними завданнями, але чи зможе він готувати вечерю або вішати картини на стіну?
Челсі Фінн, інженер і дослідник зі Стенфордського університету, вважає, що AI може відкрити нову еру в робототехніці. «У перспективі ми хочемо розробити програмне забезпечення, яке дозволить роботам інтелектуально працювати в будь-якій ситуації», – каже вона.
Її компанія вже продемонструвала багатоцільового AI-робота, який може складати білизну та виконувати інші завдання. Інші дослідження показали потенціал AI для покращення здатності роботів виконувати все – від сортування пакунків до перегонів дронів. Google нещодавно представив AI-робота, який може зібрати обід.
Однак, думки дослідників розділилися щодо того, чи можуть інструменти генеративного AI трансформувати робототехніку так само, як вони змінили деякі онлайн-завдання. Роботи потребують даних реального світу і стикаються зі складнішими проблемами, ніж чат-боти.
«Роботи не стануть раптово мрією з наукової фантастики за одну ніч, – каже професор Каліфорнійського університету в Берклі Кен Голдберг. – Важливо, щоб люди це розуміли, тому що ми ще не там».
Мрії та розчарування
У науці та техніці існує велика різниця між очікуваннями та реальністю, особливо в робототехніці. Саме слово «робот» було вигадане чеським письменником Карелом Чапеком, який у 1920-х роках написав п'єсу про людиноподібних істот, здатних виконувати будь-яке завдання, яке їм накаже власник.
Насправді, роботам важко виконувати навіть прості завдання. Найкраще машини працюють, коли вони виконують повторювані рухи в контрольованому середовищі, наприклад, на автомобільній складальній лінії, але світ сповнений несподіваних перешкод і незвичайних об'єктів.
У лабораторії Фінн у Стенфордському університеті аспірант Му Джін Кім демонструє, як AI-роботи можуть вирішити деякі з цих проблем. Кім розробляє програму під назвою «OpenVLA», що розшифровується як Vision, Language, Action (Зір, Мова, Дія).
«Це один крок у напрямку до ChatGPT для робототехніки, але ще багато роботи потрібно зробити», – каже він.
Сам робот виглядає досить звичайно – пара механічних рук з пінцетами. Але його відрізняє те, що всередині. Звичайні роботи потребують ретельного програмування. Інженер повинен написати детальні інструкції для кожного завдання. Але цей робот працює на основі нейронної мережі AI, яку можна навчати. Нейронна мережа працює так, як, на думку вчених, може працювати людський мозок – математичні «вузли» в мережі мають мільярди зв’язків між собою, подібно до того, як нейрони в мозку з'єднані між собою. «Програмування» такої мережі полягає у посиленні важливих зв'язків і послабленні тих, які не мають значення.
На практиці це означає, що Кім може навчити модель OpenVLA виконувати різні завдання, просто показуючи їх.
До робота прикріплені джойстики, які керують кожною рукою. Щоб навчити його, оператор використовує джойстики для «керування» роботом під час виконання потрібного завдання.
«В основному, яке б завдання ви не хотіли, щоб він виконував, ви просто робите це знову і знову, наприклад, 50 або 100 разів», – каже він.
Цього достатньо. Зв'язки між вузлами в AI-нейронній мережі робота посилюються щоразу, коли йому показують дію. Незабаром він може повторити завдання без допомоги оператора.
Для демонстрації Кім приносить піднос з різними видами сухофруктів. Він вже навчив його набирати. Тепер я хочу трохи суміші із зеленими M&Ms і горіхами, і все, що мені потрібно зробити, це запитати.
«Набери трохи зелених з горіхами в миску», – друкую я. Дуже повільно руки робота починають рухатися.
На відеотрансляції OpenVLA розміщує зірочку над правильним контейнером. Це означає, що перша частина моделі, яка повинна взяти мій текст і візуально інтерпретувати його значення, спрацювала правильно.
«Це та частина, де ми затамовуємо подих», – каже Кім.
Потім повільно, нерішуче, він простягає свою клешню, підбирає ложку і набирає суміш.
«Виглядає, що працює!» – схвильовано каже Кім.
Це дуже маленька ложка. Але ложка в правильному напрямку.
Все, що завгодно
Дослідниця зі Стенфорда Челсі Фінн є співзасновником компанії Physical Intelligence у Сан-Франциско, яка прагне вивести цей підхід до навчання на новий рівень.
Вона бачить світ, в якому роботи можуть швидко адаптуватися до виконання простих завдань, як-от приготування бутербродів або поповнення полиць у продуктовому магазині. Вона підозрює, що найкращий спосіб досягти цього – навчити одну модель виконувати багато різних завдань.
«Ми вважаємо, що розробка універсальних систем буде більш успішною, ніж розробка системи, яка робить одну річ дуже добре», – каже вона.
Physical Intelligence розробила AI-нейронну мережу, яка може складати білизну, набирати кавові зерна та збирати картонну коробку, хоча нейронна мережа, яка дозволяє їй робити все це, занадто потужна, щоб фізично знаходитися на самому роботі.
«У цьому випадку у нас була робоча станція, яка обчислювала дії, а потім надсилала їх по мережі до робота», – каже вона.
Але наступний крок – збір навчальних даних для її AI-програми для роботів – є набагато складнішим завданням, ніж просто збір тексту з Інтернету для навчання чат-бота.
«Це дійсно важко, – зізнається Фінн. – У нас немає відкритого інтернету даних про роботів, тому часто доводиться збирати дані самостійно на роботах».
Тим не менш, Фінн вважає, що це можливо. На додаток до людських інструкторів, роботи також можуть неодноразово намагатися виконувати завдання самостійно і швидко нарощувати свою базу знань, каже вона.
Дилема даних
Кен Голдберг з Берклі більш скептично ставиться до того, що розрив між реальним світом можна швидко подолати. AI-чатботи значно покращилися за останні кілька років, тому що у них було величезну кількість даних для навчання. Фактично, вони зібрали майже весь Інтернет, щоб навчитися писати речення і малювати картинки.
Накопичення Інтернету реальних даних для роботів буде відбуватися набагато повільніше. «За нинішніх темпів нам знадобиться 100 000 років, щоб отримати стільки даних», – каже він.
«Я б сказав, що ці моделі не будуть працювати так, як їх навчають сьогодні», – погоджується Пулкіт Агравал, дослідник робототехніки в Массачусетському технологічному інституті.
Агравал є прихильником моделювання: розміщення AI-нейронної мережі, яка керує роботом, у віртуальному світі та дозволу їй повторювати завдання знову і знову.
«Сила моделювання полягає в тому, що ми можемо зібрати дуже велику кількість даних, – каже він. – Наприклад, за три години моделювання ми можемо зібрати 100 днів даних».
Цей підхід добре спрацював для дослідників у Швейцарії, які нещодавно навчили дрон літати на перегонах, помістивши його AI-мозок у симулятор і знову і знову запускаючи його по заданому курсу. Коли він потрапив у реальний світ, він зміг пролетіти курс швидше і краще, ніж досвідчений людський суперник.
Але моделювання має свої недоліки. Дрон добре працював на закритому курсі. Але він не міг впоратися з тим, що не було змодельовано – вітер, дощ або сонячне світло.
Літати і ходити відносно просто змоделювати. Голдберг каже, що фактично піднімати предмети або виконувати інші ручні завдання, які люди вважають абсолютно простими, набагато складніше відтворити на комп'ютері. «В основному, не існує симулятора, який міг би точно моделювати маніпуляції», – каже він.
Розуміння проблеми
Деякі дослідники вважають, що навіть якщо проблему даних вдасться подолати, глибші проблеми можуть переслідувати AI-роботів.
«На мою думку, питання не в тому, чи достатньо у нас даних, а скоріше в тому, як сформульована проблема», – каже Метью Джонсон-Роберсон, дослідник з Університету Карнегі-Меллона в Піттсбурзі.
Джонсон-Роберсон каже, що, незважаючи на всі неймовірні навички, продемонстровані чат-ботами, завдання, яке їм ставиться, є відносно простим – подивитися на те, що набирає користувач, а потім спробувати передбачити наступні слова, які він хоче побачити. Роботи повинні будуть робити набагато більше, ніж просто складати речення.
«Передбачення наступного найкращого слова працює дуже добре, і це дуже проста проблема, тому що ви просто передбачаєте наступне слово», – каже він. Переміщення в просторі та часі для виконання завдання – це набагато більший набір змінних для нейронної мережі, щоб спробувати обробити.
«Не зрозуміло, чи можу я взяти 20 годин Go-Pro відео і отримати щось розумне щодо того, як робот рухається у світі», – каже він.
Джонсон-Роберсон каже, що, на його думку, необхідно провести більш фундаментальні дослідження того, як нейронні мережі можуть краще обробляти простір і час. І він попереджає, що сфера повинна бути обережною, тому що робототехніка вже обпеклася раніше – у гонці за створення самохідних автомобілів.
«Так багато капіталу надійшло так швидко, – каже він. – Це стимулювало людей давати обіцянки, які вони не могли виконати». Велика частина капіталу покинула цю сферу, і досі існують фундаментальні проблеми для безпілотних автомобілів, які залишаються невирішеними.
Тим не менш, навіть скептики вірять, що робототехніка буде назавжди змінена AI. Голдберг є співзасновником компанії з сортування пакунків під назвою Ambi Robotics, яка на початку цього року випустила нову систему на основі AI під назвою PRIME-1. Вона використовує AI для визначення найкращих точок для захоплення пакунка роботизованою рукою. Після того, як AI визначив точку захоплення, рука, яка контролюється більш звичайним програмуванням, робить захват.
Нова система значно зменшила кількість випадків падіння пакунків, каже він. Але він додає зі сміхом: «Якщо ви поставите цю штуку перед купою одягу, вона не буде знати, що з цим робити».
Повернувшись до Стенфорда, Челсі Фінн каже, що згодна з тим, що очікування потрібно тримати під контролем.
«Я думаю, що технології ще потрібно пройти довгий шлях», – каже вона. Вона також не очікує, що універсальні роботи повністю замінять людську працю, особливо для складних завдань.
Але у світі зі старіючим населенням і прогнозованим дефіцитом робочої сили, вона вважає, що AI-роботи можуть подолати деякі з цих проблем.
«Я бачу, що це дійсно буде щось, що доповнює людей і допомагає їм», – каже вона.