Nvidia і Google прискорюють навчання роботів завдяки мультивсесвітам

Uncategorized

Новий імпульс для фізичного штучного інтелекту

Розробки штучного інтелекту, які відповідають за взаємодію роботів із реальним довкіллям, досі відставали за темпами від мовних моделей на кшталт GPT. Однак завдяки мультивсесвітнім «симуляторам світу» від Nvidia та Google це може змінитися буквально на очах, повідомляє New Atlas.

Донині головним фактором гальмування розвитку роботизованого ШІ (так званих великих поведінкових моделей, LBM) був дефіцит даних. Якщо великі мовні моделі (LLM) черпають неймовірні обсяги текстового, зображувального та аудіоматеріалу прямо з Інтернету, то системам, що керують роботами й автономними машинами, потрібні якісні тривимірні дані про фізичний світ. Збирати їх складніше, дорожче й довше.

Приклад компанії Tesla ілюструє, наскільки складно діставати такі дані. Щоб якнайшвидше зібрати велику базу відео та сенсорної інформації, Tesla встановила обладнання для автопілоту в якомога більше автомобілів. Зрештою це дає їй перевагу у збиранні й аналізі дорожніх сценаріїв. Але навіть такий масштаб не може покрити всі потенційні ситуації на дорогах чи в логістиці.

Мультивсесвітні симуляції: вирішення проблеми «яйця і курки»

Останні анонси від Nvidia та Google Deepmind демонструють потужний підхід до подолання браку «живих» фізичних даних. Тепер можна за допомогою мультивсесвітних симуляторів створювати нескінченні варіації однієї й тієї самої сцени та «розмножувати» реальні ситуації в тисячі або й мільйони дрібних відмінних сценаріїв.

Скажімо, маємо шість камер на автономному авто, що зафіксували поїздку вулицею в сонячний день. Далі програмне забезпечення будує віртуальну тривимірну модель цієї сцени й може згенерувати будь-які погодні умови – від суцільного туману до сильного дощу чи снігу. Так само змінюється час доби та введені нові об’єкти: пішоходи, тварини, інші машини й різноманітні дорожні несподіванки.

У цих паралельних віртуальних світах авто ШІ приймає різні рішення, а симулятор одночасно «програє» варіанти розвитку подій. Потім можна реалістично згенерувати для кожного сценарію відеопотік, що відповідав би камерам та сенсорам справжнього автомобіля. Тобто з одного-єдиного набору вихідних даних виходить практично необмежений обсяг варіацій для тренування ШІ.

Nvidia Cosmos: мультивсесвіті можливості

Зі слів засновника та генерального директора Nvidia Дженсена Хуанга, їхня нова платформа Cosmos покликана «демократизувати фізичний ШІ й зробити загальну робототехніку доступною будь-якому розробнику». Цей продукт обіцяє в реальному часі відтворювати сценарії розвитку подій, аби модель могла обирати найкращий шлях рішення й вдосконалювати алгоритми поведінки.

Щоб симуляції були ефективними, потрібні чималі обчислювальні потужності. Для оптимізації процесу Nvidia впровадила власний Cosmos Tokenizer, який стискає відео й зображення у «токени» зі суттєво меншою вагою даних. Це дає можливість у 12 разів прискорити обробку порівняно з наявними методами.

Nvidia вже має чималі успіхи на ринку робототехніки завдяки ініціативі Cosmos. Такі компанії, як 1X, Figure AI, Fourier та Agility, використовують її для навчання роботів-гуманоїдів. А Xpeng, Uber, Waavi та Wayve зацікавилися Cosmos для тестування автономних транспортних засобів.

Вихід Google Deepmind на арену

Тим часом Google Deepmind розвиває власну версію мультивсесвітної симуляції. За словами Сори Тіма Брукса, колишнього керівника OpenAI, який зараз очолює відділ створення відео та віртуальних світів у Deepmind, подібні інструменти є одним із ключових етапів на шляху до штучного загального інтелекту (AGI).

Команда Google Deepmind наголошує:

«Нарощування попереднього навчання на відео та мультимодальних даних є критично важливим для досягнення AGI. Світові моделі підживлюватимуть прогрес у візуальному мисленні, плануванні для роботів і створенні інтерактивних розваг у реальному часі».

Змінюючи світ: від офісів до виробництва

Наразі ми спостерігаємо, як мовні моделі (LLM) на кшталт GPT проникають у робочі середовища й допомагають з офісними задачами. У той самий час великі поведінкові моделі (LBM), що керують роботами, набирають обертів у сфері автоматизації фізичної праці. Роботи можуть бути гуманоїдами, безпілотними автомобілями чи іншими формами, розробленими під конкретне середовище.

Сучасна робототехніка й без того вражає і часто виглядає, як магія. Очікується, що з приходом мультивсесвітних симуляцій прискориться прорив у бік економіки пост-трудового формату. Утім, залишається відкритим питання, чи призведе це до утопічного сценарію з повним розв’язанням проблем людства, чи до менш райдужних наслідків.

Так чи інакше, світ стоїть на порозі неймовірних змін. Мультивсесвіти перетворюють уявний потенціал на реальність, роблячи робототехніку і штучний інтелект суттєво ближчими й ефективнішими. І, судячи з усього, ці зміни ми відчуємо раніше, ніж можна собі уявити.

#Nvidia #Google #прискорюють #навчання #роботів #завдяки #мультивсесвітам

Source link

Оцініть статтю