|
Klausykite šio straipsnio |
Kad galėtų dirbti įvairiomis realaus pasaulio sąlygomis, robotai turi išmokti bendrosios politikos. Tuo tikslu Masačusetso technologijos instituto kompiuterių mokslo ir dirbtinio intelekto laboratorijos arba MIT CSAIL mokslininkai sukūrė modelį „Real-to-Sim-to-Real“.
Daugelio kūrėjų tikslas yra sukurti techninę ir programinę įrangą, kad robotai galėtų dirbti visur bet kokiomis sąlygomis. Tačiau robotas, kuris veikia vieno žmogaus namuose, neturi žinoti, kaip veikti visuose kaimyniniuose namuose.
MIT CSAIL’s komanda nusprendė sutelkti dėmesį į RialTo – metodą, leidžiantį lengvai apmokyti robotų politiką konkrečioms aplinkoms. Tyrėjai teigė, kad tai pagerino politiką 67 %, palyginti su mokymusi imituojant tiek pat demonstracijų.
Ji išmokė sistemą atlikti kasdienes užduotis, pavyzdžiui, atidaryti skrudintuvą, padėti knygą ant lentynos, padėti lėkštę ant lentynos, dėti puodelį ant lentynos, atidaryti stalčių ir atidaryti spintelę.
„Siekiame, kad robotai veiktų išskirtinai gerai esant trikdžiams, blaškymuisi, kintant apšvietimo sąlygoms ir objektų pozų pasikeitimams vienoje aplinkoje“, – sakė Marcel Torne Villasevil, MIT CSAIL tyrimų asistentas Improbable AI laboratorijoje ir pagrindinis tyrimo autorius. naujas popierius apie darbą.
„Siūlome metodą, kaip sukurti skaitmeninius dvynius, naudojant naujausius kompiuterinio matymo pasiekimus“, – paaiškino jis. „Tik savo telefonais kiekvienas gali užfiksuoti skaitmeninę realaus pasaulio kopiją, o robotai gali treniruotis imituotoje aplinkoje daug greičiau nei realiame pasaulyje dėl GPU lygiagretinimo. Mūsų požiūris pašalina didelio atlygio inžinerijos poreikį, nes pasitelkiame keletą realaus pasaulio demonstracijų, kad būtų pradėtas mokymo procesas.
Registruokitės dabar ir sutaupykite.
RialTo kuria politiką iš rekonstruotų scenų
Torne vizija yra jaudinanti, tačiau RialTo yra sudėtingesnė nei tiesiog mojuoti telefonu ir budėti namų robotu. Pirma, vartotojas naudoja savo įrenginį, kad nuskaitytų pasirinktą aplinką tokiais įrankiais kaip NeRFStudio, ARCode ar Polycam.
Kai scena bus rekonstruota, vartotojai gali įkelti ją į RialTo sąsają, kad atliktų išsamius koregavimus, pridėtų reikiamų jungčių prie robotų ir dar daugiau.
Tada iš naujo apibrėžta scena eksportuojama ir įtraukiama į treniruoklį. Čia siekiama sukurti politiką, pagrįstą realaus pasaulio veiksmais ir stebėjimais. Šios realaus pasaulio demonstracijos yra pakartotos modeliavimaspateikdamas vertingų duomenų mokymosi pastiprinimui (RL).
„Tai padeda sukurti stiprią politiką, kuri gerai veikia tiek modeliuojant, tiek realiame pasaulyje“, – sakė Torne. „Patobulintas algoritmas, kuriame naudojamas sustiprinimo mokymasis, padeda vadovauti šiam procesui, kad būtų užtikrinta, jog politika būtų veiksminga, kai ji taikoma ne treniruoklyje.”
Tyrėjai tikrina modelio veikimą
Bandydama MIT CSAIL nustatė, kad RialTo sukūrė stiprią politiką įvairioms užduotims, nesvarbu, ar tai būtų kontroliuojama laboratorijos nustatymuose, ar labiau nenuspėjamoje realaus pasaulio aplinkoje. Atlikdami kiekvieną užduotį, tyrėjai išbandė sistemos veikimą trimis vis sudėtingesniais lygiais: atsitiktinai suskirstydami objekto pozas, pridėdami regėjimo trukdžius ir fizinius trikdžius atliekant užduotis.
„Norėdami įdiegti robotus realiame pasaulyje, mokslininkai tradiciškai rėmėsi tokiais metodais, kaip imitacinis mokymasis iš ekspertų duomenų, kurie gali būti brangūs, arba sustiprintas mokymasis, kuris gali būti nesaugus“, – sakė kompiuterių mokslų daktarė Zoey Chen. Vašingtono universiteto studentas, kuris nedalyvavo darbuose. „RialTo tiesiogiai sprendžia tiek realaus pasaulio RL saugos apribojimus, tiek veiksmingus duomenimis pagrįstų mokymosi metodų duomenų apribojimus, naudodamas naująjį „realaus į SIM į realų“ kanalą.
„Šis naujas vamzdynas ne tik užtikrina saugų ir patikimą mokymą simuliacijoje prieš įdiegiant realiame pasaulyje, bet ir žymiai pagerina duomenų rinkimo efektyvumą“, – pridūrė ji. „RialTo gali žymiai padidinti robotų mokymąsi ir leidžia robotams daug veiksmingiau prisitaikyti prie sudėtingų realaus pasaulio scenarijų.
Suporuota su realaus pasaulio duomenimis, sistema pranoko tradicinius imitacinius mokymosi metodus, ypač tais atvejais, kai yra daug regėjimo blaškymo ar fizinių sutrikimų, sakė mokslininkai.
MIT CSAIL RialTo sistema veikia ant roboto rankos, bandančio atidaryti spintelę. | Šaltinis: MIT CSAIL
MIT CSAIL tęsia robotų mokymo darbus
Nors iki šiol rezultatai yra daug žadantys, RialTo nėra be apribojimų. Šiuo metu sistema užtrunka tris dienas, kol ji bus visiškai apmokyta. Kad tai paspartintų, komanda tikisi patobulinti pagrindinius algoritmus naudodama pamatų modelius.
Modeliavimo mokymas taip pat turi apribojimų. Deformuojamų objektų ar skysčių tiesioginis perkėlimas ir imitavimas vis dar yra sudėtingas. MIT CSAIL komanda teigė, kad planuoja remtis ankstesnėmis pastangomis, siekdama išsaugoti atsparumą įvairiems trikdžiams ir gerinti modelio prisitaikymą prie naujos aplinkos.
„Kitas mūsų tikslas yra naudoti iš anksto parengtus modelius, pagreitinti mokymosi procesą, sumažinti žmogaus indėlį ir pasiekti platesnes apibendrinimo galimybes“, – sakė Torne.
Tornas parašė popierius kartu su vyresniaisiais autoriais Abhishek Gupta, Vašingtono universiteto docentu ir Pulkit AgrawalMIT Elektros inžinerijos ir kompiuterių mokslo (EECS) katedros docentas.
Taip pat priskiriami keturi kiti CSAIL nariai šioje laboratorijoje: EECS Ph.D. studentas Anthony Simeonovas SM ’22, mokslinis asistentas Zechu Li, bakalauro studentas April Chan ir Tao Chen Ph.D. „24. Šį darbą iš dalies parėmė „Sony Research Award“, JAV vyriausybė ir Hyundai Motor Co.padedant iš KEISTAS (Vašingtono įkūnytas intelektas ir robotų plėtra) Lab.
