Паметна неспретност робота који учи да хода


Лако је гледај како беба напокон научи да хода након сати и сати покушаја и погрешака и мисли, ОК, добар посао, али хоћеш ли медаљу или нешто слично? Па, можда би само особа без дјеце као што сам ја мислила да је тако заслужна због заслуга: животињама је веома тешко управљати нечим као што је то што свакодневно стављамо једну ногу испред друге.

Још је теже добити роботе да учине исто. Некада је било потребно да машинску шетњу направите, или сте морали да напишете сваку наредбу или да изградите робота као симулирани свет у којем ћете учити. Али у последње време, истраживачи су експериментисали са новим начином да раде ствари: Учите роботе себе како ходати кроз пробу и грешку, као бебе, навигацију у стварном свету.

Истраживачи из УЦ Беркелеи и Гоогле Браин само су направили велики корак (извините) према тој будућности са четвероножним роботом који се научио да хода за само два сата. Испрва је било помало незграпно, али је у основи измислио ходање сам од себе. Не само то, истраживачи су могли да уведу машину у нова окружења, као што су нагиби и препреке, и прилагодили се са лакоћом. Резултати су неугодни јер су магични, али могу довести до машина које истражују свијет, а да их не морамо мазити.

Тајни састојак је техника названа учењу појачавања максималне ентропије. Ентропија у овом контексту значи случајност – много тога. Истраживачи су роботу дали дигиталну награду за нешто што је урадило нешто што је на крају добро функционисало. Дакле, у овом случају, робот је награђен за постизање брзине кретања напријед, што значи да испробава нове ствари и убацује напред мало по мало. (Систем за хватање покрета у лабораторији израчунао је напредак робота.)

Проблем је, међутим: “Најбољи начин да се ова награда увећава у почетку је само да се зарони напред”, каже компјутерски научник УЦ Беркелеи Туомас Хаарноја, водећи аутор на новом препринту који детаљно описује систем. "Зато морамо казнити за такво понашање, јер би робот одмах пао."

Још један проблем: Када истраживачи желе да робот учи, они најпре покрећу овај процес учења појачања у симулацији. Дигитално окружење апроксимира физику и материјале стварног света, дозвољавајући софтверу робота да брзо спроводи бројна испитивања користећи моћне рачунаре.

Истраживачи користе “хиперпараметре” да би алгоритам радио са одређеном врстом симулиране средине. „Само треба да пробамо различите варијације ових хиперпараметара и онда изаберемо ону која заиста функционише“, каже Хаарноја. "Али сада када се бавимо системом стварног свијета, не можемо си приуштити тестирање превише различитих поставки за ове хиперпараметре." Напредак је у томе што су Хаарноја и његове колеге развиле начин за аутоматско подешавање хиперпараметара. "То чини експериментисање у стварном свијету много изводљивијим."

Туомас Хаарноја

Учење у стварном свету уместо у софтверској симулацији је много спорији – сваки пут када је пао, Хаарноја је морао да физички покупи четвороножног робота и да га ресетује, можда 300 пута током двосатног тренинга. Неугодно, да, али не толико досадно као што покушавате да узмете оно што сте научили у симулацији – која је несавршена апроксимација стварног свијета – и приморате је да лепо ради у физичком роботу.

Такође, када истраживачи прво обуче робота у симулацији, они су експлицитни о томе како изгледа то дигитално окружење. Физички свет је, с друге стране, много мање предвидљив. Тако је тренинг робота у правој, ако је контролисаној, поставци лабораторије, Хаарноја и његове колеге учинио машину робуснијом у варијацијама у окружењу.

Осим тога, овај робот је морао да се носи са малим поремећајима током тренинга. "Имамо кабл прикључен на батерије, а понекад и кабл иде испод ногу, а понекад када ручно ресетујем робота не радим то правилно", каже Хаарноја. "Тако и учи из тих поремећаја." Иако тренинг у симулацији долази са великом брзином, то не може одговарати случајности стварног свијета. А ако желимо да се наши роботи сами прилагоде нашим домовима и улицама, морају бити флексибилни.

„Свиђа ми се овај рад јер увјерљиво показује да се на реалном роботу могу примијенити приступи учењу дубоког појачања“, каже инжењер ОпенАИ-а Маттхиас Плапперт, који је дизајнирао роботску руку да се научи манипулирати објектима. "Такође је импресивно да се њихов метод генерализује тако добро на раније невиђеним теренима, иако је био само трениран на равном терену."

"То је речено", додаје он, "учење на физичком роботу и даље долази са многим изазовима. За сложеније проблеме, два сата тренинга вјероватно неће бити довољно. ”Још једна препрека је да обука робота у стварном свијету значи да се могу повриједити, тако да истраживачи морају поступати опрезно.

Ипак, обука у стварном свијету је моћан начин да се роботи прилагоде несигурности. Ово је радикално одступање од нечега као што је фабрички робот, бруталац који прати низ команди и ради изоловано како не би пребацио своје људске сараднике преко собе. Међутим, у разноврсним и непредвидивим окружењима изван фабрике, машине ће морати да нађу свој пут.

"Ако желите послати робота на Марс, с чим ће се суочити?", Питао је роботичар Универзитета у Ослу Тøннес Нигаард, чији је властити четвероножни робот научио да хода "еволуирајући". знам све. Чак и да сте то учинили, не желите да седите и да на сваки начин реагујете на сваки одговор.

Дакле, беба креће у свемир!


Море Греат ВИРЕД Сториес