Norsk møteplass for freakere av alle slag

Trådstarter

29. september 2020

Sitat av bennnern

Litt av utgangspunktet for at jeg spurte var at jeg kom over en video der en robothånd har lært seg å løse en rubixcube: https://openai.com/blog/solving-rubiks-cube/

Slik jeg forstår det har det blitt gjort en haug av simuleringer virtuelt der en simulering av robothånden løser en rubixkube i et stadig mer krevende virtuelt miljø. Dette trener opp ett nevralt netverk(?) til å kunne løse kuben i mange ulike situasjoner. Når det nevrale nettverket senere blir brukt til å styre en ekte robothånd er den i stand til løse en ekte rubixkube selv om den utsettes for en rekke miljøforandringer. Det er altså oppnådd en betydelig grad av generaliserbarhet om jeg har skjønt det riktig.

Da tenker jeg at noe av det samme prinsippet kan brukes på å løse de samme problemstillingene du forsøker å løse. Ville det ikke funket å trene opp en virtuell undervannsrobot på samme måte? Ved å utsette den for ett stort antall simuleringer av potensielle mærer, eller andre miljøer der systemet kan bli tatt i bruk? Sikkert en enorm utfordring, men jeg ser ikke intuitivt hvorfor problemstillingen skal være SÅ enormt mye mer krevende en oppgaven med å løse en rubixkube i et stort antall ulike settinger. Hvilken fordel vil isåfall ditt system ha over en slik løsning? Utelukkende at det er kommet lengre i utviklingen eller er det andre fordeler det også kan dra nytte av?

Systemet ditt, om jeg har skjønt det riktig, gjør det altså lettere å programmere en robot til å finne noe og utføre en handling på noe når den beveger seg gjennom tre dimensjoner sammenlignet med andre løsninger? Som lekmann blir det vanskelig å vite om det stemmer, siden jeg ikke har teknisk innsikt til å si noe om hvor enkelt systemet ditt er. Da koker det hele ned til å tro på at det du sier er sant. Om du hadde hatt enda mer konkrete resultater å vise til, eventuelt ett godt teoretisk argument for at din metode fungerte best, hadde det vært lettere å stille seg bak ideen. Jeg sliter med å forstå hvorfor akkurat din måte å programmere på gir roboten evnen til å generalisere. Om en annen oppfinner hadde hevdet at han brukte det samme prinsippet som folka som laget rubixkubeløseroboten til å løse den samme problemstillingen som deg tror jeg at jeg hadde hatt lettere for å gå god for prosjektet siden det i det minste baserer seg på teori som er nogenlunde begripelig fra mitt lekmannsperspektiv. Uansett er det et spennende prosjekt og jeg håper lykkes!

Vis hele sitatet...

Forstår veldig godt hvor du kommer fra, kjempegode innvendinger du kommer med.

Det er naturlig å se på dette som en mer generell utfordring - det er tross alt snakk om introduksjon av helt uforutsette handikap, mens systemet fortsetter å løse cuben. Ikke at det egentlig spiller en rolle for argumentasjonen din, men hvis du ser på abstrakten fra publiseringen se du at:

We demonstrate that models trained only in simulation can be used to solve a manipulation problem of unprecedented complexity on a real robot. This is made possible by two key components: a novel algorithm, which we call automatic domain randomization (ADR) and a robot platform built for machine learning. ADR automatically generates a distribution over randomized environments of ever-increasing difficulty. Control policies and vision state estimators trained with ADR exhibit vastly improved sim2real transfer. For control policies, memory-augmented models trained on an ADR-generated distribution of environments show clear signs of emergent meta-learning at test time. The combination of ADR with our custom robot platform allows us to solve a Rubik's cube with a humanoid robot hand, which involves both control and state estimation problems. Videos summarizing our results are available: this https URL

Vis hele sitatet...

Gjennom simuleringer er uforutsette hindringer det denne kunstige intelligensen har blitt spesifikt trent til. Enda det aldri var en giraff i simuleringen har systemet utviklet en form for intuisjon, men enda kun innen sitt svært begrensede felt - nemlig å løse rubiks cube under vanskelige omstendigheter. (Å løse en rubiks kube er ikke noe hokkus pokkus lenger - dette studiet handlet eksplisitt om å gjøre det under alle mulige miljøbelastninger)

Med det sagt; klart dette her er et faglig nivå langt over prosjektet mitt. Sannsynligvis vil første kommersielle produkt - om det noensinne kommer - heller ikke ha teknologi on par med bransjeledere innen implementerte nevrale nett. Og flaks er det - for hvis du ser på listen bidragsytere ser du en lønningsliste ingen oppstartsbedrift noensinne ville kunne makte.

Det som er viktig å forstå er at det finnes to verdener innen høyteknologi. Den ene foregår for faget sin del - forskning, utdanning etc. Den andre foregår for kommersiell utnyttelse.

ROS ble faktisk grunnlagt nettopp for å tette dette gapet, noe som på alle måter har skjedd. Men det er enda et gap igjen, og så kompetanseintensivt og ungt som ROS er så er overvekten av foregangsmiljøene ikke- eller semi-kommersielle - faget er i sentrum. Ikke kommersialiseringen. Det beste eksempelet på dette er Rethink Robotics' skjebne - de gikk konkurs i 2018 etter å ha fått over 1 milliard (dollar?)! i investormidler. De hadde rett og slett brydd seg mer om faglige visjoner enn kommersielle krefter.

Jeg hadde skrevet mye mer, men jeg synes dette er litt ubehagelig nært selvskryt. Det er veldig vanskelig å svare på spørsmål rundt hvorfor dette er verdt noe uten å nærme seg den gaten, så jeg håper du kan smøre deg med litt tålmodighet og ta en titt når jeg har en virkelig oppklarende videosnutt å dele med dere.

Enn så lenge er det bare noe improvisert ræl, men jeg må begynne et sted. Kanskje jeg prøver å svare deg muntlig også. (Fordelen med å gjøre det på Norsk er jo at ingen utenlandske aktører registrerer hvor syltynt fremført det hele er. Skal bli bedre!)

freak_del1:
(om systemet)
https://youtu.be/O9fPlX9mY20
(om koden)
https://youtu.be/jstZ09s3OJA

freak del2:
https://youtu.be/ahwUmXHa8D0
https://youtu.be/PjsRJQqXx6o

freak del3:
https://youtu.be/u_IwnpZYDpQ

https://youtu.be/tX-VYxrTLYY

(Innen noen uker vil det forøvrig være klart for neste prototypetest. Da vil det forhåpentligvis ikke være noe behov for å ta meg på ordet etterpå

)

Sist endret av Tøffetom; 29. september 2020 kl. 12:14. Grunn: Automatisk sammenslåing med etterfølgende innlegg.