EITC/AI/ARL Advanced Reinforcement Learning je evropski program IT sertifikacije o DeepMindovom pristupu učenju sa pojačanjem u veštačkoj inteligenciji.
Nastavni plan i program EITC/AI/ARL Advanced Reinforcement Learning fokusira se na teorijske aspekte i praktične vještine u tehnikama učenja s pojačavanjem iz perspektive DeepMind-a organizovanog u okviru sljedeće strukture, koja obuhvata sveobuhvatan video didaktički sadržaj kao referencu za ovu EITC certifikat.
Pojačano učenje (RL) je područje strojnog učenja koje se bavi pitanjem kako inteligentni agenti trebaju poduzeti radnje u okruženju kako bi maksimizirali pojam kumulativne nagrade. Pojačano učenje je jedna od tri osnovne paradigme mašinskog učenja, uz nadgledano učenje i nenadgledano učenje.
Pojačanje učenja razlikuje se od učenja pod nadzorom po tome što ne trebaju biti prezentirani označeni parovi ulaza/izlaza i u tome što ne trebaju izričito ispravljene neoptimalne akcije. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (neistražene teritorije) i eksploatacije (trenutnih saznanja).
Okoliš se obično navodi u obliku Markovljevog procesa odlučivanja (MDP), jer mnogi algoritmi učenja za pojačanje za ovaj kontekst koriste tehnike dinamičkog programiranja. Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama za učvršćivanje je u tome što potonji ne pretpostavljaju poznavanje tačnog matematičkog modela MDP-a i ciljaju velike MDP-ove tamo gdje egzaktne metode postaju neizvedive.
Zbog svoje općenitosti, učvršćivanje se proučava u mnogim disciplinama, kao što su teorija igara, teorija upravljanja, istraživanje operacija, teorija informacija, optimizacija zasnovana na simulaciji, sustavi s više agenata, inteligencija rojeva i statistika. U literaturi o operativnim istraživanjima i kontroli, učenje pojačanja naziva se približnim dinamičkim programiranjem ili neuro-dinamičkim programiranjem. Problemi od interesa za učenje pojačanja također su proučavani u teoriji optimalnog upravljanja, koja se najviše bavi postojanjem i karakterizacijom optimalnih rješenja i algoritmima za njihovo tačno izračunavanje, a manje učenjem ili aproksimacijom, posebno u nedostatku matematički model okoline. U ekonomiji i teoriji igara učenje potkrepljivanja može se koristiti da bi se objasnilo kako ravnoteža može nastati u ograničenoj racionalnosti.
Osnovno pojačanje modelirano je kao Markov proces odlučivanja (MDP). U matematici je Markovov proces odlučivanja (MDP) proces stohastičkog upravljanja u diskretnom vremenu. Pruža matematički okvir za modeliranje donošenja odluka u situacijama kada su ishodi dijelom slučajni, a dijelom pod kontrolom donosioca odluke. MDP-ovi su korisni za proučavanje problema optimizacije riješenih dinamičkim programiranjem. MDP su bili poznati barem još pedesetih. Ključno istraživanje istraživanja procesa Markova donijelo je rezultat knjige Ronalda Howarda iz 1950. godine, Dinamičko programiranje i Markov procesi. Koriste se u mnogim disciplinama, uključujući robotiku, automatsko upravljanje, ekonomiju i proizvodnju. Ime MDP dolazi od ruskog matematičara Andreja Markova jer su produžetak markovskih lanaca.
U svakom vremenskom koraku proces je u nekom stanju S i donositelj odluke može odabrati bilo koju radnju a koja je dostupna u stanju S. Proces odgovara u sljedećem vremenskom koraku nasumičnim premještanjem u novo stanje S 'i daje donosiocu odluke odgovarajuća nagrada Ra (S, S ').
Na vjerovatnoću da proces pređe u novo stanje S 'utječe odabrana radnja a. Konkretno, daje ga funkcija prijelaza stanja Pa (S, S '). Dakle, sljedeće stanje S 'ovisi o trenutnom stanju S i djelovanju donositelja odluke a. Ali s obzirom na S i a, on je uslovno neovisan od svih prethodnih stanja i radnji. Drugim riječima, državni prijelazi MDP-a zadovoljavaju imovinu Markov.
Procesi odlučivanja o Markovu su produženje markovskih lanaca; razlika je u dodavanju radnji (omogućavanje izbora) i nagrada (davanje motivacije). Suprotno tome, ako postoji samo jedna radnja za svako stanje (npr. „Pričekaj“) i sve su nagrade iste (npr. „Nula“), postupak odluke Markova svodi se na lanac Markova.
Sredstvo za učenje pojačanja komunicira sa svojom okolinom u diskretnim vremenskim koracima. U svakom trenutku t, agent prima trenutno stanje S (t) i nagradu r (t). Zatim odabire radnju a (t) iz skupa dostupnih radnji, koja se zatim šalje u okruženje. Okolina prelazi u novo stanje S (t + 1) i određuje se nagrada r (t + 1) povezana s prijelazom. Cilj sredstva za učenje pojačanja je naučiti politiku koja maksimizira očekivanu kumulativnu nagradu.
Formuliranje problema kao MDP pretpostavlja da agent direktno promatra trenutno stanje okoline. U ovom slučaju se kaže da problem ima punu vidljivost. Ako agent ima pristup samo podskupu stanja, ili ako su promatrana stanja oštećena bukom, kaže se da agent ima djelomičnu vidljivost i formalno problem mora biti formuliran kao djelomično uočljiv postupak odluke Markova. U oba slučaja, skup radnji dostupan agentu može biti ograničen. Na primjer, stanje na računu može biti ograničeno na pozitivno; ako je trenutna vrijednost stanja 3 i prijelaz stanja pokuša smanjiti vrijednost za 4, prijelaz neće biti dozvoljen.
Kada se učinak agenta usporedi s učinkom agenta koji djeluje optimalno, razlika u učinku daje pojam žaljenja. Da bi se ponašao približno optimalno, agent mora razmišljati o dugoročnim posljedicama svojih postupaka (tj. Maksimizirati budući prihod), iako bi neposredna nagrada povezana s tim mogla biti negativna.
Stoga je učenje pojačavanja posebno pogodno za probleme koji uključuju dugoročnu nasuprot kratkotrajnoj razmjeni nagrada. Uspješno se primjenjuje na različite probleme, uključujući kontrolu robota, zakazivanje dizala, telekomunikacije, backgammon, checkers i Go (AlphaGo).
Dva elementa čine učenje ojačanja moćnim: upotreba uzoraka za optimizaciju performansi i upotreba aproksimacije funkcija za bavljenje velikim okruženjima. Zahvaljujući ove dvije ključne komponente, učenje pojačanja može se koristiti u velikim okruženjima u sljedećim situacijama:
- Model okoline je poznat, ali analitičko rješenje nije dostupno.
- Dat je samo simulacijski model okoline (predmet optimizacije zasnovane na simulaciji).
- Jedini način prikupljanja informacija o okolini je interakcija s njom.
Prva dva od ovih problema mogla bi se smatrati problemima planiranja (budući da je dostupan neki oblik modela), dok bi se posljednji mogao smatrati istinskim problemom učenja. Međutim, učvršćivanje pretvara oba problema planiranja u probleme mašinskog učenja.
Kompromis istraživanja i eksploatacije najtemeljitije je proučavan kroz problem višenaoružanih bandita i za MDP konačnog stanja u Burnetas i Katehakis (1997).
Učenje za pojačanje zahtijeva pametne mehanizme istraživanja; slučajni odabir akcija, bez pozivanja na procijenjenu raspodjelu vjerovatnoće, pokazuje loše performanse. Slučaj (malih) konačnih Markovljevih procesa odlučivanja relativno je dobro razumljiv. Međutim, zbog nedostatka algoritama koji se dobro prilagođavaju broju stanja (ili prilagođavaju problemima s beskonačnim prostorima stanja), jednostavne metode istraživanja su najpraktičnije.
Čak i ako se pitanje istraživanja zanemari, pa čak i ako je država bila vidljiva, i dalje ostaje problem koristiti prošlo iskustvo kako bismo otkrili koje akcije dovode do većih kumulativnih nagrada.
Da biste se detaljno upoznali sa nastavnim planom i programom sertifikacije, možete proširiti i analizirati tabelu ispod.
EITC/AI/ARL Nastavni plan i program za certifikaciju naprednog učenja uz podršku referencira didaktičke materijale otvorenog pristupa u video obliku. Proces učenja je podijeljen u strukturu korak po korak (programi -> lekcije -> teme) koja pokriva relevantne dijelove kurikuluma. Takođe su obezbeđene neograničene konsultacije sa stručnjacima iz domena.
Za detalje o proceduri certifikacije provjerite Kako funkcionira.
Referentni resursi za kurikulum
Kontrola na ljudskom nivou kroz publikaciju Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Otvoreni kurs o učenju dubokog pojačanja na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL primijenjen na problem K-oružanih bandita s Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Preuzmite kompletne pripremne materijale za vanmrežno samoučenje za EITC/AI/ARL Advanced Reinforcement Learning program u PDF datoteci
EITC/AI/ARL pripremni materijali – standardna verzija
EITC/AI/ARL pripremni materijali – proširena verzija sa pitanjima za pregled