Područje mašinskog učenja obuhvata niz metodologija i paradigmi, od kojih je svaka prilagođena različitim vrstama podataka i problema. Među ovim paradigmama, nadgledano i nenadgledano učenje su dvije najosnovnije.
Nadzirano učenje uključuje obuku modela na označenom skupu podataka, gdje su ulazni podaci upareni sa ispravnim izlazom. Model uči mapirati ulaze i izlaze tako što minimizira grešku između svojih predviđanja i stvarnih izlaza. Nenadgledano učenje se, s druge strane, bavi neobilježenim podacima, gdje je cilj zaključiti prirodnu strukturu prisutnu unutar skupa tačaka podataka.
Postoji vrsta učenja koja integriše i tehnike učenja pod nadzorom i bez nadzora, koje se često nazivaju polu-nadgledanim učenjem. Ovaj pristup koristi i označene i neoznačene podatke tokom procesa obuke. Obrazloženje iza polunadgledanog učenja je da neoznačeni podaci, kada se koriste u kombinaciji s malom količinom označenih podataka, mogu dovesti do značajnog poboljšanja tačnosti učenja. Ovo je posebno korisno u scenarijima u kojima su označeni podaci oskudni ili skupi za dobivanje, ali neoznačenih podataka ima u izobilju i lako ih je prikupiti.
Polu-nadgledano učenje zasnovano je na pretpostavci da osnovna struktura neoznačenih podataka može pružiti vrijedne informacije koje su komplementarne označenim podacima. Ova pretpostavka može imati nekoliko oblika, kao što su pretpostavka klastera, mnogostruka pretpostavka ili pretpostavka razdvajanja niske gustine. Pretpostavka klastera postavlja da će tačke podataka u istom klasteru vjerovatno imati istu oznaku. Pretpostavka mnogostrukosti sugerira da visokodimenzionalni podaci leže na mnogostrukosti mnogo niže dimenzionalnosti, a zadatak je naučiti ovu mnogostrukost. Pretpostavka razdvajanja niske gustine zasniva se na ideji da granica odluke treba da leži u regionu niske gustine podataka.
Jedna od uobičajenih tehnika koje se koriste u polunadgledanom učenju je samoobuka. Kod samoobuke, model se inicijalno obučava na označenim podacima. Zatim koristi vlastita predviđanja o neoznačenim podacima kao pseudo-oznakama. Model se dalje obučava na ovom proširenom skupu podataka, iterativno rafinirajući svoja predviđanja. Druga tehnika je ko-trening, gdje se dva ili više modela istovremeno obučavaju na različitim pogledima na podatke. Svaki model je odgovoran za označavanje dijela neoznačenih podataka, koji se zatim koriste za obuku ostalih modela. Ova metoda iskorištava redundantnost u višestrukim prikazima podataka za poboljšanje performansi učenja.
Metode zasnovane na grafovima također su preovlađujuće u polunadgledanom učenju. Ove metode konstruišu graf gde čvorovi predstavljaju tačke podataka, a ivice predstavljaju sličnosti između njih. Zadatak učenja se zatim preformuliše kao problem optimizacije baziran na grafu, gdje je cilj propagirati oznake od označenih čvorova do neobilježenih uz očuvanje strukture grafa. Ove tehnike su posebno efikasne u domenima u kojima podaci prirodno formiraju mrežu, kao što su društvene mreže ili biološke mreže.
Drugi pristup kombinovanju učenja pod nadzorom i učenja bez nadzora je učenje sa više zadataka. U učenju sa više zadataka, više zadataka učenja se rješavaju istovremeno, dok se iskorištavaju zajedničko i različito među zadacima. Ovo se može posmatrati kao oblik induktivnog prenosa, gde znanje stečeno iz jednog zadatka pomaže u poboljšanju učenja drugog. Učenje sa više zadataka može biti posebno korisno kada postoji zajednička reprezentacija ili prostor karakteristika među zadacima, omogućavajući prijenos informacija.
Praktični primjer polunadgledanog učenja je u području obrade prirodnog jezika (NLP). Razmotrite zadatak analize sentimenta, gdje je cilj klasificirati dati tekst kao pozitivan ili negativan. Označeni podaci, kao što su recenzije s oznakama osjećaja, mogu biti ograničene. Međutim, na raspolaganju je ogromna količina neoznačenog teksta. Polu-nadgledani pristup učenju mogao bi uključivati obuku klasifikatora osjećaja na označenim podacima i njegovu upotrebu za predviđanje osjećaja neobilježenih podataka. Ova predviđanja se zatim mogu koristiti kao dodatni podaci za obuku, poboljšavajući performanse klasifikatora.
Drugi primjer se može naći u klasifikaciji slika. U mnogim slučajevima, dobijanje označenih slika je radno intenzivan i skup, dok je neobilježenih slika u izobilju. Polu-nadzirani pristup može uključivati korištenje malog skupa označenih slika za obuku početnog modela. Ovaj model bi se zatim mogao primijeniti na neobilježene slike kako bi se generirale pseudo-oznake, koje se kasnije koriste za ponovnu obuku modela.
Integracija nadziranog i nenadgledanog učenja kroz polunadgledano učenje i srodne metodologije predstavlja moćan pristup u mašinskom učenju. Koristeći prednosti obje paradigme, moguće je postići značajna poboljšanja u performansama modela, posebno u domenima gdje su označeni podaci ograničeni, ali neobilježenih podataka ima u izobilju. Ovaj pristup ne samo da poboljšava sposobnost modela da generalizuju iz ograničenih podataka, već takođe pruža robusniji okvir za razumevanje osnovne strukture složenih skupova podataka.
Ostala nedavna pitanja i odgovori u vezi EITC/AI/GCML Google Cloud Machine Learning:
- Ono što je jezik programiranja za mašinsko učenje je samo Python
- Kako se mašinsko učenje primjenjuje u svijetu nauke?
- Kako odlučujete koji algoritam mašinskog učenja ćete koristiti i kako ga pronalazite?
- Koje su razlike između Federated Learning, Edge Computinga i On-Device Machine Learning?
- Kako pripremiti i očistiti podatke prije treninga?
- Koji su specifični početni zadaci i aktivnosti u projektu mašinskog učenja?
- Koja su osnovna pravila za usvajanje specifične strategije i modela mašinskog učenja?
- Koji parametri ukazuju da je vrijeme za prelazak s linearnog modela na duboko učenje?
- Koja verzija Pythona bi bila najbolja za instaliranje TensorFlow-a kako bi se izbjegli problemi s nedostupnom TF distribucijom?
- Šta je duboka neuronska mreža?
Pogledajte više pitanja i odgovora u EITC/AI/GCML Google Cloud Machine Learning
Više pitanja i odgovora:
- Polje: Umjetna inteligencija
- program: EITC/AI/GCML Google Cloud Machine Learning (idite na program sertifikacije)
- Lekcija: Uvod (idi na srodnu lekciju)
- Tema: Šta je mašinsko učenje (idi na srodnu temu)