Novi algoritam za prikupljanje pravih podataka
Mnoga istraživanja umjetne inteligencije se bave problemom predviđanja, baziranim na velikom broju podataka. Jedan od primjera su mehanizmi preporuke na stranicama kao što su Amazone i Netflix.
Međutim, neke vrste podataka ne možemo dobiti samo klikajući na online history – na primjer informaciju o geološkim formacijama kilometrima ispod zemlje. A u drugim aplikacijama – kao što je pokušaj predviđanja kretanja oluje – možda nemamo dovoljno vremena za prikupljanje potrebnih podataka.
Dan Levine, student aeronautike i astronautike na MIT-u i njegov mentor Jonathan How profesor s the Richard Cockburn Maclaurina, razvili su novu tehniku koja bi mogla pomoći u oba slučaja. Za veliki broj uobičajenih aplikacija u kojima je teško prikupiti podatke ili to vremenski dugo traje, ova tehnika može prepoznati podsustav dijelova podataka koji će napraviti najpouzdanija predviđanja. Tako geolozi koji pokušavaju procijeniti količinu nafte pod zemljom ili meteorolozi koji pokušavaju predvidjeti vrijeme to mogu napraviti sa samo nekoliko mjerenja i pri tome uštedjeti vrijeme i novac.
Levine i How su predstavili svoj rad na konferenciji Uncertainty in Artificial Intelligence te se bave posebnim slučajem u kojem se odnos između određenih djelova podataka poznaje unaprijed. Jedan primjer je prognoza vremena: mjerenja temperature, tlaka i brzine vjetra na jednoj lokaciji mogu biti dobri pokazatelji kakvi će biti podaci na susjednoj lokaciji ili istoj, ali nakon kraćeg vremena, ali ta veza slabi što se više udaljavamo geografski ili kronološki.
Grafički sadržaj
Takve veze se mogu prikazati uz pomoć tzv. grafičkog modela vjerojatnosti. U tom kontekstu, graf je matematička apstrakcija koja se sastoji od presjecišta – obično prikazanih u obliku krugova – i rubova – prikazanih kao segmenti linija koji povezuju presjecišta. Mrežni dijagram je jedan primjer grafa; obiteljsko stablo je drugi. U grafičkom modelu vjerojatnosti presjecišta predstavljaju varijable, a rubovi snagu veza između njih.
Levine i How su razvili algoritam koji efikasno izračunava koliko informacija presjecište u jednom grafu daje o nekom drugom – to se u teoriji informacija zove „uzajamna informacija“. Levine objašnjava da je jedna od prepreka pri efikasnom obavljanju te funkcije prisutnost „zavoja“ u grafu ili presjecišta koja su povezana s više putova.
Izračunavanje uzajamnih informacija je kao ubrizgavanje plave boje u jednu od njih, a potom se mjeri koncentracija plave boje na drugoj. „Ona će obično nestati što se više udaljavamo,“ kaže Levine. „Ako postoji put između njih, možemo ga veoma lako izračunati zato što znamo kojim putem će ići plava boja. Ali, ako postoji zavoj na grafu, onda je to teže izračunati jer ima mnogo putova.“
Dakle, prvi korak je izračunati „rašireno stablo“ za graf. Stablo je samo graf bez zavoja: na obiteljskom stablu, na primjer, zavoj može značiti da je netko i roditelj i rod istoj osobi. Rašireno stablo je stablo koje dodiruje sva presjecišta na grafu, ali se udaljava od rubova koji stvaraju zavoje.
Većina presjecišta koja ostaju u grafu predstavljaju „smetnju“, što znači da ne sadrže puno korisnih informacija. Bit Levinove i Howove tehnike je način uporabe tih presjecišta kako bi se upravljalo grafom bez ometanja kalkulacije uzajamne informacije.
Levine objašnjava da je to moguće zato što su mogućnosti predstavljene u grafu Gaussianove, što znači da slijede krivulje poznate kao model, na primjer disperzije karakteristika jedne populacije. Gaussianova distribucija je okarakterizirana sa samo dva mjerenja: prosječnom vrijednošću – na primjer prosječnom visinom populacije i promjenom.
„Nesigurnost u problemu je funkcija širenja distribucije,“ kaže Levine. „Ne ovisi o tome gdje je smještena distribucija u svemiru.“ Zbog toga je moguće izračunati promjenu uz pomoć grafičkog modela promjene bez oslanjanja na specifične vrijednosti presjecišta. „Korist podataka se može procijeniti prije nego što postanu dostupni.“