Strojno učenje predviđa kada pozadinska buka oštećuje sluh
Algoritmi strojnog učenja mogli bi se jednog dana koristiti za poboljšanje prepoznavanja govora kod osoba oštećenog sluha, pokazali su njemački istraživači. Koristeći novi algoritam, Jana Roßbach i kolege sa Sveučilišta Carl von Ossietzky mogli su točno predvidjeti kada će ljudi s normalnim sluhom i oni s različitim razinama oštećenja sluha pogrešno čuti više od 50% riječi u raznim bučnim okruženjima – važan test za učinkovitost slušnog pomagala.
Životi mnogih osoba oštećenog sluha značajno su poboljšani algoritmima slušnih pomagala, koji digitaliziraju i obrađuju zvukove prije nego što u uho isporuče pojačanu verziju. Ključni izazov s kojim se ova tehnologija još uvijek suočava je poboljšanje sposobnosti uređaja da razlikuju ljudski govor i pozadinsku buku – nešto što se radi pomoću algoritama za digitalnu obradu signala.
Istraživači često koriste eksperimente slušanja kako bi procijenili sposobnost algoritama slušnih pomagala da prepoznaju govor. Cilj ovih testova je utvrditi razinu buke pri kojoj će korisnici slušnih pomagala prepoznati samo polovicu izgovorenih riječi. Međutim, ovaj pristup je skup i dugotrajan te se ne može lako prilagoditi različitim akustičnim okruženjima ili korisnicima s različitim razinama gubitka sluha.
Duboko strojno učenje
U svojoj studiji, Roßbachin tim koristio je model prepoznavanja ljudskog govora temeljen na dubokom strojnom učenju, koji koristi više slojeva za izdvajanje značajki više razine iz sirovih ulaznih podataka. U kombinaciji s konvencionalnim algoritmima za povećanje amplitude, model bi se mogao koristiti za izdvajanje fonema - to su jedinice zvuka koje čine građevne blokove riječi.
Kako bi uvježbali svoj algoritam, istraživači su koristili snimke nasumičnih osnovnih rečenica, koje je proizvelo deset muških i deset ženskih govornika. Zatim su maskirali ovaj govor koristeći osam mogućih signala buke, koji su uključivali jednostavnu konstantnu buku i drugu osobu koja je razgovarala preko zvučnika. Tim je također degradirao snimke u različitim stupnjevima, kako bi oponašali kako bi zvučale osobama s različitim razinama oštećenja sluha.
Prag buke
Nakon toga, Roßbach i njezini kolege pustili su maskirane snimke sudionicima s normalnim sluhom i onima s različitim stupnjevima gubitka sluha uzrokovanog s dobi. Nakon što su zamolili sudionike da zapišu riječi koje su čuli, mogli su odrediti prag buke koji je uzrokovao da svaki slušatelj pogrešno čuje više od 50% riječi koje su čuli. Kao što se tim nadao, odgovori sudionika s različitim slušnim sposobnostima usko su se podudarali s predviđanjima modela strojnog učenja, s pogreškom od samo 2 dB.
Istraživači se još uvijek suočavaju s nekoliko izazova prije nego što se njihov algoritam može koristiti za poboljšanje praktičnih slušnih pomagala. Za sada se tehnologija ne može koristiti za identifikaciju koje su riječi izgovorene u govoru koji tumači kao da su pogrešno čule. To znači da ne može točno rekonstruirati ispravne foneme unutar pojačanih zvukova koje proizvode slušna pomagala.
U svojim budućim istraživanjima, znanstvenici će prilagoditi svoju tehniku kako bi maksimalno povećali razumljivost govora za svaku osobu oštećena sluha. Ako bude uspješan, njihov pristup bi se eventualno mogao implementirati u slušna pomagala koja su prilagođena potrebama specifičnih korisnika.
Izvor: Physics World