
Sudėtingose aplinkose žmonės gali geriau suprasti kalbos reikšmę nei dirbtinis intelektas, nes mes naudojame ne tik ausis, bet ir akis.
Pavyzdžiui, matome, kaip juda kažkieno burna, ir galime intuityviai žinoti, kad garsas, kurį girdime, turi sklisti iš to žmogaus.
„Meta AI“ kuria naują dirbtinio intelekto dialogo sistemą, kuria siekiama išmokyti dirbtinį intelektą atpažinti subtilius ryšius tarp to, ką jis mato ir girdi pokalbyje.
„VisualVoice“ mokosi panašiai kaip žmonės, įvaldydami naujus įgūdžius – geba atskirti audiovizualinę kalbą, mokydamasi vaizdinių ir garsinių užuominų iš nepažymėtų vaizdo įrašų.
Mašinoms tai sukuria geresnį suvokimą, o žmogaus suvokimas pagerėja.
Įsivaizduokite, kad galite dalyvauti grupiniuose susitikimuose metavisatoje su kolegomis iš viso pasaulio, prisijungti prie mažesnių grupių susitikimų, jiems judant virtualioje erdvėje, kurių metu garso aidai ir tembrai scenoje keičiasi pagal aplinką ir atitinkamai koreguojami.
Tai reiškia, kad jis gali vienu metu gauti garso, vaizdo ir teksto informaciją ir turi išsamesnį aplinkos supratimo modelį, leidžiantį vartotojams patirti „labai stulbinantį“ garso potyrį.
Įrašo laikas: 2022 m. liepos 20 d.