
Komplex környezetekben az emberek jobban megértik a beszéd jelentését, mint a mesterséges intelligencia, mivel nemcsak a fülünket, hanem a szemünket is használjuk.
Például látjuk, hogy valakinek a szája mozog, és ösztönösen tudhatjuk, hogy a hallott hangnak attól a személytől kell származnia.
A Meta AI egy új mesterséges intelligencia alapú párbeszédrendszeren dolgozik, amelynek célja, hogy megtanítsa a mesterséges intelligenciát a beszélgetés során látottak és hallottak közötti finom összefüggések felismerésére is.
A VisualVoice hasonló módon tanul, mint ahogy az emberek elsajátítják az új készségeket, lehetővé téve az audiovizuális beszéd elkülönítését a vizuális és auditív jelzések elsajátításával a címkézetlen videókból.
A gépek számára ez jobb érzékelést eredményez, míg az emberi érzékelés javul.
Képzeld el, hogy részt vehetsz csoportos megbeszéléseken a metaverzumban a világ minden tájáról érkező kollégákkal, csatlakozva kisebb csoportos megbeszélésekhez, miközben a virtuális térben mozognak, miközben a jelenetben lévő hangzások és hangszínek a környezetnek megfelelően változnak, ennek megfelelően igazodva.
Vagyis egyszerre képes hang-, videó- és szöveges információkat fogadni, és gazdagabb környezeti megértési modellel rendelkezik, lehetővé téve a felhasználók számára, hogy „nagyon ámulatba ejtő” hangélményben részesüljenek.
Közzététel ideje: 2022. július 20.