Bonyolult környezetben az emberek jobban megértik a beszéd jelentését, mint az AI, mert nemcsak a fülünket, hanem a szemünket is használjuk.
Például azt látjuk, hogy valakinek a szája mozog, és intuitív módon tudjuk, hogy a hang, amit hallunk, biztosan az adott személytől származik.
A Meta AI egy új AI párbeszédrendszeren dolgozik, amelynek célja, hogy az AI megtanulja felismerni a finom összefüggéseket a beszélgetés során látott és hallható dolgok között.
A VisualVoice hasonló módon tanul, mint ahogy az emberek megtanulják az új készségek elsajátítását, lehetővé téve az audio-vizuális beszéd szétválasztását azáltal, hogy vizuális és auditív jeleket tanul címkézetlen videókból.
A gépeknél ez jobb érzékelést hoz létre, míg az emberi érzékelés javul.
Képzeld el, hogy a világ minden tájáról érkezett kollégákkal részt vehetsz a metaverzumban zajló csoporttalálkozókon, és csatlakozhatsz kisebb csoporttalálkozókhoz, miközben a virtuális térben mozognak, amelyek során a jelenetben lévő hangok és hangszínek a környezetnek megfelelően igazodnak.
Ez azt jelenti, hogy egyszerre tud hang-, kép- és szöveges információkat szerezni, és gazdagabb környezetismereti modellel rendelkezik, lehetővé téve a felhasználók számára, hogy "nagyon wow" hangélményben részesüljenek.
Feladás időpontja: 2022-07-20