Új szintre lép az MI és az ember közötti interakció

Bíró Gábor 2024. július 31.

Az OpenAI megkezdte a várva várt Fejlett Hangmód bevezetését a ChatGPT-ben, amely mostantól néhány Plus előfizető számára elérhetővé teszi a hiperrealisztikus hangalapú interakciókat a GPT-4o modell erejével. Ahogy a TechCrunch is beszámolt róla, ez az új funkció természetesebb, valós idejű beszélgetéseket ígér az AI-val, beleértve a mondat közbeni megszakítás és az érzelmi intonációk felismerésének képességét.

Új szintre lép az MI és az ember közötti interakció
Forrás:

Ez az új funkció, amelyet a GPT-4o modell hajt, jelentős előrelépést jelent az AI és ember közötti interakcióban, hiperrealisztikus hangválaszokat és valós idejű beszélgetéseket kínálva. Ellentétben a korábbi hangmóddal, amely külön modelleket használt a beszéd-szöveg és szöveg-beszéd átalakításokra, a GPT-4o multimodális képességei lehetővé teszik az audio feladatok zökkenőmentes feldolgozását, ami jelentősen csökkenti a késleltetést. A vállalat azt tervezi, hogy fokozatosan kiterjeszti a hozzáférést minden Plus felhasználóra 2024 őszére, lehetővé téve a technológia alapos tesztelését és finomítását.

Fejlett hangmód funkciók

A Fejlett hangmód valós idejű beszélgetéseket kínál minimális késleltetéssel, lehetővé téve a felhasználók számára, hogy a mondat közepén megszakítsák a ChatGPT-t a természetesebb interakciók érdekében. A rendszer képes felismerni és reagálni különböző érzelmi hangszínekre, beleértve a szomorúságot, izgatottságot és még az éneklést is. A visszaélések megelőzése és a magánélet védelme érdekében az OpenAI négy előre beállított hangra korlátozta a funkciót - Juniper, Breeze, Cove és Ember -, amelyeket fizetett szinkronszínészek közreműködésével hoztak létre. Ezek a hangok helyettesítik a kezdeti demo során bemutatott vitatott "Sky" hangot, biztosítva, hogy a ChatGPT ne tudjon megszemélyesíteni konkrét egyéneket vagy közszereplőket.

Biztonsági intézkedések és óvatos bevezetés

Az OpenAI robusztus biztonsági intézkedéseket vezetett be a Fejlett Hangmód felelősségteljes bevezetése érdekében. A vállalat több mint 100 külső tesztelővel dolgozott együtt, akik 45 nyelven végeztek tesztelést, és rendszereket építettek ki az előre beállított hangoktól eltérő kimenetek blokkolására. Szűrőket vezettek be az erőszakos vagy szerzői jog által védett tartalom generálásának megelőzésére, így címezve a potenciális visszaélésekkel kapcsolatos aggodalmakat. Az OpenAI szándékosan óvatosan halad előre, szorosan figyelve a felhasználást és fokozatosan bővítve a hozzáférést. Miközben néhány Plus előfizető már meghívót kapott, a vállalat célja, hogy a funkciót minden Plus felhasználó számára elérhetővé tegye 2024 őszének végéig, időt hagyva a technológia finomítására és az esetleges problémák kezelésére.

Háttér és jövőbeli fejlesztések

A Fejlett Hangmód fejlesztése vitákat váltott ki, amikor a 2024. májusi kezdeti demo során egy Scarlett Johansson színésznőre hasonlító hangot mutattak be, aki korábban elutasította az ajánlatot, hogy a ChatGPT hangja legyen. Ez jogi lépésekhez vezetett, és az "Sky" hang eltávolítását eredményezte. Előretekintve az OpenAI további funkciókat tervez bevezetni, mint például videó és képernyőmegosztási lehetőségek, amelyeket a tavaszi frissítés során mutattak be, de a jelenlegi alfa kiadásban még nem szerepelnek. A vállalat egy biztonsági jelentés elkészítésén is dolgozik, amely várhatóan augusztus elején jelenik meg, részletezve a külső tesztelőkkel végzett kiterjedt teszteléseket több nyelven.

© 2024 Birow.com