Új szintre lép az MI és az ember közötti interakció

Bíró Gábor • 2024. július 31.

Az OpenAI megkezdte a várva várt Fejlett Hangmód bevezetését a ChatGPT-ben, amely mostantól néhány Plus előfizető számára elérhetővé teszi a hiperrealisztikus hangalapú interakciókat a GPT-4o modell erejével. Ahogy a TechCrunch is beszámolt róla, ez az új funkció természetesebb, valós idejű beszélgetéseket ígér az AI-val, beleértve a mondat közbeni megszakítás és az érzelmi intonációk felismerésének képességét.

Új szintre lép az MI és az ember közötti interakció

Forrás:

Ez az új funkció, amelyet a GPT-4o modell hajt, jelentős előrelépést jelent az AI és ember közötti interakcióban, hiperrealisztikus hangválaszokat és valós idejű beszélgetéseket kínálva. Ellentétben a korábbi hangmóddal, amely külön modelleket használt a beszéd-szöveg és szöveg-beszéd átalakításokra, a GPT-4o multimodális képességei lehetővé teszik az audio feladatok zökkenőmentes feldolgozását, ami jelentősen csökkenti a késleltetést. A vállalat azt tervezi, hogy fokozatosan kiterjeszti a hozzáférést minden Plus felhasználóra 2024 őszére, lehetővé téve a technológia alapos tesztelését és finomítását.

Fejlett hangmód funkciók

A Fejlett hangmód valós idejű beszélgetéseket kínál minimális késleltetéssel, lehetővé téve a felhasználók számára, hogy a mondat közepén megszakítsák a ChatGPT-t a természetesebb interakciók érdekében. A rendszer képes felismerni és reagálni különböző érzelmi hangszínekre, beleértve a szomorúságot, izgatottságot és még az éneklést is. A visszaélések megelőzése és a magánélet védelme érdekében az OpenAI négy előre beállított hangra korlátozta a funkciót - Juniper, Breeze, Cove és Ember -, amelyeket fizetett szinkronszínészek közreműködésével hoztak létre. Ezek a hangok helyettesítik a kezdeti demo során bemutatott vitatott "Sky" hangot, biztosítva, hogy a ChatGPT ne tudjon megszemélyesíteni konkrét egyéneket vagy közszereplőket.

Biztonsági intézkedések és óvatos bevezetés

Az OpenAI robusztus biztonsági intézkedéseket vezetett be a Fejlett Hangmód felelősségteljes bevezetése érdekében. A vállalat több mint 100 külső tesztelővel dolgozott együtt, akik 45 nyelven végeztek tesztelést, és rendszereket építettek ki az előre beállított hangoktól eltérő kimenetek blokkolására. Szűrőket vezettek be az erőszakos vagy szerzői jog által védett tartalom generálásának megelőzésére, így címezve a potenciális visszaélésekkel kapcsolatos aggodalmakat. Az OpenAI szándékosan óvatosan halad előre, szorosan figyelve a felhasználást és fokozatosan bővítve a hozzáférést. Miközben néhány Plus előfizető már meghívót kapott, a vállalat célja, hogy a funkciót minden Plus felhasználó számára elérhetővé tegye 2024 őszének végéig, időt hagyva a technológia finomítására és az esetleges problémák kezelésére.

Háttér és jövőbeli fejlesztések

A Fejlett Hangmód fejlesztése vitákat váltott ki, amikor a 2024. májusi kezdeti demo során egy Scarlett Johansson színésznőre hasonlító hangot mutattak be, aki korábban elutasította az ajánlatot, hogy a ChatGPT hangja legyen. Ez jogi lépésekhez vezetett, és az "Sky" hang eltávolítását eredményezte. Előretekintve az OpenAI további funkciókat tervez bevezetni, mint például videó és képernyőmegosztási lehetőségek, amelyeket a tavaszi frissítés során mutattak be, de a jelenlegi alfa kiadásban még nem szerepelnek. A vállalat egy biztonsági jelentés elkészítésén is dolgozik, amely várhatóan augusztus elején jelenik meg, részletezve a külső tesztelőkkel végzett kiterjedt teszteléseket több nyelven.

Ajánló

Tesla Optimus

Bíró Gábor • 2024. július 08.

Elon Musk és a Tesla ismételten egy új területre léptek be, ezúttal a humanoid robotok világába. A Tesla Optimus projekt célja, hogy forradalmasítsa a robotikát, és olyan robotokat hozzon létre, amelyek képesek számos feladatot elvégezni az iparban és azon túl is. Bár a projekt kapcsán vegyes vélemények születtek, egy dolog biztos: az Optimus robotok már most felkeltették a világ figyelmét, és komoly lehetőségeket rejtenek magukban.

Google Gemini a multimodális AI

Bíró Gábor • 2024. január 24.

A Gemini a Google legfejlettebb és legflexibilisebb AI-modellje, amely az adatközpontoktól a mobil eszközökig hatékonyan képes működni. Szövegek, programkódok, képek és videók feldolgozására alkalmas, és a jövőben jelentősen javíthatja a fejlesztők és vállalati ügyfelek mesterséges intelligencia alkalmazásának integrálását és skálázását.

Hogyan formálja át a Mesterséges Intelligencia a mezőgazdaságot?

Bíró Gábor • 2024. augusztus 05.

A mezőgazdaság a technológiai forradalom küszöbén áll, és ennek az átalakulásnak az élvonalában a mesterséges intelligencia (MI) áll. Az MI forradalmasítja az agrárszektort, új megoldásokat kínálva a termelékenység növelésére, az erőforrások optimalizálására, valamint olyan kihívások kezelésére, mint a munkaerőhiány és a fenntarthatóság. A gépi tanulás, a robotika és az adatelemzés integrációjával az MI nem csupán a mezőgazdasági gyakorlatok hatékonyságát javítja, hanem fenntarthatóbb és jövedelmezőbb jövőt is biztosít az élelmiszertermelés számára.

Mostantól mindenki számára elérhetők a Waymo robotaxik

Bíró Gábor • 2024. június 25.

A Waymo robotaxik mostantól minden felhasználó számára elérhetők San Franciscóban, kibővítve a korábban korlátozott számú utas számára elérhető önvezető taxi szolgáltatást.

A marshmallow kísérlet újraértelmezése

Bíró Gábor • 2024. szeptember 07.

A pszichológia történetének egyik leghíresebb és legbefolyásosabb kísérlete kétségtelenül a Stanford marshmallow kísérlet (Stanford marshmallow experiment). Ez a vizsgálat, amelyet Walter Mischel és kollégái végeztek az 1960-as években, évtizedekig meghatározta, hogyan gondolkodunk az önuralomról és annak hosszú távú hatásairól. De vajon tényleg olyan egyszerű a helyzet, mint ahogy korábban gondoltuk?

Melyik MI modell teljesít a legjobban egy 5. osztályos matematika feladatban?

Bíró Gábor • 2025. január 13.

Az MI modellek fejlődése az elmúlt években lenyűgöző ütemben haladt előre, de vajon hogyan teljesítenek ezek a rendszerek egy 5. osztályos matematika versenyfeladat megoldásában? Ebben a tesztben nemcsak a modellek problémamegoldó képességét vizsgálom, hanem betekintést nyújtok abba is, hogy mennyire hatékonyan tudnak optimalizációs problémákat kezelni.

Nem jegyezhet be szabadalmat az MI

Bíró Gábor • 2024. február 13.

Az AI nem lehet "feltaláló" az USA-ban szabadalmi bejelentéshez, csak emberek - döntött a Szövetségi Körzeti Bíróság.