Sora: Az OpenAI új AI modellje videók generálásához szövegből

Gábor Bíró • 2024. február 16.

2 perc olvasási idő

Az OpenAI bemutatta a Sorát, egy új AI modellt, amely lehetővé teszi a felhasználók számára, hogy szöveges utasítások alapján videókat hozzanak létre, ami jelentős előrelépést jelent az AI-vezérelt tartalomgenerálásban.

Sora: Az OpenAI új AI modellje videók generálásához szövegből

Forrás: OpenAI

Az OpenAI bemutatta a Sorát, egy újszerű generatív AI modellt, amely képes videókat létrehozni szöveges utasításokból. A Sora diffúziós modellt és transzformer architektúrát használ, hasonlóan a GPT modellek mögött álló technológiához, hogy valósághű és fantáziadús jeleneteket generáljon. Képes kezelni komplex helyzeteket több szereplővel, specifikus mozgástípusokkal, valamint a témák és hátterek pontos részleteivel. A modell állóképek animálására, meglévő videók kiterjesztésére vagy hiányzó képkockák kitöltésére is alkalmas, akár egyperces videókat is készítve különféle stílusokban, beleértve a fotorealisztikus, animált vagy fekete-fehér stílust.

Lenyűgöző képességei ellenére a Sorának jelenleg vannak korlátai. Nehézségekbe ütközik a komplex jelenetek fizikájának pontos szimulálása, az ok-okozati összefüggések megértése és a pontos térbeli részletek időbeli fenntartása terén. Például egy szereplő beleharaphat egy sütibe, de a sütin utána nem feltétlenül látszik harapásnyom, vagy a modell összekeverheti a bal és jobb irányt egy jeleneten belül.

Az OpenAI óvatosan jár el, mielőtt széles körben elérhetővé tenné a Sorát. Aktívan együttműködnek red teamerekkel (szakértőkkel, akik rendszereket tesztelnek hibák szempontjából) a potenciális károk és kockázatok felmérése érdekében, mint például a félretájékoztatás, gyűlöletkeltő tartalom vagy elfogultság generálása. Továbbá detektáló osztályozókat fejlesztenek a Sora által generált félrevezető tartalom azonosítására, és a vállalat tervezi a C2PA metaadatok jövőbeni beépítését a Sora által generált videók eredetének biztosítása érdekében.

Jelenleg a Sora korlátozott számú red teamer és válogatott vizuális művész, tervező és filmkészítő számára érhető el, hogy visszajelzést gyűjtsenek arról, hogyan lehet a modellt a leginkább hasznossá tenni a kreatív szakemberek számára. Az OpenAI globálisan egyeztet politikai döntéshozókkal, oktatókkal és művészekkel, hogy megértsék az aggályokat és azonosítsák a technológia pozitív felhasználási lehetőségeit. Hangsúlyozzák, hogy a valós felhasználásból való tanulás kulcsfontosságú a folyamatosan biztonságosabb AI rendszerek létrehozásához és kiadásához.

A Sora bemutatása követi az OpenAI gyakorlatát a fejlett generatív AI eszközök gyors fejlesztésében, beleértve a ChatGPT-t szövegekhez és a DALL-E 3-at képekhez. A Sora jelentős előrelépést jelent az AI videótartalom-generálási képességeiben, tovább gyorsítva a versenyt és az innovációt ezen a gyorsan fejlődő területen.

Ajánló

Stargate az eddigi legnagyobb AI -ra optimalizált szuperszámítógép

Gábor Bíró • 2024. április 2.

A Microsoft és az OpenAI a Busines Insider információ szerint egy merész projekt keretében egy "Stargate" elnevezésű szuperszámítógépet terveznek létrehozni, melynek becsült költsége eléri a 100 milliárd dollárt. Az ambiciózus terv egy öt fázisból álló stratégia része, ahol a Stargate az ötödik szakasz, 2028-ra várható indítással.

Agyunk 86 milliárd neuronja: Felülmúlhatják az LLM-ek?

Gábor Bíró • 2024. december 22.

Az emberi agy, ez a komplex biológiai rendszer, évmilliók evolúciója során tökéletesedett, míg a nagyméretű nyelvi modellek (LLM-ek) a mesterséges intelligencia legújabb vívmányai. Bár az LLM-ek lenyűgöző képességeket mutatnak a nyelvfeldolgozás terén, vajon felülmúlhatják-e valaha az emberi agy komplexitását és képességeit?

Grok-1 LLM Részben Nyílt Forráskódúvá Válik

Gábor Bíró • 2024. március 18.

2024 márciusában az xAI bejelentette, hogy nyílt forráskódúvá teszi Grok-1 nagyméretű nyelvi modelljét, összhangban Elon Musk azon kijelentett szándékával, hogy a fejlett MI technológiákat széles körben hozzáférhetővé tegye, és kihívja az olyan versenytársak zárt megközelítését, mint az OpenAI.

A Softbank szeretne meghatározóvá válni az AI áramkörök gyártásában

Gábor Bíró • 2024. február 19.

A mesterséges intelligencia AI chip piacának exponenciális növekedése új kihívásokat és lehetőségeket teremt a befektetők és technológiai vállalatok számára. A SoftBank, mint befektetési óriás, stratégiai átrendeződésen megy keresztül, aminek középpontjában az AI áll, és ahhoz kapcsolódva az Arm chip tervező cég által kínált potenciál kiaknázása.

Mesterséges intelligencia a bevásárlókocsiban: Kroger dinamikus árazási modellje és annak következményei

Gábor Bíró • 2024. augusztus 14.

A Kroger legújabb mesterséges intelligencia alapú dinamikus árazási rendszere vegyes reakciókat váltott ki, különösen az adatvédelem és az egyenlőtlenség terén felmerülő aggodalmak miatt. Hogyan hat ez a vásárlói bizalomra, és milyen etikai kérdéseket vet fel az új technológia?

Őslevest főzött a Google

Gábor Bíró • 2024. július 27.

A Google kutatói szimulálták az önreplikáló digitális életformák megjelenését egy olyan kísérletben, amely betekintést nyújthat abba, hogyan kezdődött a biológiai élet a Földön. A New Scientist szerint a tanulmány során létrehoztak egy virtuális "őslevest", ahol véletlenszerű adatok millió generáción keresztül kölcsönhatásba léptek, és spontán módon önreplikáló programok jöttek létre.

A hátborzongató völgy: Amikor a robotok túl emberivé válnak

Gábor Bíró • 2025. március 11.

Láttál már olyan robotot, animációs figurát, vagy éppen videojáték-karaktert, ami annyira élethű volt, hogy már szinte zavaróan hatott? Nem tudtad eldönteni, hogy emberi-e vagy sem, és ez a bizonytalanság furcsa, nyugtalanító érzést keltett benned? Ha igen, akkor nagy valószínűséggel megtapasztaltad az "uncanny valley", azaz a "hátborzongató völgy" jelenségét. De mi is ez pontosan, és miért vált ki belőlünk ilyen erős reakciót?