Mistral multimodális modell: Pixtral 12B

Bíró Gábor 2024. szeptember 09.
3 perc olvasási idő

A francia startup, a Mistral AI, belépett a multimodális mesterséges intelligencia területére a Pixtral 12B kiadásával. Ez a 12 milliárd paraméteres modell képes egyszerre kezelni szöveget és képeket, ami lehetővé teszi, hogy versenyre keljen az olyan tech óriások hasonló modelljeivel, mint az OpenAI és az Anthropic.

Mistral multimodális modell: Pixtral 12B
Forrás:

Pixtral 12B jellemzői

A Pixtral 12B a Mistral korábbi Nemo 12B szöveges modelljére épül, és egy 400 millió paraméteres vizuális adaptert tartalmaz, amely lehetővé teszi képek feldolgozását a szöveg mellett. A modell képes 1024x1024 pixel felbontású képeket feldolgozni, amelyeket 16x16 pixel nagyságú részekre bont. A 2D Rotary Position Embeddings (RoPE) technológia segíti a térbeli információk pontosabb megértését. A modell 131,072 tokenes szókincset és speciális képfeldolgozó tokeneket is tartalmaz, így képes képfeliratozásra, objektumszámolásra, és vizuális input alapú kérdések megválaszolására.

Licencelés és elérhetőség

A Pixtral 12B az Apache 2.0 licenc alatt került kiadásra, ami azt jelenti, hogy szabadon letölthető és használható, akár kereskedelmi célokra is. A modellt GitHubon és Hugging Face-en keresztül érhetik el a fejlesztők, akik testre szabhatják és tovább finomíthatják azt különféle alkalmazásokhoz. Mérete körülbelül 24GB, és várhatóan hamarosan elérhető lesz a Mistral saját platformjain, a Le Chat-en és a Le Platforme-en is.

Összehasonlítás más modellekkel

A Pixtral 12B egy erősen versenyképes területen debütál, ahol olyan multimodális modellek vannak jelen, mint az OpenAI GPT-4o és az Anthropic Claude. A Mistral modelljének egyik legnagyobb előnye nyílt forráskódú természete, ami nagyobb hozzáférést biztosít a kutatóknak és fejlesztőknek a zártabb, kereskedelmi hozzáférésű modellekkel szemben. Míg teljesítményét még széles körben értékelni kell, mérete és rugalmassága miatt vonzó alternatíva lehet az AI közösség számára.

Modell Cég Kulcsfontosságú jellemzők Elérhetőség
Pixtral 12B Mistral AI 12B paraméter, szöveg és kép feldolgozása Szabadon elérhető Apache 2.0 licenc alatt
GPT-4o OpenAI Nagy léptékű multimodális modell, fejlett érvelés Kereskedelmi API hozzáférés
Claude Anthropic Szöveg és kép megértése, etikus AI fókusz Kereskedelmi API hozzáférés
Gemini Google Multimodális képességek, integrálva a Google szolgáltatásokba Korlátozott elérhetőség Google termékeken keresztül

Jövőbeni kilátások

A Mistral AI 645 millió dolláros finanszírozási kör után, amely 6 milliárd dollárra értékelte a céget, komoly növekedés előtt áll. A Pixtral 12B kiadása összhangban van a cég stratégiájával, amely nyílt modellek ingyenes kínálatára épül, miközben a menedzselt verziók és tanácsadói szolgáltatások révén generál bevételt. Ahogy a Mistral tovább bővíti portfólióját, a Pixtral 12B várhatóan integrálódik a vállalat chatbot és API platformjaiba, ami lehetővé teszi a felhasználók számára a modell képességeinek további tesztelését és felfedezését.

Bíró Gábor 2024. szeptember 09.
© 2025 Birow.com