Tudomány

Technológiai forradalom: A Google mesterséges intelligenciái képekkel és videókkal varázsolnak - de még mindig vannak kihívások!

2024-12-05

Szerző: Noémi

A Google nemrégiben elérhetővé tette két új generatív mesterséges intelligencia modelljét, amelyek lehetővé teszik a felhasználók számára, hogy szöveges utasítások és képek segítségével videókat, valamint képeket generáljanak. A Veo és az Imagen 3 jelenleg csak egy szűk felhasználói réteg számára elérhető, de a közeljövőben várhatóan szélesebb körben is hozzáférhetővé válik.

A lépéssel a Google célja, hogy megelőzze az OpenAI-t, amely szintén fejleszt hasonló modelleket. Az OpenAI Sora modellje egyelőre csak kiválasztott művészek és tudósok számára elérhető, de a cég ígérete szerint a jövőben ez is meg fog változni.

A Google által fejlesztett Veo és Imagen 3 az új Google Cloud Vertex AI platformon érhető el, amely lehetőséget biztosít a szakemberek számára, hogy teszteljék és tanítsák nagy nyelvi modelljeiket, valamint testreszabják azokat különböző szolgáltatásokra.

A felhasználók Full HD minőségű videókat készíthetnek a Veo segítségével, amelyek a Google szerint koherensek és szakszerűek, akár egy perc hosszúságban is. A rendszer képes szöveges parancsokkal és képekkel is dolgozni, lehetővé téve a hagyományos módszerekkel készített, vagy mesterséges intelligenciával generált alapfelvételek felhasználását.

Bár a rendszer izgalmas lehetőségeket kínál, a generált videók még nem tökéletesek. Például egy példa alapján, amelyben sütött mályvacukor látható, a képi részletek nem felelnek meg a valóságnak: a sütés során a mályvacukor nem változik meg, ahogyan azt elvárnánk.

Az Imagen 3 esetében a Google azt állítja, hogy a modell pontosabb és valósághűbb képeket generál, mint valaha. Az Engadget megjegyzése szerint itt is tapasztalhatók még problémák a pontos értelmezéssel. Például a modell által készített képen a vaku nem világítja meg a személyeket, mint ahogy azt elvárnánk, ezért hiányzik a várt hatás.

A Google célja, hogy minél több ügyfél használja a mesterséges intelligencia termékeit. A cég saját felmérései alapján állítja, hogy a mesterséges intelligenciát használó vállalatok 86%-a bevételnövekedést tapasztalt. Ugyanakkor az Apple piackutatása szerint 2024-re az MI-projektekből származó bevétel 4,6%-kal csökkent 2023-hoz képest.

A technológiai világ folyamatosan fejlődik, és a mesterséges intelligencia alkalmazásai egyre elterjedtebbek lesznek; de vajon elérjük-e azt a szintet, ahol a gépek által készített képek és videók teljesen hibátlanok lesznek? Szakértők arra figyelmeztetnek, hogy sok munka és fejlesztés áll még előttünk, de a potenciál hatalmas!