Czy to koniec epoki gigantycznych modeli sztucznej inteligencji?
2024-12-07
Autor: Katarzyna
Nacisk na dane treningowe w sztucznej inteligencji staje się kluczowym tematem dyskusji w branży. Badania pokazują, że transformatory, które napędzają duże modele językowe, wykazują bezpośredni związek między ilością danych a ich wydajnością. Alex Voica, konsultant z Mohamed bin Zayed University of Artificial Intelligence, podkreślił, że "modele transformatorowe skalują się liniowo w miarę zwiększania ilości danych i obliczeń".
Jednakże rośnie obawa, że nadmierne poleganie na tym podejściu może prowadzić do ślepych uliczek i ograniczyć rozwój technologii. W trakcie konferencji Cerebral Valley, Alexandr Wang, CEO Scale AI, zauważył, że wysokość budżetów na sztuczną inteligencję jest ściśle związana z przekonaniem, że zasada skalowania wciąż obowiązuje, co obecnie stanowi największą niewiadomą w branży.
Aidan Gomez, CEO Cohere, krytycznie ocenił powszechne podejście do tworzenia modeli. "Choć większa moc obliczeniowa i wielkość modelu mogą przynieść pewne korzyści, to jednocześnie jest to najgłupszy sposób na poprawę ich wydajności" - stwierdził w podcaście 20VC. Zamiast tego, Gomez postuluje rozwój mniejszych, bardziej efektywnych modeli, które zdobywają coraz większe uznanie dzięki swojej opłacalności.
Innym istotnym głosem w dyskusji jest Richard Socher, były dyrektor wykonawczy Salesforce, który zwrócił uwagę, że duże modele językowe są projektowane głównie do przewidywania kolejnych elementów na podstawie wcześniejszych danych. Proponuje, aby te modele uczyły się generowania odpowiedzi na podstawie konwersji pytań na kod komputerowy, co miałoby na celu poprawę ich wydajności i zmniejszenie tzw. halucynacji, które mogą prowadzić do błędnych odpowiedzi.
Mimo sceptycyzmu niektórzy liderzy w branży, jak Kevin Scott, CTO Microsoftu, utrzymują, że nie widzimy oznak wygasania efektywności skalowania, co sugeruje, że przyszłość dużych modeli wciąż jest perspektywiczna.
W międzyczasie, OpenAI wprowadza nowe rozwiązania, takie jak model o1, który koncentruje się na poprawie umiejętności radzenia sobie z pytaniami ilościowymi. Nowe podejście do modelowania polega na intensyfikacji wnioskowania przed wydaniem odpowiedzi, co sprawia, że o1 staje się bardziej przemyślanym narzędziem niż wcześniej dostępne modele.
Z perspektywy użytkowników, o1 i ChatGPT różnią się w podejściu do interakcji. ChatGPT funguje jak "superwiedzący przyjaciel", natomiast o1 przypomina bardziej uważnego słuchacza, który daję przemyślane odpowiedzi. Taki sposób działania ma swoje zalety, ale także wiąże się z koniecznością dysponowania większymi zasobami obliczeniowymi, co podnosi koszty i czas odpowiedzi.
Podsumowując, branża sztucznej inteligencji stoi na rozdrożu, przekraczając granice tradycyjnych modeli. W miarę jak technologia się rozwija, pojawiają się pytania o przyszłość modeli i ich zdolność do realizacji ambitnych celów, jak osiągnięcie sztucznej inteligencji ogólnej. Czy to współczesne podejście do AI ma szansę na przetrwanie w dynamicznie zmieniającym się świecie technologii?