Technologia

Najnowsza sztuczna inteligencja Microsoftu jest zbyt niebezpieczna. "Nie udostępnimy jej"

2024-07-11

Autor: Tomasz

Model językowy o nazwie Vall-E (nie mylić z filmem animowanym Wall-E) to rewolucyjny system oparty na sztucznej inteligencji, który rozwija Microsoft. System ten koncentruje się na rozpoznawaniu naturalnego języka i ludzkiej mowy. Najnowsza wersja Vall-E osiąga niespotykany wcześniej poziom "naturalności" i podobieństwa mowy do oryginalnego źródła – mówcy, na którym oparta jest technologia.

To prowadzi do zaawansowanych wyzwań. Najnowsza wersja Vall-E przewyższa poprzednie osiągnięcia firmy, do tego stopnia, że praktycznie nie da się jej odróżnić od ludzkiej mowy. Microsoft, zdając sobie sprawę z możliwych nadużyć tak zaawansowanej technologii, podjął odpowiedzialną decyzję o nieudostępnianiu jej publicznie.

Model językowy do klonowania ludzkiej mowy

Nowy model AI Microsoftu zawiera dwa kluczowe usprawnienia: modelowanie grupowe kodów i lepsze próbkowanie z uwzględnieniem powtórzeń. Modelowanie grupowe kodów pozwala na lepsze organizowanie próbek dźwiękowych, zwiększając szybkość wnioskowania. Lepsze próbkowanie pozwala AI uczyć się na nowych materiałach, co stabilizuje pracę całego systemu.

Microsoft przeprowadził testy Vall-E 2.0 za pomocą narzędzi takich jak LibriSpeech i VCTK Corpus. LibriSpeech to zbiór danych z tysięcy godzin angielskich nagrań mowy z transkrypcjami, pochodzących głównie z publicznie dostępnych książek z Projektu Gutenberga. VCTK Corpus to baza danych z nagraniami wielu mówców z różnych regionów, co zapewnia różnorodność akcentów i głosów.

Dzięki dużemu sukcesowi testów, Microsoft informuje, że narzędzie AI osiągnęło poziom ludzki – w wielu przypadkach było bardziej naturalne i podobne do ludzkiej mowy niż same próbki źródłowe.

Rzeczywista naturalność mowy

Aby udowodnić skuteczność Vall-E, Microsoft udostępnił próbki systemu AI na stronie projektu. Nagrania brzmią niezwykle realistycznie i są nie do odróżnienia od mowy ludzkiej. Sztuczna inteligencja potrafi uchwycić subtelności, takie jak kładzenie nacisku na właściwe słowa, co jest kluczowe dla naturalnej mowy.

Najnowsza wersja Vall-E pozostanie wyłącznie projektem badawczym. Microsoft nie planuje włączenia technologii do produktów konsumenckich i nie udostępni jej publicznie z uwagi na potencjalne zagrożenia. Tak zaawansowana technologia mogłaby zostać użyta do tworzenia fałszywych komunikatów i wpaść w ręce cyberprzestępców.

Możliwości i wyzwania przed Microsoftem

Nie jest jeszcze jasne, w jaki sposób Microsoft może wykorzystać tę technologię na własne korzyści. Przykładowo, firma mogłaby oferować rozwiązania dla branży filmowej, takie jak dubbing głosów nieżyjących aktorów lub tworzenie treści edukacyjnych. To rodzi jednak kwestie prawne i etyczne, które muszą być rozważone.

Na ten moment Microsoft zapewnia, że system jest objęty silnymi zabezpieczeniami, aby zapobiec jego niewłaściwemu wykorzystaniu. Tak zaawansowana technologia wymaga niezwykle rygorystycznej kontroli.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska