|
|
|
|
RAZKRIT ŠKANDAL: Kako je Meta poskušala preslepiti svet z umetno inteligenco Llama 4 ...
|
|
|
|
Četrtek, 10. April, 2025 ob 14:30:28 |
 |
Meta manipulacija
Tehnološki velikan Meta se je znašel v središču svetovne polemike, potem ko so analitiki odkrili nenavadne rezultate njegovega najnovejšega modela umetne inteligence. Medtem ko so Llamo 4 javno predstavljali kot revolucionarno tehnologijo, se zdi, da se je v zakulisju odvijala čisto druga zgodba – zgodba o manipulaciji podatkov in olepševanju rezultatov.
V svetu umetne inteligence velja, da ko model na standardiziranih testih doseže izjemne rezultate, to običajno velja za dober znak njegovega napredka in kakovosti. Ko pa ti rezultati postanejo tako dobri, da se zdijo skoraj popolni, se strokovnjaki začnejo spraševati. Prav to se je zgodilo z Metinim najnovejšim modelom Llama 4, ki je na priljubljenem testu LLM Arena dosegel neverjetno visoke rezultate in se uvrstil na drugo mesto takoj za Googlovim eksperimentalnim modelom Gemini 2.5 Pro.
Resnica je bila odkrita skoraj po naključju, ko je uporabnik družbenega omrežja X opazil drobno opombo v Metinem uradnem poročilu. Ta navidezno nepomembna opomba je razkrila, da je bil "test LLM Arena izveden z uporabo Llama 4 Maverick, optimiziranega za pogovor" - dejansko priznanje, da model, preizkušen v LLM Areni, ni enak, kot ga bodo prejeli uporabniki. Z drugimi besedami, Meta je ustvarila posebno različico svojega modela, ki je bila zasnovana za visoko oceno na tem specifičnem testu, namesto da bi predstavljala dejanske zmogljivosti svojega izdelka.
Težava postane še bolj jasna, ko razumemo naravo preizkusa LLM Arena. Za razliko od tradicionalnih testov umetne inteligence, ki merijo objektivno sposobnost modela, da pravilno odgovori na vprašanja, LLM Arena temelji na subjektivnih ocenah ljudi. Uporabniki dobijo vprašanje in dva odgovora iz različnih modelov AI, nato pa izberejo tistega, ki jim je bolj všeč. Ta vrsta testiranja ne meri nujno natančnosti ali sposobnosti posploševanja znanja, temveč to, koliko je ljudem všeč odgovor.
Meta je to izkoristila in optimizirala svojo različico Llame 4 za pogovor z uporabo več čustvenih simbolov, navdušenih stavkov in prijaznega tona, ki je bolj privlačen za pregledovalce. To je strategija, ki jo Nathan Lambert, ugledni strokovnjak za umetno inteligenco, imenuje »algoritemsko polepšanje« – model, ki ni zasnovan zato, da bi bolje razumel svet, temveč zato, da bi bolje zadovoljil ljudi, ki ga ocenjujejo.
Težo tej polemiki doda dejstvo, da je Meta nenadoma pohitela z lansiranjem modela Llama 4. Glede na interne dokumente, ki jih je razkril Lambert, je bila izstrelitev načrtovana za 7. april, a je bila nenadoma prestavljena na soboto, 5. aprila, kar je nenavadno, saj velika podjetja največje objave običajno shranijo za delavnike, da dosežejo največjo medijsko pokritost.
Neodvisno testiranje je kmalu pokazalo pravo kakovost modela Llama 4. V testu kodiranja je Llama 4 Maverick daleč zaostajal za Gemini 2.5 Pro, Claude 3.7 in drugimi vodilnimi modeli. Še pomembneje pa je, da se je posebej poudarjena sposobnost pomnjenja konteksta 100.000 žetonov tudi v resnici izkazala za bistveno slabšo. Medtem ko si je Gemini 2.5 Pro lahko priklical 90 % informacij iz konteksta 120.000 žetonov, si je Llama 4 Maverick zapomnil le 28 %, model Scout pa le 15 %.
Ahmad Al-Dahle, odgovoren za generativno umetno inteligenco pri Meti, je poskušal ublažiti polemiko z besedami, da je "neenakomerna kakovost" posledica hitrega lansiranja modela in potrebe po stabilizaciji implementacije. Očitke, da so bili modeli urjeni na testnih podatkih, je ostro zavrnil, ni pa neposredno odgovoril na vprašanje, zakaj so za LLM Areno uporabili posebno različico modela.
Ta situacija meče senco na Metin pristop k razvoju umetne inteligence in postavlja resna vprašanja o etiki tehnoloških velikanov. Medtem ko podjetja, kot je Meta, trdijo, da je njihov cilj razviti boljše in uporabnejše modele umetne inteligence, takšni incidenti razkrivajo, da je marketinško dojemanje včasih pomembnejše od dejanskih zmogljivosti. Za uporabnike in industrijo kot celoto je to pomemben opomnik, naj kritično pristopijo do bombastičnih objav in se zanesejo na neodvisno testiranje, preden sprejmejo zaključke o kakovosti modelov AI.
|
|
|
Komentarji 0
Trenutno nema komentara na ovu vijest ...
OPOMBA: Newsexchange stran ne prevzema nobene odgovornosti glede komentatorjev in vsebine ki jo vpisujejo. V skrajnem primeru se komentarji brišejo ali pa se izklopi možnost komentiranja ...
|
|
|
|
Galerija:
|
|
|
|
|
|
|
|
|
|
|
|
|
| | | | | |
|
|