Home Bots & BusinessGartner: onderliggende kosten voor AI met zeer grote modellen gaan fors dalen

Gartner: onderliggende kosten voor AI met zeer grote modellen gaan fors dalen

door Pieter Werner

De kosten om inferentie uit te voeren op een large language model met 1 biljoen parameters kunnen tegen 2030 ruim 90 procent lager liggen dan in 2025. Dat verwacht marktonderzoeker Gartner. Volgens het bureau worden grote taalmodellen daarmee veel goedkoper in gebruik dan de eerste vergelijkbare modellen die rond 2022 verschenen.

Gartner schrijft de verwachte kostendaling toe aan meerdere ontwikkelingen tegelijk. Het gaat onder meer om efficiëntere chips, betere infrastructuur, slimmere modelontwerpen, hogere benutting van hardware, meer inzet van gespecialiseerde inference-chips en het gebruik van edge-apparaten voor specifieke toepassingen.

Volgens Gartner kunnen large language models in 2030 daardoor tot honderd keer kostenefficiënter zijn dan de eerste modellen van vergelijkbare omvang die in 2022 werden ontwikkeld.

Voor de analyse werkt Gartner met twee scenario’s. In het zogeheten frontier-scenario wordt uitgegaan van de nieuwste en krachtigste chips. In het legacy blend-scenario rekent het bureau met een bredere mix van beschikbare halfgeleiders. In dat tweede scenario liggen de kosten duidelijk hoger, omdat de beschikbare rekenkracht lager is.

Toch betekent een lagere prijs per token volgens Gartner niet automatisch dat de meest geavanceerde vormen van generatieve AI breed toegankelijk worden. Bedrijven zullen de dalende kosten bovendien niet volledig terugzien in wat zij uiteindelijk betalen. Daar komt bij dat krachtigere AI-toepassingen juist veel meer tokens nodig hebben.

Vooral agentic AI speelt daarin een rol. Zulke modellen gebruiken volgens Gartner per taak vijf tot dertig keer meer tokens dan een standaard chatbot. Ze kunnen ook meer taken uitvoeren binnen één workflow. Daardoor kan de totale vraag naar rekenkracht verder oplopen, zelfs als de prijs per token daalt.

“Chief product officers should not confuse the deflation of commodity tokens with the democratisation of frontier reasoning,” zegt Will Sommer, senior director analyst bij Gartner. Volgens hem dreigen bedrijven tegen grenzen aan te lopen als zij vandaag goedkope tokens gebruiken om inefficiënte architecturen te verhullen, terwijl zij later willen opschalen naar agentic AI.

Gartner verwacht daarom dat waarde vooral terechtkomt bij platforms die werk slim kunnen verdelen over meerdere typen modellen. Veelvoorkomende taken kunnen volgens het bureau beter worden afgehandeld door kleinere of domeinspecifieke taalmodellen, die goedkoper zijn en in gespecialiseerde processen vaak beter presteren. De duurste en zwaarste modellen zouden dan alleen ingezet moeten worden voor complexe taken waar de meerwaarde ook echt groot is.

Voor bedrijven die experimenteren met generatieve AI is de boodschap daarmee dubbel. De onderliggende technologie wordt goedkoper, maar dat betekent niet vanzelf dat geavanceerde AI op grote schaal ook eenvoudig of goedkoop inzetbaar wordt. Juist bij agentic systemen blijft de keuze van model, architectuur en infrastructuur bepalend voor de uiteindelijke kosten.

Misschien vind je deze berichten ook interessant