Opnieuw laat DeepSeek experts twijfelen: kan AI veel efficiënter?

vrijdag, 14 november 2025 (14:55) - Techzine

In dit artikel:

Het Chinese team DeepSeek presenteerde vorige maand DeepSeek-OCR, een nieuw OCR-model dat vooral opvalt door een onconventionele aanpak: tekst wordt eerst omgezet in visuele representaties (pixels) die veel efficiënter in het korte-termijngeheugen — het context window — van grote taalmodellen (LLM’s) passen. Die methode belooft een aanzienlijke compressiewinst, waardoor één model veel meer informatie kan verwerken zonder evenredig veel rekencapaciteit.

Technisch werkt DeepSeek-OCR met een relatief compacte visuele encoder van 380 miljoen parameters die documenten naar sterk gecomprimeerde visuele features vertaalt. Die worden gevoed aan een decoder van 3 miljard parameters waarvan in de praktijk slechts ongeveer 570 miljoen worden geactiveerd. Met deze tienvoudige compressie bereikt het model ongeveer 97 procent accuratesse bij OCR-taken. Het idee is dat pixels als compressiemiddel betere dichtheid en bruikbaarheid bieden dan lange tekststrings, waardoor je niet tienduizenden woorden maar tientallen pagina’s tegelijk als context kunt meegeven.

Experts reageerden positief en zagen in DeepSeek-OCR vooral een overtuigend proof-of-concept. Andrej Karpathy, medeoprichter van OpenAI, suggereerde dat het wellicht verstandiger is om inputs voor LLM’s standaard als afbeeldingen te behandelen, omdat visuele compressie veel efficiëntie kan opleveren. Tegelijk benadrukt DeepSeek zelf dat het model niet per se het nieuwe state-of-the-art is, maar wel een aanwijzing geeft dat alternatieve compressiestrategieën grote invloed kunnen hebben op kosten, latency en schaalbaarheid van AI-workloads.

DeepSeek bouwt voort op eerdere opschudding rond hun R1-model eerder dit jaar: een verrassend capabel open-source LLM van 671 miljard parameters, dat opvallend goedkoop zou zijn getraind en dat geruchtmakend deels getraind zou zijn op outputs van commerciële modellen. Waar R1 marktschok veroorzaakte, is DeepSeek-OCR vooral technisch interessant omdat de onderliggende onderzoeksresultaten openbaar zijn. Dat staat in contrast met sommige grote bedrijven (zoals Google) die selectiever met modelpublicaties omgaan; daardoor kunnen andere ontwikkelaars en onderzoekers makkelijker voortbouwen op DeepSeek’s ideeën.

Belang en onzekerheden: de bevindingen van DeepSeek kunnen tweeledige impact hebben — ze kunnen LLM’s aanzienlijk efficiënter maken voor prompts en tegelijkertijd veel meer bedrijfs- of compliance-data hanteerbaar maken, wat diepgaandere en nauwkeurigere outputs mogelijk maakt. Tegelijk blijven vragen open: gebruiken Big Tech-spelers vergelijkbare compressietechnieken al, moet álle input voortaan als afbeelding worden opgeslagen, en hoe generaliseerbaar is de aanpak buiten OCR-taken? DeepSeek-OCR zelf is dus geen directe revolutie in AI-toepassingen, maar wel een prikkelende aanwijzing dat visuele compressie een sleutel kan zijn in het terugdringen van rekenkosten en het vergroten van contextcapaciteit.