Miért robbant be a lokális AI 2026-ban?
Két év alatt megfordult a piac. 2024-ben még szinte minden vállalati AI projekt OpenAI vagy Anthropic API-ra épült. 2026 áprilisában a Premai felmérése szerint a termelésben AI-t használó cégek 68%-a hibrid modellben dolgozik — kombinálja a felhő API-kat egy lokálisan futtatott, nyílt súlyú modellel.
68%
Termelésben AI-t használó cégek aránya, akik hibrid modellben dolgoznak
Premai 2026 Q1 elemzés
82,5
Qwen3.5-9B MMLU-Pro pontszáma — megelőzi a GPT-OSS-120B-t
Qwen Team Technical Report
35M €
EU AI Act maximális bírság — sokaknak az on-prem a legolcsóbb compliance
EU 2024/1689 99. cikk
Három dolog változott meg radikálisan:
- Az open-source modellek utolérték a frontiert. A Qwen3.5-9B benchmarkjai megelőzik az OpenAI GPT-OSS-120B-jét MMLU-Pro-n (82,5 vs 80,8) — egy nagyságrenddel kisebb modell.
- Az EU AI Act 2026. augusztus 2-án élesedik. A magas kockázatú rendszerek esetében bírság 35 millió euróig vagy a globális árbevétel 7%-áig mehet — és sok cég számára a lokális futtatás a legegyszerűbb compliance-stratégia.
- Az NVIDIA piacra dobta a DGX Spark-ot.Először létezik 4–5000 dolláros áron asztali „AI szuperszámítógép”, ami 70B paraméteres modellt képes finomhangolni helyben.
Ez a cikk gyakorlati útmutató: pontos benchmarkok, tényleges árak, és mikor éri meg lokálisra váltani. Ha a téma jogi oldala érdekel, az EU AI Act megfelelési oldalunkat érdemes elolvasni.
Mi az a „lokális AI futtatás”?
Lokális AI alatt azt értjük, amikor a nyelvi modell a saját infrastruktúrádon fut — nem küldesz adatot OpenAI vagy Anthropic szerverére. Három fő topológia létezik:
| Topológia | Hol fut | Tipikus eset |
|---|---|---|
| On-premise | Saját szerverteremben vagy irodában | Egészségügy, jog, banki és biztosítási adatok |
| Private cloud | Dedikált felhő instanszokon (AWS, Azure, GCP) | EU-ban szigorúan adatkezelő cégek, GDPR-szigorítók |
| Edge / desktop | Egy fejlesztő gépén, DGX Spark, Mac Studio | Prototípus, kis csapat, R&D, on-device chat |
A leggyakoribb magyar use case-ek
- Belső dokumentum-asszisztens — RAG over policy, HR és technikai dokumentumok
- Ügyfélszolgálati chatbot, ahol az adatkivitel nem opció (pl. egészségügy, jog)
- Kódkiegészítő, ahol a forráskód belső és nem mehet ki Cursor / Copilot felé
- Számla- és dokumentum-kivonatolás GDPR-érzékeny adatokkal
- Folyamatautomatizálás — bejövő emailek osztályozása, dokumentum-routing, lead-rutinizálás
Qwen 3.6 — friss release (2026 április)
Az Alibaba 2026. április 20-án dobta piacra a Qwen3.6-Max-Preview-t, majd április 22-én a Qwen3.6-27B nyílt súlyú variánst. Ez a Qwen-család harmadik major release-e idén — a tempó jelzi, milyen versenyhelyzetben van a kínai open-source AI-fejlesztés.
Mit hoz a Qwen 3.6 a Qwen 3.5-höz képest?
- 260 000 token kontextus ablak (vs Qwen 3.5 128k) — egész kódbázist beletehetsz egy promptba
- preserve_thinking funkció — agentikus workflow-ban a model gondolkodás-tokenjei megmaradnak körök között, így a tool-call láncok jobbak
- Agentikus kódolás: SkillsBench +9,9 pont, SciCode +10,8 pont, Terminal-Bench 2.0 +3,8 pont a 3.5-höz képest
- 6 #1 helyezés vezető kódbenchmarkokon (SWE-bench Pro, SciCode, SkillsBench)
A Qwen3.6-27B nyílt súlyú verziót már lehet on-prem futtatni. A Qwen3.6-Max-Preview egyelőre csak Alibaba Cloud Model Studio API-n érhető el.
Qwen 3.5 / 3.6 benchmark számok (2026 Q1–Q2)
| Modell | MMLU-Pro | HumanEval (kód) | RAM | Sebesség (RTX 4090) |
|---|---|---|---|---|
| Qwen3.5-4B | 64,1 | 71,3 | 8 GB | ~120 token/s |
| Qwen3.5-9B | 82,5 | 78,4 | 16 GB | ~85 token/s |
| Qwen3.5-27B | 71,2 | 85,1 | 24 GB | 55 token/s |
| Qwen3-30B-A3B (MoE) | 79,8 | 82,0 | 20 GB | ~70 token/s |
| Qwen3-32B-Coder | 73,9 | 88,0 | 32 GB | ~45 token/s |
| Qwen3.6-27B (új) | 73,5 | 86,4 | 24 GB | ~50 token/s |
Mit jelent ez a gyakorlatban?
- Qwen3.5-9B: a „sweet spot” a legtöbb KKV-nak. Egy 24 GB-os RTX 4090 vagy egy M3 Pro Mac elfut — és erősebb, mint a GPT-OSS-120B általános tudásban.
- Qwen3-32B-Coder: ha kódgenerálásra kell, 88% HumanEval — több, mint a DeepSeek V3.2 Speciale (82,6%), ami 8 H100-at igényel.
- Qwen3-30B-A3B: csak 3B aktív paraméter (Mixture of Experts) — gyors válaszidő, de 30B tudás-kapacitás. AIME 2024 matek benchmarkon 73–87% pass accuracy.
NVIDIA DGX Spark — az asztali AI szuperszámítógép
Az NVIDIA 2025 végén dobta piacra a DGX Spark-ot, és 2026 februárjában 3 999 dollárról 4 699 dollárra emelte az árát (memóriaellátási szűk keresztmetszet miatt).
A specifikációk
- GB10 Grace Blackwell Superchip — 5. generációs Tensor Core, FP4 támogatás
- CPU: 20 magos Arm (10× Cortex-X925 + 10× Cortex-A725)
- Egységes memória: 128 GB LPDDR5x @ 8 533 MT/s
- Memória sávszélesség: 273 GB/s
- AI teljesítmény: 1 petaFLOP FP4-en
- Maximális modellméret: 70B finomhangolásra, 200B inferenciára
DGX Spark benchmarkok (GPT-OSS 120B, 128k kontextus)
| Hardver | Prefill (tok/s) | Decode (tok/s) |
|---|---|---|
| DGX Spark (NVFP4) | 1 723,1 | 38,55 |
| AMD Strix Halo (MXFP4) | 339,9 | 34,13 |
| 3× RTX 3090 (MXFP4) | 1 641,9 | 124,03 |
A CES 2026-os szoftverfrissítés (TensorRT-LLM optimalizációk + spekulatív dekódolás) 2,5×-ös teljesítményjavulást hozott a launch-hoz képest, videogenerálás 8×-os javulást.
Mikor éri meg a DGX Spark?
Alternatívák ugyanabban a kategóriában
| Eszköz | Egyesített memória | Sávszélesség | Ár (2026 Q2) |
|---|---|---|---|
| NVIDIA DGX Spark | 128 GB | 273 GB/s | $4 699 |
| Apple Mac Studio M4 Ultra | 192–512 GB | >800 GB/s | $5 999–$11 999 |
| AMD Strix Halo (Ryzen AI Max+ 395) | 128 GB | 256 GB/s | ~$2 500 |
| 2× RTX 5090 build | 64 GB GDDR7 | 1 792 GB/s | ~$5 500 |
Hibrid stratégia: mikor lokális, mikor felhő?
A 2026-os legjobb gyakorlat nem„minden lokális” — hanem a megfelelő modellt a megfelelő feladathoz.
Mikor lokális Qwen / Llama / DeepSeek?
- Nagy volumen, ismétlődő feladat (pl. dokumentum-osztályozás napi 50 000 doksin)
- Érzékeny adat (PII, egészségügyi, jogi, pénzügyi)
- Determinisztikus válasz kell (azonos input → azonos output, fix model verzió — EU AI Act dokumentációhoz nélkülözhetetlen)
- Latency-kritikus (saját LAN-on 5–20 ms vs felhő 200–500 ms)
Mikor felhő API (OpenAI / Anthropic / Google)?
- Frontier képesség kell (Claude Opus, GPT-5 szintű komplex reasoning)
- Burst használat (havi pár ezer token, idle GPU-t pazarolnál)
- Multi-modal (videó-megértés, képgeneráció — itt még messze a frontier)
- Hatalmas kontextus (1M+ token egyetlen hívásban)
A megtérülési pont — friss 2026-os adatok
18–24 hó
5M token / nap átlagos volumennél térül meg az on-prem
Premai 2026 Q1
12–18 hó
10M token / nap fölött gyorsabban térül
SitePoint TCO Analysis
$40–190k
70B production environment kezdő befektetés
Premai On-Prem LLM
50%
3 éves megtakarítás vs felhő API kihasznált kapacitásnál
SitePoint TCO Analysis
Magyar KKV — valós eset
Egy középvállalati ügyfelünk 2026 januárjában váltott OpenAI API-ról Qwen3.5-9B + RTX 4090 setupra:
- Korábban: 1 800 EUR/hó OpenAI API (átlag 8M token/nap)
- Most: 4 200 EUR egyszeri hardver + ~120 EUR/hó áram és üzemeltetés
- Megtérülés: 4. hónap végén
- Compliance: kórház-partnerük megnyugodott, hogy a páciens-adatok el sem hagyják az országot
Az ROI nem mindig lokális javára dől. Kis volumennél (havi pár ezer token) az OpenAI API olcsóbb. A döntés a token-volumenen, a compliance-igényen és a meglévő DevOps kapacitáson múlik. Ha bizonytalan vagy, a GDPR és EU AI Act megfelelési cikkünk segít eldönteni, mennyire kritikus a lokalitás.
Implementációs stack 2026-ban
Inferencia szerver
- vLLM 0.7+ — a de facto sztenderd OpenAI-kompatibilis API-val
- TensorRT-LLM — ha NVIDIA, ha maximális sebesség kell
- Ollama 0.19+ — fejlesztői gépre, M-széria Mac-en MLX-szel majdnem 2× sebesség
- llama.cpp — CPU-only, vagy GGUF kvantált modellek
DGX Spark + vLLM gyorsindító
A DGX Spark-ra a legrosszabb élmény az lenne, ha 2-3 napig konfigurálnád a vLLM-et CUDA 12.1a architektúrára. Szerencsére van egy közösségi projekt, eugr/spark-vllm-docker, ami kifejezetten DGX Spark-ra (NVIDIA GB10, sm_121a) készült.
git clone https://github.com/eugr/spark-vllm-docker.git
cd spark-vllm-docker
./build-and-copy.sh
./launch-cluster.sh --soloMit ad:
- Előre buildelt vLLM wheel-ek GitHub Releases-ből, naponta tesztelve — nem kell forrásból fordítani
- Multi-node Ray cluster — kettő vagy három DGX Spark-ot összeköthetsz InfiniBand / RoCE-on át
- Modell-receptek előre konfigurálva: Qwen 3.5-397B (három Sparkon!), Qwen3-Coder-Next, MiniMax M2/M2.5, GLM-4.7, Nemotron, GPT-OSS-120B
- Kvantálás-támogatás: AWQ, INT4-AutoRound, NVFP4, FP8
- FastSafeTensors — gyorsabb modell-betöltés
- Non-privileged container — biztonságos prod-deployment
Modell-menedzsment és RAG
- Qdrant vagy Weaviate — vektor adatbázis
- LangChain vagy LlamaIndex — RAG keretrendszer
- Langfuse (self-hosted!) — observability, prompt tracking
Biztonsági réteg
- Garak vagy Promptfoo — prompt injection tesztelés
- NeMo Guardrails — output szűrés
- Llama Guard 3 — content moderation lokálisan
A leggyakoribb buktatók — amit nem írnak a marketinganyagba
1. Memória ≠ teljesítmény
A 128 GB unified memóriás Spark lassabb generálásban, mint egy 24 GB-os RTX 4090 — egy 9B modell esetén. A nagy modell csak akkor előny, ha tényleg kell a kapacitás.
2. A kvantálás minőség-tax-ot ad
Egy Q4 kvantált 70B modell 8–12% MMLU pontot veszít Q8-hoz képest. Sok publikált benchmark Q8/FP16 — éles környezetben Q4-Q5-öt fogsz használni.
3. A hosszú kontextus drága
A 128k context window memória-igénye négyzetesen nő. Egy 32B modell 128k kontextus-szal 60–80 GB VRAM-ot igényel csak az attention cache-re.
4. A finomhangolás (LoRA) nem ezüstgolyó
LoRA fine-tuning nem fogja a tudást a modellbe írni. RAG-ot helyettesít — nem. Ha céges dokumentumokra akarsz válaszolni, RAG-ot építs, ne LoRA-t.
5. A támogatási teher valós
Egy on-prem AI rendszer napi felügyeletet igényel: GPU monitoring, modell-frissítések, biztonsági patch-ek. Ha nincs DevOps kapacitás, a felhő olcsóbb lesz hosszú távon is.
Mit ajánlunk magyar KKV-knak — döntési mátrix
| Vállalat mérete | Use case | Ajánlott stack |
|---|---|---|
| 1–10 fő | Kísérletezés, prototípus | Ollama + Qwen3.5-9B M3/M4 Mac-en |
| 10–50 fő | Belső chatbot, RAG | RTX 4090 + vLLM + Qwen3.5-27B |
| 50–200 fő | Production AI 100+ user | DGX Spark vagy 2× RTX 5090 + vLLM |
| 200+ fő | Enterprise + compliance | Több GPU node + Kubernetes + privát Qwen / Llama |
Az első lépések
Ha most kezdesz lokális AI-val, az 5 lépéses workflow:
- Definiálj egy konkrét use case-t (pl. számlák kivonatolása német VAT-tal)
- Mérd fel a token-volument (mennyi/nap?)
- Tesztelj felhőben először — 1-2 hét OpenAI / Anthropic API, tudd, működik-e a koncepció
- Próbálj nyílt modellt felhőben (Together.ai, Fireworks, Groq) — ugyanaz a Qwen / Llama, csak nem a saját géped
- Csak ezután váltás lokálisra, ha a token-volumen igazolja
A legtöbb cég már a 3. lépés után látja, hogy a felhő OpenAI költség 3×-osa a Together.ai-on futó Qwen3.5-9B-nek — anélkül, hogy egy szervert is venni kéne.
Gyakori kérdések
Mi az a lokális AI futtatás?
Lokális AI alatt azt értjük, amikor a nagy nyelvi modell a saját infrastruktúrádon fut — on-premise szerveren, privát felhőben, vagy edge eszközön (DGX Spark, Mac Studio). Az adat nem hagyja el a céget, te döntesz a modell-verzióról és a logokról.
Mennyibe kerül egy lokális AI rendszer 2026-ban?
Belépő szint: Ollama + Qwen3.5-9B egy M3 Pro Mac-en (~1 500 EUR). Production stack 50 felhasználóra: RTX 4090 + vLLM + Qwen3.5-27B (~4 000 EUR hardver + havi 200 EUR áram). Enterprise (200+ fő): DGX Spark vagy 2× RTX 5090 (~5 500 EUR) Kubernetes klaszteren. 70B modell production environment $40 000–190 000 kezdő befektetés.
Melyik open-source modell a legjobb 2026-ban?
A Qwen 3.5 család lett európai vállalati környezetben de facto sztenderd: Apache 2.0 licenc (szabadon üzleti használat), Qwen3.5-9B 82,5 MMLU-Pro (megelőzi a GPT-OSS-120B-t), Qwen3-32B-Coder 88% HumanEval kódra. A Qwen 3.6 27B (2026 április) 260k kontextus-ablakkal jött, agentikus workflow-okra finomhangolva.
Megéri-e az NVIDIA DGX Spark?
Akkor igen, ha prototípus-fejlesztés a fő use case (sok modell tesztelése, fine-tuning), NVIDIA stack integráció előny, vagy az adat nem mehet felhőbe. Nem éri meg, ha sok concurrent felhasználó kell — ott 3× RTX 3090 vagy 2× RTX 4090 olcsóbb és gyorsabb generálásban (decode 124 vs 38 tok/s).
Mikor térül meg a lokális AI?
Premai 2026 Q1 elemzés szerint 5M token / nap volumennél 18-24 hónap, 10M token / nap fölött 12-18 hónap. Egy magyar középvállalati ügyfelünknél 8M token / nap esetén 4 hónap megtérülés volt OpenAI API-ról Qwen3.5-9B + RTX 4090 váltással (1 800 EUR/hó → 4 200 EUR egyszeri + 120 EUR/hó áram).
Hogyan segít a lokális AI az EU AI Act megfeleléshez?
Három területen: (1) Adatlokalizáció — az adat nem hagyja el az EU-t, a Schrems II problémák nem merülnek fel. (2) Modell-verzió fix — az AI Act megköveteli, hogy a magas kockázatú AI dokumentált módon működjön; lokálisan te döntöd el, mikor frissítesz. (3) Audit-képesség — a hatóság visszamenőleg ellenőrizheti, mit válaszolt a modell egy adott napon.
Milyen software stack-et használjunk?
Inferencia: vLLM 0.7+ (production), Ollama (fejlesztés), TensorRT-LLM (max sebesség NVIDIA-n). RAG: LangChain + Qdrant / Weaviate. Observability: Langfuse self-hosted. Biztonság: Garak vagy Promptfoo (prompt injection teszt), NeMo Guardrails (output szűrés), Llama Guard 3 (content moderation). DGX Spark-ra a spark-vllm-docker (eugr/spark-vllm-docker) kifejezetten készült.
Honnan tudjam előre, hogy a Qwen modell jó lesz a magyar use case-emhez?
Két lépés. (1) Töltsd le a 9B vagy 14B verziót Ollama-ra (pár óra), és tesztelj 30–50 valós magyar inputtal a saját domainedből (ajánlat-szerkesztés, ügyféllevél, dokumentum-összegzés). Mérd a hibaarányt. (2) Hasonlítsd össze ugyanezekkel a GPT-4o vagy Claude Opus kimenetével. A tapasztalat alapján Qwen 3.5 / 3.6 magyar nyelven 80–90%-át adja a GPT-4o teljesítményének, RAG-ben gyakran egyenrangú — viszont 0 token-költséggel.
Mi a karbantartási terhe egy on-prem AI infrastruktúrának?
Heti 2–6 óra, ha minden alapfunkció rendben van: model-frissítések, vLLM verzió-update, GPU-monitoring, log-rotation. Negyedévente egy nagyobb karbantartási ablak (4–8 óra) az inference-stack frissítésére. A kritikus elem a backup-stratégia és a model-version pin: 6 hónap múlva a forráshelyről eltűnő modellt nem szabad felülírni anélkül, hogy az audit-trail-t frissítenéd.
Milyen GDPR és EU AI Act dokumentációt kér a hatóság on-prem AI-nál?
Adatkezelési tájékoztató, DPIA (Data Protection Impact Assessment) magas kockázatú AI-nál, modell-kártya (használt modell, verzió, training data forrása), audit-log az inputokról és outputokról (legalább 6 hónap visszamenőleg), risk management dokumentum, és a felhasználói transzparencia (a felhasználónak tudnia kell, hogy AI-jal beszél). On-prem előny, hogy mindezeket a saját rendszered logolja, nem külső providerre kell hagyatkozni.



