Lokális AI futtatás 2026 — Qwen 3.6, NVIDIA DGX Spark és a szuverén AI infrastruktúra

Az on-prem AI 2026-ban már nem niche. Qwen3.5-9B 82,5 MMLU-Pro, DGX Spark $4699, megtérülés 4-6 hónap. Mikor lokális, mikor felhő — döntési mátrix konkrét számokkal.

frissítve: 2026. május 4.17 perc olvasásÍrtaBoncz Bálint

Miért robbant be a lokális AI 2026-ban?

Két év alatt megfordult a piac. 2024-ben még szinte minden vállalati AI projekt OpenAI vagy Anthropic API-ra épült. 2026 áprilisában a Premai felmérése szerint a termelésben AI-t használó cégek 68%-a hibrid modellben dolgozik — kombinálja a felhő API-kat egy lokálisan futtatott, nyílt súlyú modellel.

68%

Termelésben AI-t használó cégek aránya, akik hibrid modellben dolgoznak

Premai 2026 Q1 elemzés

82,5

Qwen3.5-9B MMLU-Pro pontszáma — megelőzi a GPT-OSS-120B-t

Qwen Team Technical Report

35M €

EU AI Act maximális bírság — sokaknak az on-prem a legolcsóbb compliance

EU 2024/1689 99. cikk

Három dolog változott meg radikálisan:

  1. Az open-source modellek utolérték a frontiert. A Qwen3.5-9B benchmarkjai megelőzik az OpenAI GPT-OSS-120B-jét MMLU-Pro-n (82,5 vs 80,8) — egy nagyságrenddel kisebb modell.
  2. Az EU AI Act 2026. augusztus 2-án élesedik. A magas kockázatú rendszerek esetében bírság 35 millió euróig vagy a globális árbevétel 7%-áig mehet — és sok cég számára a lokális futtatás a legegyszerűbb compliance-stratégia.
  3. Az NVIDIA piacra dobta a DGX Spark-ot.Először létezik 4–5000 dolláros áron asztali „AI szuperszámítógép”, ami 70B paraméteres modellt képes finomhangolni helyben.

Ez a cikk gyakorlati útmutató: pontos benchmarkok, tényleges árak, és mikor éri meg lokálisra váltani. Ha a téma jogi oldala érdekel, az EU AI Act megfelelési oldalunkat érdemes elolvasni.

Mi az a „lokális AI futtatás”?

Lokális AI alatt azt értjük, amikor a nyelvi modell a saját infrastruktúrádon fut — nem küldesz adatot OpenAI vagy Anthropic szerverére. Három fő topológia létezik:

TopológiaHol futTipikus eset
On-premiseSaját szerverteremben vagy irodábanEgészségügy, jog, banki és biztosítási adatok
Private cloudDedikált felhő instanszokon (AWS, Azure, GCP)EU-ban szigorúan adatkezelő cégek, GDPR-szigorítók
Edge / desktopEgy fejlesztő gépén, DGX Spark, Mac StudioPrototípus, kis csapat, R&D, on-device chat
A különbség: mindenhol te vagy az adat gazdája, és te döntöd el, milyen modell milyen prompttal milyen logokkal fut.

A leggyakoribb magyar use case-ek

  • Belső dokumentum-asszisztens — RAG over policy, HR és technikai dokumentumok
  • Ügyfélszolgálati chatbot, ahol az adatkivitel nem opció (pl. egészségügy, jog)
  • Kódkiegészítő, ahol a forráskód belső és nem mehet ki Cursor / Copilot felé
  • Számla- és dokumentum-kivonatolás GDPR-érzékeny adatokkal
  • Folyamatautomatizálás — bejövő emailek osztályozása, dokumentum-routing, lead-rutinizálás

Qwen 3.6 — friss release (2026 április)

Az Alibaba 2026. április 20-án dobta piacra a Qwen3.6-Max-Preview-t, majd április 22-én a Qwen3.6-27B nyílt súlyú variánst. Ez a Qwen-család harmadik major release-e idén — a tempó jelzi, milyen versenyhelyzetben van a kínai open-source AI-fejlesztés.

Mit hoz a Qwen 3.6 a Qwen 3.5-höz képest?

  • 260 000 token kontextus ablak (vs Qwen 3.5 128k) — egész kódbázist beletehetsz egy promptba
  • preserve_thinking funkció — agentikus workflow-ban a model gondolkodás-tokenjei megmaradnak körök között, így a tool-call láncok jobbak
  • Agentikus kódolás: SkillsBench +9,9 pont, SciCode +10,8 pont, Terminal-Bench 2.0 +3,8 pont a 3.5-höz képest
  • 6 #1 helyezés vezető kódbenchmarkokon (SWE-bench Pro, SciCode, SkillsBench)

A Qwen3.6-27B nyílt súlyú verziót már lehet on-prem futtatni. A Qwen3.6-Max-Preview egyelőre csak Alibaba Cloud Model Studio API-n érhető el.

Qwen 3.5 / 3.6 benchmark számok (2026 Q1–Q2)

ModellMMLU-ProHumanEval (kód)RAMSebesség (RTX 4090)
Qwen3.5-4B64,171,38 GB~120 token/s
Qwen3.5-9B82,578,416 GB~85 token/s
Qwen3.5-27B71,285,124 GB55 token/s
Qwen3-30B-A3B (MoE)79,882,020 GB~70 token/s
Qwen3-32B-Coder73,988,032 GB~45 token/s
Qwen3.6-27B (új)73,586,424 GB~50 token/s
Forrás: Qwen Team Technical Report (arxiv 2505.09388), Local AI Master 2026 benchmarks.

Mit jelent ez a gyakorlatban?

  • Qwen3.5-9B: a „sweet spot” a legtöbb KKV-nak. Egy 24 GB-os RTX 4090 vagy egy M3 Pro Mac elfut — és erősebb, mint a GPT-OSS-120B általános tudásban.
  • Qwen3-32B-Coder: ha kódgenerálásra kell, 88% HumanEval — több, mint a DeepSeek V3.2 Speciale (82,6%), ami 8 H100-at igényel.
  • Qwen3-30B-A3B: csak 3B aktív paraméter (Mixture of Experts) — gyors válaszidő, de 30B tudás-kapacitás. AIME 2024 matek benchmarkon 73–87% pass accuracy.

NVIDIA DGX Spark — az asztali AI szuperszámítógép

Az NVIDIA 2025 végén dobta piacra a DGX Spark-ot, és 2026 februárjában 3 999 dollárról 4 699 dollárra emelte az árát (memóriaellátási szűk keresztmetszet miatt).

A specifikációk

  • GB10 Grace Blackwell Superchip — 5. generációs Tensor Core, FP4 támogatás
  • CPU: 20 magos Arm (10× Cortex-X925 + 10× Cortex-A725)
  • Egységes memória: 128 GB LPDDR5x @ 8 533 MT/s
  • Memória sávszélesség: 273 GB/s
  • AI teljesítmény: 1 petaFLOP FP4-en
  • Maximális modellméret: 70B finomhangolásra, 200B inferenciára

DGX Spark benchmarkok (GPT-OSS 120B, 128k kontextus)

HardverPrefill (tok/s)Decode (tok/s)
DGX Spark (NVFP4)1 723,138,55
AMD Strix Halo (MXFP4)339,934,13
3× RTX 3090 (MXFP4)1 641,9124,03
Forrás: IntuitionLabs DGX Spark Review. Kritikus megfigyelés: a Spark prefill-ben az élmezőnyben van, de decode-ban lassabb, mint egy 3 darab használt RTX 3090-es rig.

A CES 2026-os szoftverfrissítés (TensorRT-LLM optimalizációk + spekulatív dekódolás) 2,5×-ös teljesítményjavulást hozott a launch-hoz képest, videogenerálás 8×-os javulást.

Mikor éri meg a DGX Spark?

Alternatívák ugyanabban a kategóriában

EszközEgyesített memóriaSávszélességÁr (2026 Q2)
NVIDIA DGX Spark128 GB273 GB/s$4 699
Apple Mac Studio M4 Ultra192–512 GB>800 GB/s$5 999–$11 999
AMD Strix Halo (Ryzen AI Max+ 395)128 GB256 GB/s~$2 500
2× RTX 5090 build64 GB GDDR71 792 GB/s~$5 500
A Mac Studio M4 Ultra nyers memória-sávszélességben veri a Spark-ot, és nagyobb modelleket is elfut (egészen 405B paraméterig 512 GB-os konfigurációval). A hátrány: nincs CUDA, ezért sok ML eszköz csak korlátozottan működik.

Hibrid stratégia: mikor lokális, mikor felhő?

A 2026-os legjobb gyakorlat nem„minden lokális” — hanem a megfelelő modellt a megfelelő feladathoz.

Mikor lokális Qwen / Llama / DeepSeek?

  • Nagy volumen, ismétlődő feladat (pl. dokumentum-osztályozás napi 50 000 doksin)
  • Érzékeny adat (PII, egészségügyi, jogi, pénzügyi)
  • Determinisztikus válasz kell (azonos input → azonos output, fix model verzió — EU AI Act dokumentációhoz nélkülözhetetlen)
  • Latency-kritikus (saját LAN-on 5–20 ms vs felhő 200–500 ms)

Mikor felhő API (OpenAI / Anthropic / Google)?

  • Frontier képesség kell (Claude Opus, GPT-5 szintű komplex reasoning)
  • Burst használat (havi pár ezer token, idle GPU-t pazarolnál)
  • Multi-modal (videó-megértés, képgeneráció — itt még messze a frontier)
  • Hatalmas kontextus (1M+ token egyetlen hívásban)

A megtérülési pont — friss 2026-os adatok

18–24 hó

5M token / nap átlagos volumennél térül meg az on-prem

Premai 2026 Q1

12–18 hó

10M token / nap fölött gyorsabban térül

SitePoint TCO Analysis

$40–190k

70B production environment kezdő befektetés

Premai On-Prem LLM

50%

3 éves megtakarítás vs felhő API kihasznált kapacitásnál

SitePoint TCO Analysis

Magyar KKV — valós eset

Egy középvállalati ügyfelünk 2026 januárjában váltott OpenAI API-ról Qwen3.5-9B + RTX 4090 setupra:

  • Korábban: 1 800 EUR/hó OpenAI API (átlag 8M token/nap)
  • Most: 4 200 EUR egyszeri hardver + ~120 EUR/hó áram és üzemeltetés
  • Megtérülés: 4. hónap végén
  • Compliance: kórház-partnerük megnyugodott, hogy a páciens-adatok el sem hagyják az országot

Az ROI nem mindig lokális javára dől. Kis volumennél (havi pár ezer token) az OpenAI API olcsóbb. A döntés a token-volumenen, a compliance-igényen és a meglévő DevOps kapacitáson múlik. Ha bizonytalan vagy, a GDPR és EU AI Act megfelelési cikkünk segít eldönteni, mennyire kritikus a lokalitás.

Implementációs stack 2026-ban

Inferencia szerver

  • vLLM 0.7+ — a de facto sztenderd OpenAI-kompatibilis API-val
  • TensorRT-LLM — ha NVIDIA, ha maximális sebesség kell
  • Ollama 0.19+ — fejlesztői gépre, M-széria Mac-en MLX-szel majdnem 2× sebesség
  • llama.cpp — CPU-only, vagy GGUF kvantált modellek

DGX Spark + vLLM gyorsindító

A DGX Spark-ra a legrosszabb élmény az lenne, ha 2-3 napig konfigurálnád a vLLM-et CUDA 12.1a architektúrára. Szerencsére van egy közösségi projekt, eugr/spark-vllm-docker, ami kifejezetten DGX Spark-ra (NVIDIA GB10, sm_121a) készült.

terminalbash
git clone https://github.com/eugr/spark-vllm-docker.git
cd spark-vllm-docker
./build-and-copy.sh
./launch-cluster.sh --solo

Mit ad:

  • Előre buildelt vLLM wheel-ek GitHub Releases-ből, naponta tesztelve — nem kell forrásból fordítani
  • Multi-node Ray cluster — kettő vagy három DGX Spark-ot összeköthetsz InfiniBand / RoCE-on át
  • Modell-receptek előre konfigurálva: Qwen 3.5-397B (három Sparkon!), Qwen3-Coder-Next, MiniMax M2/M2.5, GLM-4.7, Nemotron, GPT-OSS-120B
  • Kvantálás-támogatás: AWQ, INT4-AutoRound, NVFP4, FP8
  • FastSafeTensors — gyorsabb modell-betöltés
  • Non-privileged container — biztonságos prod-deployment

Modell-menedzsment és RAG

  • Qdrant vagy Weaviate — vektor adatbázis
  • LangChain vagy LlamaIndex — RAG keretrendszer
  • Langfuse (self-hosted!) — observability, prompt tracking

Biztonsági réteg

  • Garak vagy Promptfoo — prompt injection tesztelés
  • NeMo Guardrails — output szűrés
  • Llama Guard 3 — content moderation lokálisan

A leggyakoribb buktatók — amit nem írnak a marketinganyagba

1. Memória ≠ teljesítmény

A 128 GB unified memóriás Spark lassabb generálásban, mint egy 24 GB-os RTX 4090 — egy 9B modell esetén. A nagy modell csak akkor előny, ha tényleg kell a kapacitás.

2. A kvantálás minőség-tax-ot ad

Egy Q4 kvantált 70B modell 8–12% MMLU pontot veszít Q8-hoz képest. Sok publikált benchmark Q8/FP16 — éles környezetben Q4-Q5-öt fogsz használni.

3. A hosszú kontextus drága

A 128k context window memória-igénye négyzetesen nő. Egy 32B modell 128k kontextus-szal 60–80 GB VRAM-ot igényel csak az attention cache-re.

4. A finomhangolás (LoRA) nem ezüstgolyó

LoRA fine-tuning nem fogja a tudást a modellbe írni. RAG-ot helyettesít — nem. Ha céges dokumentumokra akarsz válaszolni, RAG-ot építs, ne LoRA-t.

5. A támogatási teher valós

Egy on-prem AI rendszer napi felügyeletet igényel: GPU monitoring, modell-frissítések, biztonsági patch-ek. Ha nincs DevOps kapacitás, a felhő olcsóbb lesz hosszú távon is.

Mit ajánlunk magyar KKV-knak — döntési mátrix

Vállalat méreteUse caseAjánlott stack
1–10 főKísérletezés, prototípusOllama + Qwen3.5-9B M3/M4 Mac-en
10–50 főBelső chatbot, RAGRTX 4090 + vLLM + Qwen3.5-27B
50–200 főProduction AI 100+ userDGX Spark vagy 2× RTX 5090 + vLLM
200+ főEnterprise + complianceTöbb GPU node + Kubernetes + privát Qwen / Llama

Az első lépések

Ha most kezdesz lokális AI-val, az 5 lépéses workflow:

  1. Definiálj egy konkrét use case-t (pl. számlák kivonatolása német VAT-tal)
  2. Mérd fel a token-volument (mennyi/nap?)
  3. Tesztelj felhőben először — 1-2 hét OpenAI / Anthropic API, tudd, működik-e a koncepció
  4. Próbálj nyílt modellt felhőben (Together.ai, Fireworks, Groq) — ugyanaz a Qwen / Llama, csak nem a saját géped
  5. Csak ezután váltás lokálisra, ha a token-volumen igazolja

A legtöbb cég már a 3. lépés után látja, hogy a felhő OpenAI költség 3×-osa a Together.ai-on futó Qwen3.5-9B-nek — anélkül, hogy egy szervert is venni kéne.

Gyakori kérdések

Mi az a lokális AI futtatás?

Lokális AI alatt azt értjük, amikor a nagy nyelvi modell a saját infrastruktúrádon fut — on-premise szerveren, privát felhőben, vagy edge eszközön (DGX Spark, Mac Studio). Az adat nem hagyja el a céget, te döntesz a modell-verzióról és a logokról.

Mennyibe kerül egy lokális AI rendszer 2026-ban?

Belépő szint: Ollama + Qwen3.5-9B egy M3 Pro Mac-en (~1 500 EUR). Production stack 50 felhasználóra: RTX 4090 + vLLM + Qwen3.5-27B (~4 000 EUR hardver + havi 200 EUR áram). Enterprise (200+ fő): DGX Spark vagy 2× RTX 5090 (~5 500 EUR) Kubernetes klaszteren. 70B modell production environment $40 000–190 000 kezdő befektetés.

Melyik open-source modell a legjobb 2026-ban?

A Qwen 3.5 család lett európai vállalati környezetben de facto sztenderd: Apache 2.0 licenc (szabadon üzleti használat), Qwen3.5-9B 82,5 MMLU-Pro (megelőzi a GPT-OSS-120B-t), Qwen3-32B-Coder 88% HumanEval kódra. A Qwen 3.6 27B (2026 április) 260k kontextus-ablakkal jött, agentikus workflow-okra finomhangolva.

Megéri-e az NVIDIA DGX Spark?

Akkor igen, ha prototípus-fejlesztés a fő use case (sok modell tesztelése, fine-tuning), NVIDIA stack integráció előny, vagy az adat nem mehet felhőbe. Nem éri meg, ha sok concurrent felhasználó kell — ott 3× RTX 3090 vagy 2× RTX 4090 olcsóbb és gyorsabb generálásban (decode 124 vs 38 tok/s).

Mikor térül meg a lokális AI?

Premai 2026 Q1 elemzés szerint 5M token / nap volumennél 18-24 hónap, 10M token / nap fölött 12-18 hónap. Egy magyar középvállalati ügyfelünknél 8M token / nap esetén 4 hónap megtérülés volt OpenAI API-ról Qwen3.5-9B + RTX 4090 váltással (1 800 EUR/hó → 4 200 EUR egyszeri + 120 EUR/hó áram).

Hogyan segít a lokális AI az EU AI Act megfeleléshez?

Három területen: (1) Adatlokalizáció — az adat nem hagyja el az EU-t, a Schrems II problémák nem merülnek fel. (2) Modell-verzió fix — az AI Act megköveteli, hogy a magas kockázatú AI dokumentált módon működjön; lokálisan te döntöd el, mikor frissítesz. (3) Audit-képesség — a hatóság visszamenőleg ellenőrizheti, mit válaszolt a modell egy adott napon.

Milyen software stack-et használjunk?

Inferencia: vLLM 0.7+ (production), Ollama (fejlesztés), TensorRT-LLM (max sebesség NVIDIA-n). RAG: LangChain + Qdrant / Weaviate. Observability: Langfuse self-hosted. Biztonság: Garak vagy Promptfoo (prompt injection teszt), NeMo Guardrails (output szűrés), Llama Guard 3 (content moderation). DGX Spark-ra a spark-vllm-docker (eugr/spark-vllm-docker) kifejezetten készült.

Honnan tudjam előre, hogy a Qwen modell jó lesz a magyar use case-emhez?

Két lépés. (1) Töltsd le a 9B vagy 14B verziót Ollama-ra (pár óra), és tesztelj 30–50 valós magyar inputtal a saját domainedből (ajánlat-szerkesztés, ügyféllevél, dokumentum-összegzés). Mérd a hibaarányt. (2) Hasonlítsd össze ugyanezekkel a GPT-4o vagy Claude Opus kimenetével. A tapasztalat alapján Qwen 3.5 / 3.6 magyar nyelven 80–90%-át adja a GPT-4o teljesítményének, RAG-ben gyakran egyenrangú — viszont 0 token-költséggel.

Mi a karbantartási terhe egy on-prem AI infrastruktúrának?

Heti 2–6 óra, ha minden alapfunkció rendben van: model-frissítések, vLLM verzió-update, GPU-monitoring, log-rotation. Negyedévente egy nagyobb karbantartási ablak (4–8 óra) az inference-stack frissítésére. A kritikus elem a backup-stratégia és a model-version pin: 6 hónap múlva a forráshelyről eltűnő modellt nem szabad felülírni anélkül, hogy az audit-trail-t frissítenéd.

Milyen GDPR és EU AI Act dokumentációt kér a hatóság on-prem AI-nál?

Adatkezelési tájékoztató, DPIA (Data Protection Impact Assessment) magas kockázatú AI-nál, modell-kártya (használt modell, verzió, training data forrása), audit-log az inputokról és outputokról (legalább 6 hónap visszamenőleg), risk management dokumentum, és a felhasználói transzparencia (a felhasználónak tudnia kell, hogy AI-jal beszél). On-prem előny, hogy mindezeket a saját rendszered logolja, nem külső providerre kell hagyatkozni.

Megosztás:

Készen állsz?

Beszéljük át a projektedet — 30 perc, ingyenes.

24 órán belül konkrét ár-tartománnyal, becsült átfutási idővel és világos következő lépéssel jövünk vissza. Nem értékesítési hívás.

Projektet indítok