AI fejlesztés lokális AI on-premise LLM AI infrastruktúra

Lokális AI futtatás 2026 – Qwen 3.6, NVIDIA DGX Spark és a szuverén AI infrastruktúra

Írta: AppForge Team 2026. április 24. Frissítve: 2026. április 24. 12 perc olvasás

Lokális AI futtatás 2026 – Qwen 3.5 és NVIDIA DGX Spark on-premise telepítés

Miért robbant be a lokális AI 2026-ban?

Két év alatt megfordult a piac. 2024-ben még szinte minden vállalati AI projekt OpenAI vagy Anthropic API-ra épült. 2026 áprilisában a Premai felmérése szerint a termelésben AI-t használó cégek 68%-a hibrid modellben dolgozik - kombinálja a felhő API-kat egy lokálisan futtatott, nyílt súlyú modellel.

Három dolog változott meg radikálisan:

Az open-source modellek utolérték a frontiert. A Qwen3.5-9B benchmarkjai megelőzik az OpenAI GPT-OSS-120B-jét MMLU-Pro-n (82.5 vs 80.8) - egy nagyságrenddel kisebb modell.
Az EU AI Act 2026. augusztus 2-án élesedik. A magas kockázatú rendszerek esetében bírság 35 millió euróig vagy a globális árbevétel 7%-áig mehet - és sok cég számára a lokális futtatás a legegyszerűbb compliance-stratégia.
Az NVIDIA piacra dobta a DGX Spark-ot. Először létezik 4-5000 dolláros áron asztali “AI szuperszámítógép”, ami 70B paraméteres modellt képes finomhangolni helyben.

Ez a cikk gyakorlati útmutató: pontos benchmarkok, tényleges árak, és mikor éri meg lokálisra váltani.

Mi az a “lokális AI futtatás”?

Lokális AI alatt azt értjük, amikor a nyelvi modell a saját infrastruktúrádon fut - nem küldsz adatot OpenAI vagy Anthropic szerverére. Három fő topológia létezik:

Topológia	Hol fut	Tipikus eset
On-premise	Saját szerverteremben / irodában	Egészségügy, jog, banki adatok
Private cloud	Dedikált felhő instanszokon (AWS, Azure, GCP)	EU-ban szigorúan adatkezelő cégek
Edge / desktop	Egy fejlesztő gépén / DGX Spark / Mac Studio	Prototípus, kis csapat, R&D

A különbség: mindenhol te vagy az adat gazdája, és te dönted el, milyen modell milyen prompttal milyen logokkal fut.

Qwen 3.6 - friss release (2026. április)

Az Alibaba 2026. április 20-án dobta piacra a Qwen3.6-Max-Preview-t, majd április 22-én a Qwen3.6-27B nyílt súlyú variánst. Ez a Qwen-család harmadik major release-e idén - a tempó jelzi, milyen versenyhelyzetben van a kínai open-source AI-fejlesztés.

Mit hoz a Qwen 3.6 a Qwen 3.5-hez képest?

260,000 token kontextus ablak (vs Qwen 3.5 128k) - egész kódbázist beletehetsz egy promptba
preserve_thinking funkció - agentikus workflow-ban a model “gondolkodás-tokenjei” megmaradnak körök között, így a tool-call láncok jobbak
Agentikus kódolás: SkillsBench +9.9 pont, SciCode +10.8 pont, Terminal-Bench 2.0 +3.8 pont a 3.5-höz képest
6 #1 helyezés vezető kódbenchmarkokon (SWE-bench Pro, SciCode, SkillsBench között)

A Qwen3.6-27B nyílt súlyú verziót már lehet on-prem futtatni. A Qwen3.6-Max-Preview egyelőre csak Alibaba Cloud Model Studio API-n érhető el (qwen3.6-max-preview modell-azonosító, OpenAI-kompatibilis endpoint).

Forrás: Qwen 3.6 Max Preview hivatalos blog, QwenLM/Qwen3.6 GitHub

Qwen 3.5 és 3.6 - az open-source forradalom

A kínai Alibaba Qwen modellcsaládja 2026-ra a nyílt súlyú LLM-ek de facto sztenderdjévé vált európai vállalati környezetben - főleg az Apache 2.0 licenc miatt (üzletileg szabadon használható, ellentétben pl. a Llama-val).

Qwen 3.5 / 3.6 benchmark számok (2026 Q1-Q2)

Modell	MMLU-Pro	HumanEval (kód)	RAM	Sebesség (RTX 4090)
Qwen3.5-4B	64.1	71.3	8 GB	~120 token/s
Qwen3.5-9B	82.5	78.4	16 GB	~85 token/s
Qwen3.5-27B	71.2	85.1	24 GB	55 token/s
Qwen3-30B-A3B (MoE)	79.8	82.0	20 GB	~70 token/s
Qwen3-32B-Coder	73.9	88.0	32 GB	~45 token/s
Qwen3.6-27B (új)	73.5	86.4	24 GB	~50 token/s

Forrás: Qwen Team Technical Report, Local AI Master 2026 benchmarks

Mit jelent ez a gyakorlatban?

Qwen3.5-9B: a “sweet spot” a legtöbb KKV-nak. Egy 24 GB-os RTX 4090 vagy egy M3 Pro Mac elfut - és erősebb, mint a GPT-OSS-120B általános tudásban.
Qwen3-32B-Coder: ha kódgenerálásra kell, 88% HumanEval - több, mint a DeepSeek V3.2 Speciale (82.6%), ami 8 H100-at igényel.
Qwen3-30B-A3B (Mixture of Experts): csak 3B aktív paraméter - gyors válaszidő, de 30B tudás-kapacitás. AIME 2024 matek benchmarkon 73-87% pass accuracy.

A Qwen alkalmazási esetek, amelyeket nálunk az ügyfelek leggyakrabban kérnek

Belső dokumentum-asszisztens (RAG over policy + HR + technikai docs)
Ügyfélszolgálati chatbot ahol az adatkivitel nem opció (pl. egészségügy)
Kódkiegészítő ahol a forráskód belső, nem mehet ki Cursor / Copilot felé
Számla / dokumentum kivonatolás GDPR-érzékeny adatokkal

NVIDIA DGX Spark - az asztali AI szuperszámítógép

Az NVIDIA 2025 végén dobta piacra a DGX Spark-ot, és 2026 februárjában 3,999 dollárról 4,699 dollárra emelte az árát (memóriaellátási szűk keresztmetszet miatt - NVIDIA hivatalos közlemény).

A specifikációk

GB10 Grace Blackwell Superchip: 5. generációs Tensor Core, FP4 támogatás
CPU: 20 magos Arm (10× Cortex-X925 + 10× Cortex-A725)
Egységes memória: 128 GB LPDDR5x @ 8,533 MT/s
Memória sávszélesség: 273 GB/s
AI teljesítmény: 1 petaFLOP FP4-en
Maximális modellméret: 70B finomhangolásra, 200B inferenciára

Tényleges DGX Spark benchmarkok (GPT-OSS 120B, 128k kontextus)

Hardver	Prefill (tok/s)	Decode (tok/s)
DGX Spark (NVFP4)	1,723.1	38.55
AMD Strix Halo (MXFP4)	339.9	34.13
3× RTX 3090 (MXFP4)	1,641.9	124.03

Forrás: IntuitionLabs DGX Spark Review

Kritikus megfigyelés: a DGX Spark prompt-feldolgozásban (prefill) az élmezőnyben van, de generálásban (decode) lassabb, mint egy 3 darab használt RTX 3090-es rig (~3500-4500 dollár). Az ok: az LPDDR5x memória 273 GB/s sávszélessége korlátoz, míg egy RTX 3090 936 GB/s-t tud.

A CES 2026-os szoftverfrissítés (TensorRT-LLM optimalizációk + spekulatív dekódolás) 2.5×-es teljesítményjavulást hozott a launch-hoz képest, videogenerálás 8×-os javulást.

Mikor éri meg a DGX Spark?

Igen:

Ha prototípus-fejlesztés a fő use case (sok modell tesztelése, fine-tuning)
Ha az NVIDIA stack (CUDA, TensorRT, NIM) integráció előny
Ha kompakt, asztali eszköz kell (irodában 1U mini PC-méret)
Ha EU AI Act compliance miatt nem mehet az adat felhőbe

Nem:

Ha sok concurrent felhasználó kell (production inferencia → inkább több RTX 4090 / RTX 5090)
Ha csak inference, nincs fine-tuning → 2× RTX 4090 olcsóbb és gyorsabb
Ha költségérzékeny vagy és nem érdekel az NVIDIA ökoszisztéma

Alternatívák ugyanabban a kategóriában

Eszköz	Egyesített memória	Sávszélesség	Ár (2026 Q2)
NVIDIA DGX Spark	128 GB	273 GB/s	$4,699
Apple Mac Studio M4 Ultra	192–512 GB	>800 GB/s	$5,999–$11,999
AMD Strix Halo (Ryzen AI Max+ 395)	128 GB	256 GB/s	~$2,500
2× RTX 5090 build	64 GB GDDR7	1,792 GB/s	~$5,500

Forrás: Tom’s Hardware DGX Spark Review

A Mac Studio M4 Ultra nyers memória-sávszélességben veri a Spark-ot, és nagyobb modelleket is elfut (egészen 405B paraméterig 512 GB-os konfigurációval). A hátrány: nincs CUDA, ezért sok ML eszköz csak korlátozottan működik.

Hibrid stratégia: mikor lokális, mikor felhő?

A 2026-os legjobb gyakorlat nem “minden lokális” - hanem a megfelelő modellt a megfelelő feladathoz.

Mikor lokális Qwen / Llama / DeepSeek?

Nagy volumen, ismétlődő feladat (pl. dokumentum-osztályozás napi 50,000 doksin)
Érzékeny adat (PII, egészségügyi, jogi, pénzügyi)
Determinisztikus válasz kell (azonos input → azonos output, fix model verzió)
Latency-kritikus (saját LAN-on 5-20ms vs felhő 200-500ms)

Mikor felhő API (OpenAI / Anthropic / Google)?

Frontier képesség kell (Claude Opus, GPT-5 szintű komplex reasoning)
Burst használat (havi pár ezer token, idle GPU-t pazarolnál)
Multi-modal (videó-megértés, képgeneráció - itt még messze a frontier)
Hatalmas kontextus (1M+ token egyetlen hívásban)

A megtérülési pont - friss 2026-os adatok

A Premai 2026 Q1 elemzése szerint:

5 millió token / nap átlagosan: 18-24 hónap alatt térül meg az on-prem
10 millió token / nap felett: 12-18 hónap alatt
70B modellre éles environment felépítése: $40,000–$190,000 kezdő befektetés
Rejtett költségek: +40-60% (üzemeltetés, áram, frissítés)
3 éves megtakarítás: akár 50% a felhő API-hoz képest, ha kihasznált a kapacitás

Forrás: Premai On-Premise LLM Deployment, SitePoint TCO Analysis 2026

Magyar KKV-kontextus

Egy középvállalati ügyfelünk 2026 januárjában váltott át OpenAI API-ról Qwen3.5-9B + RTX 4090 setup-ra:

Korábban: 1,800 EUR/hónap OpenAI API (átlag 8M token/nap)
Most: 4,200 EUR egyszeri hardver + ~120 EUR/hó áram + üzemeltetés
Megtérülés: 4. hónap végén
Compliance: kórház-partnerük megnyugodott, hogy a páciens-adatok el sem hagyják az országot

Implementációs stack 2026-ban

Inferencia szerver

vLLM 0.7+ - a de facto sztenderd OpenAI-kompatibilis API-val
TensorRT-LLM - ha NVIDIA, ha maximális sebesség kell
Ollama 0.19+ - fejlesztői gépre, M-széria Mac-en MLX-szel majdnem 2× sebesség
llama.cpp - CPU-only, vagy GGUF kvantált modellek

DGX Spark + vLLM gyorsindító - `spark-vllm-docker`

A DGX Spark-ra a legrosszabb élmény az lenne, ha 2-3 napig konfigurálnád a vLLM-et CUDA 12.1a architektúrára. Szerencsére van egy közösségi projekt, eugr/spark-vllm-docker, ami kifejezetten DGX Spark-ra (NVIDIA GB10, sm_121a) készült.

Mit ad:

Előre buildelt vLLM wheel-ek GitHub Releases-ből, naponta tesztelve - nem kell forrásból fordítani
Multi-node Ray cluster - kettő vagy három DGX Spark-ot összeköthetsz InfiniBand / RoCE-on át
Modell-receptek előre konfigurálva: Qwen 3.5-397B (igen, 397B paraméter három Spark-on!), Qwen3-Coder-Next, MiniMax M2/M2.5, GLM-4.7, Nemotron, GPT-OSS-120B
Kvantálás-támogatás: AWQ, INT4-AutoRound, NVFP4, FP8
FastSafeTensors - gyorsabb modell-betöltés
Non-privileged container - biztonságos prod-deployment

Indítás solo (egy Spark) módban:

git clone https://github.com/eugr/spark-vllm-docker.git
cd spark-vllm-docker
./build-and-copy.sh
./launch-cluster.sh --solo

Egy két-Sparkos clusterhez -c flag és launch-cluster.sh multi-node opciók.

Megjegyzés: a Qwen 3.6-27B még nincs a hivatalos receptben (frissek a release-ek), de a 3.5 receptből pár sor módosítással működésre lehet bírni.

Modell-menedzsment és RAG

Qdrant vagy Weaviate - vektor DB
LangChain vagy LlamaIndex - RAG keretrendszer
Langfuse (self-hosted!) - observability, prompt tracking (részletes összehasonlítás Langsmith-tel)

Biztonsági réteg

Garak vagy Promptfoo - prompt injection tesztelés
NeMo Guardrails - output szűrés
Llama Guard 3 - content moderation lokálisan

A leggyakoribb buktatók - amit nem írnak a marketinganyagokba

1. Memória ≠ teljesítmény

A 128 GB unified memóriás Spark lassabb generálásban, mint egy 24 GB-os RTX 4090 - egy 9B modell esetén. A nagy modell csak akkor előny, ha tényleg kell a kapacitás.

2. A kvantálás minőség-tax-ot ad

Egy Q4 kvantált 70B modell 8-12% MMLU pontot veszít Q8-hoz képest. Sok publikált benchmark Q8/FP16 - éles környezetben Q4-Q5-öt fogsz használni.

3. A hosszú kontextus drága

A 128k context window memória-igénye négyzetesen nő. Egy 32B modell 128k kontextus-szal 60-80 GB VRAM-ot igényel csak az attention cache-re.

4. A finomhangolás (LoRA) nem ezüstgolyó

LoRA fine-tuning nem fogja a tudást a modellbe írni. RAG-ot helyettesít - nem. Ha céges dokumentumokra akarsz válaszolni, RAG-ot építs, ne LoRA-t.

5. A támogatási teher valós

Egy on-prem AI rendszer napi felügyeletet igényel: GPU monitoring, modell-frissítések, biztonsági patch-ek. Ha nincs DevOps kapacitás, a felhő olcsóbb lesz hosszú távon is.

Mit ajánlunk magyar KKV-knak - döntési mátrix

Vállalat mérete	Use case	Ajánlott stack
1-10 fő	Kísérletezés, prototípus	Ollama + Qwen3.5-9B M3/M4 Mac-en
10-50 fő	Belső chatbot, RAG	RTX 4090 + vLLM + Qwen3.5-27B
50-200 fő	Production AI 100+ user	DGX Spark vagy 2× RTX 5090 + vLLM
200+ fő	Enterprise + compliance	Több GPU node + Kubernetes + privát Qwen / Llama

Az első lépések

Ha most kezdesz lokális AI-val, ne vegyél azonnal hardvert. Az 5 lépéses workflow:

Definiálj egy konkrét use case-t (pl. “számlák kivonatolása német VAT-tal”)
Mérd fel a token-volument (mennyi/nap?)
Tesztelj felhőben először (1-2 hét OpenAI / Anthropic API → tudd, működik-e a koncepció)
Próbálj nyílt modellt felhőben (Together.ai, Fireworks, Groq → ugyanaz a Qwen / Llama, csak nem a saját géped)
Csak ezután váltás lokálisra, ha a token-volumen igazolja

A legtöbb cég már a 3. lépés után látja, hogy a felhő-OpenAI költség 3x-osa a Together.ai-on futó Qwen3.5-9B-nek - anélkül, hogy egy szervert is venni kéne.

Kérj ingyenes AI infrastruktúra konzultációt

Ha érdekel, hogy a te céged AI igényei lokálisan vagy felhőben térülnek meg jobban, 30 perces ingyenes konzultáción átnézzük:

Aktuális AI költségeid
Adatérzékenység és compliance követelmények
Várható növekedés
Ajánlott modell + hardver stack
Várható ROI hónapokban

Kérj ingyenes konzultációt - vagy nézd meg az ingyenes SEO + AI auditunkat, ami a digitális stratégiád átfogó értékelése.

Kapcsolódó cikkek

AI integráció meglévő rendszerekbe - technikai megközelítés
RAG rendszerek: intelligens tudásbázis - RAG mélyfúrás
AI integráció a valóságban - esettanulmányok - 7 valós ROI eset
Langfuse vs Langsmith - AI observability self-hosted

Forrásjegyzék

Képgenerálási promptok (Midjourney / Flux / DALL-E)

Ezeket a promptokat használd az illusztrációk legenerálásához. A cikk megjelenítésénél ezt a szakaszt érdemes eltávolítani.

Hero kép (heroImage csere)

Cinematic dark studio shot of a sleek black NVIDIA DGX Spark mini-AI-supercomputer on a polished concrete desk, glowing lime-green LED accent strip, scattered server cooling fins reflection, dim purple rim light, ultra-detailed product photography, 8k, dramatic shadows, AppForge brand palette (deep black #0a0a0a, lime accent), 16:9 aspect ratio, no text

In-content kép 1 - “Qwen 3.5 benchmark vizualizáció”

Minimalist data visualization, dark background, glowing lime-green and purple bar chart comparing Qwen3.5-9B (82.5 MMLU-Pro) towering over GPT-OSS-120B (80.8) and Llama 3.3 (78.4), futuristic UI style, thin sans-serif labels, subtle grid, 16:9, AppForge dark theme

In-content kép 2 - “Lokális vs felhő architektúra diagram”

Isometric technical diagram on dark background, on-premise GPU server (left side, lime-green glow) connected to office workstations, vs floating cloud icon (right side, purple glow) with API arrows, clean line-art style, AppForge color palette, 16:9, infographic-style with minimal text labels

In-content kép 3 - “DGX Spark alkalmazási környezet”

Modern Hungarian SMB office, developer reviewing terminal output on a 4K monitor, NVIDIA DGX Spark visible on desk emitting subtle lime LED glow, soft warm window light from left, slight cyberpunk aesthetic, photorealistic, 3:2 aspect ratio

Megosztás:

MI-megoldásra van szükséged?

Automatizáld a munkafolyamataidat és szerezz versenyelőnyt mesterséges intelligencia megoldásainkkal.

MI fejlesztés részletek Ingyenes 30 perces konzultáció

Kapcsolódó cikkek

Ezek a cikkek is érdekelhetnek

AI chatbot, n8n workflow és egyedi ügynök architektúra összehasonlítása

AI integráció AI ügynök chatbot

AI chatbot vs n8n vs egyedi AI ügynök 2026 – Mikor melyik?

AI chatbot, n8n workflow vagy egyedi AI ügynök - melyik passzol a vállalkozásodhoz? Gyakorlati 2026-os összehasonlítás árakkal, példákkal és döntési mátrixszal.

2026. április 25. 6 perc olvasás

ChatGPT felülete magyar nyelvű vállalati alkalmazásban

AI integráció ChatGPT OpenAI

ChatGPT magyar nyelven vállalati használatra 2026 – Útmutató cégeknek

ChatGPT magyar vállalati használat 2026: hogyan integráld a ChatGPT-t (és más LLM-eket) a céges folyamataidba. Árak, GDPR, EU AI Act, magyar nyelvi minőség, gyakorlati példák.

2026. április 25. 6 perc olvasás

Egyedi kódolt weboldal és sablon-alapú weboldal összehasonlítása

weboldal készítés egyedi fejlesztés összehasonlítás

Egyedi weboldal készítés vs sablon 2026 – Őszinte összehasonlítás magyar cégeknek

Egyedi weboldal készítés vagy sablon 2026-ban? Számokra épülő, őszinte összehasonlítás: árak, SEO, sebesség, hosszú távú költségek és üzleti megtérülés magyar cégeknek.

2026. április 25. 6 perc olvasás

Vissza a bloghoz

Lokális AI futtatás 2026 – Qwen 3.6, NVIDIA DGX Spark és a szuverén AI infrastruktúra

Miért robbant be a lokális AI 2026-ban?

Mi az a “lokális AI futtatás”?

Qwen 3.6 - friss release (2026. április)

Mit hoz a Qwen 3.6 a Qwen 3.5-hez képest?

Qwen 3.5 és 3.6 - az open-source forradalom

Qwen 3.5 / 3.6 benchmark számok (2026 Q1-Q2)

Mit jelent ez a gyakorlatban?

A Qwen alkalmazási esetek, amelyeket nálunk az ügyfelek leggyakrabban kérnek

NVIDIA DGX Spark - az asztali AI szuperszámítógép

A specifikációk

Tényleges DGX Spark benchmarkok (GPT-OSS 120B, 128k kontextus)

Mikor éri meg a DGX Spark?

Alternatívák ugyanabban a kategóriában

Hibrid stratégia: mikor lokális, mikor felhő?

Mikor lokális Qwen / Llama / DeepSeek?

Mikor felhő API (OpenAI / Anthropic / Google)?

A megtérülési pont - friss 2026-os adatok

Magyar KKV-kontextus

Implementációs stack 2026-ban

Inferencia szerver

DGX Spark + vLLM gyorsindító - spark-vllm-docker

Modell-menedzsment és RAG

Biztonsági réteg

A leggyakoribb buktatók - amit nem írnak a marketinganyagokba

1. Memória ≠ teljesítmény

2. A kvantálás minőség-tax-ot ad

3. A hosszú kontextus drága

4. A finomhangolás (LoRA) nem ezüstgolyó

5. A támogatási teher valós

Mit ajánlunk magyar KKV-knak - döntési mátrix

Az első lépések

Kérj ingyenes AI infrastruktúra konzultációt

Kapcsolódó cikkek

Forrásjegyzék

Képgenerálási promptok (Midjourney / Flux / DALL-E)

Hero kép (heroImage csere)

In-content kép 1 - “Qwen 3.5 benchmark vizualizáció”

In-content kép 2 - “Lokális vs felhő architektúra diagram”

In-content kép 3 - “DGX Spark alkalmazási környezet”

MI-megoldásra van szükséged?

Kapcsolódó cikkek

AI chatbot vs n8n vs egyedi AI ügynök 2026 – Mikor melyik?

ChatGPT magyar nyelven vállalati használatra 2026 – Útmutató cégeknek

Egyedi weboldal készítés vs sablon 2026 – Őszinte összehasonlítás magyar cégeknek

DGX Spark + vLLM gyorsindító - `spark-vllm-docker`