Az AI alkalmazás egy fekete doboz — hacsak nem figyeled
Építettél egy RAG chatbotot, agentet, vagy LLM-et integráltál üzleti folyamatokba. Az első demó lenyűgöző. Aztán jönnek a kérdések: miért hallucinált a modell az ügyfélhívásban? Mennyibe kerül naponta az OpenAI API? Miért lett 8 másodperces a válaszidő? Melyik prompt verzió teljesít jobban?
Hagyományos szoftvernél van Datadog, Sentry, Grafana. De az LLM alkalmazások fundamentálisan mások: nem determinisztikusak, a költségük token-alapú, a minőségük szubjektív, és a hibáik sokszor nem exception-ök, hanem rossz válaszok. Ehhez kell az AI observability. 2026-ra ez a terület felrobbant.
Miért kritikus az AI observability?
Mielőtt eszközt választasz, tisztázzuk, mit kell mérned:
- Tracing: minden LLM hívás, tool use, retrieval lépés nyomon követése — ki hívta, mit kapott, mit válaszolt
- Latency: mennyi idő a válasz? Hol a szűk keresztmetszet — LLM, vektor keresés, hálózat?
- Költség: token-használat és API költségek valós időben. Egy rosszul megírt prompt napi $50 helyett $500-ba is kerülhet
- Minőség: a válaszok pontossága, relevanciája, faithfulness-e — automatizált LLM-as-judge scoring-gal
- Hibaarány: timeout-ok, rate limit-ek, parse hibák, guardrail sértések
Ezek nélkül vakon vezetsz. Az observability nem luxus — ez teszi production-ready-vé az AI alkalmazást.
LangSmith — a LangChain ökoszisztéma megfigyelője
A LangSmith a LangChain csapat hivatalos observability platformja. Ha LangChain/LangGraph-ban építesz, a setup szó szerint egy környezeti változó.
Főbb képességek
- Tracing: automatikus, részletes trace-ek minden LangChain/LangGraph futáshoz; agent ciklusok, tool use hívások és döntési pontok vizuálisan
- Evaluation: beépített LLM-as-judge, hasonlóság-metrikák, custom scorer; az eval eredmények közvetlenül a trace-ekhez kapcsolódnak
- Datasets: dataset-kezelés a kiértékeléshez és regressziós teszteléshez
- Prompt management: verziózás, A/B tesztelés
- Polly AI asszisztens: beépített AI a trace-debugoláshoz
- Költségkövetés: agent-szintű költségbontás
LangSmith árazás (2026)
| Terv | Ár | Seat-ek | Trace-ek | Megjegyzés |
|---|---|---|---|---|
| Developer | Ingyenes | 1 | 5 000/hó | Solo fejlesztőknek |
| Plus | $39/seat/hó | Max 10 | 10 000/hó | Növekvő csapatoknak |
| Enterprise | Egyedi | Korlátlan | Egyedi | SSO, RBAC, dedikált support |
Az alap trace-ek 14 napos megőrzéssel jönnek ($2,50 / 1 000 trace), a kiterjesztett trace-ek 400 napos megőrzéssel ($5,00 / 1 000 trace).
Mikor válaszd?
- LangChain/LangGraph fejlesztés — egy sor kód a setup
- Ha a kiértékelés a fő szempont
- Ha managed SaaS kell, nem self-hosting
Korlátok
- LangChain-függőség (más framework-kel sekélyebb az integráció)
- Nincs self-hosting — ha adatszuverenitás kell, ez probléma
- 100K+ trace/hó esetén a költség gyorsan nő
LangFuse — a nyílt forráskódú alternatíva
A LangFuse MIT licenszelt, self-hostolható, és bármilyen LLM keretrendszerrel működik — nem csak LangChain-nel. 2026-ra a legelterjedtebb open-source LLM observability platform.
Főbb képességek
- Tracing: OpenTelemetry-kompatibilis trace-ek, session-ök a többlépcsős interakciókhoz
- Scoring: numerikus, boolean és kategória-alapú score-ok — LLM-as-judge, emberi feedback, vagy egyedi metrika
- Prompt management: verziózás, label-ek, prompt-trace kapcsolat
- Datasets: verziózás, bulk hozzáadás trace-ekből, kísérletezés
- Cost tracking: automatikus token- és költségszámítás minden nagyobb modellhez (GPT-5.2 is)
- API v2: nagy teljesítményű, cursor-alapú pagináció, szelektív mezőlekérdezés
LangFuse árazás (2026)
| Terv | Ár | Benne foglalt | Megjegyzés |
|---|---|---|---|
| Self-hosted (OSS) | Ingyenes | Korlátlan | MIT licensz, Docker/K8s |
| Cloud | $199/hó | 100K unit/hó | +$8 / 100K unit felette |
| Enterprise (self-hosted) | Egyedi | Enterprise funkciók | SSO, RBAC, support |
Integráció — nem csak LangChain
Natív SDK Python-hoz és JavaScript-hez, plusz integrációk: LangChain / LangGraph, LlamaIndex, OpenAI SDK (közvetlen), Anthropic Claude SDK, Haystack, DSPy, Vercel AI SDK, és bármilyen egyéni kód a @observe dekorátorral.
Mikor válaszd?
- Self-hosting fontos (adatszuverenitás, GDPR, belső policy)
- Nem (csak) LangChain-t használsz
- Költségérzékeny vagy — a self-hosted ingyenes
- Nyílt forráskódú eszközöket preferálsz
Gyakorlati implementáció — LangFuse Python-ban
Tipikus RAG pipeline trace-ekkel:
from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from openai import OpenAI
langfuse = Langfuse(
public_key="pk-lf-...",
secret_key="sk-lf-...",
host="https://cloud.langfuse.com"
)
client = OpenAI()
@observe()
def retrieve_context(query: str) -> str:
results = vector_db.search(query, top_k=5)
langfuse_context.update_current_observation(
metadata={"source": "qdrant", "top_k": 5},
input=query, output=results
)
return results
@observe()
def generate_answer(query: str, context: str) -> str:
response = client.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "system", "content": f"Kontextus: {context}"},
{"role": "user", "content": query}
]
)
answer = response.choices[0].message.content
langfuse_context.score_current_trace(
name="answer_relevance", value=0.95
)
return answer
@observe()
def rag_pipeline(query: str) -> str:
context = retrieve_context(query)
return generate_answer(query, context)Ez automatikusan létrehoz egy hierarchikus trace-et: a rag_pipeline a szülő, benne a retrieve_context és generate_answer gyerek observation-ök. Minden lépésnél látsz latency-t, token-használatot és költséget.
Az ökoszisztéma többi szereplője
Arize Phoenix
Nyílt forráskódú, OpenTelemetry-alapú observability és evaluation platform. Erőssége a RAG kiértékelés.
- RAG eval toolkit, framework-agnosztikus (LangChain, LlamaIndex, Haystack, DSPy, smolagents)
- Vizuális trace inspector, prompt playground
- Deployment: Docker, Kubernetes, vagy Arize Cloud
- Aktuális: 12.33.0 (2026 január)
- Mikor: ha RAG eval a fő prioritás, és nyílt forráskódú megoldást keresel
Helicone
Proxy-alapú megközelítés.
- Ultra-gyors Rust gateway (8ms P50 latency)
- Intelligens routing és caching (akár 95% költségcsökkentés)
- SOC 2 + GDPR kompatibilis
- Ingyenes 100K request/hó, utána $20/seat/hó
- Mikor: leggyorsabb setup (egy URL csere) és cost optimization
Braintrust
Evaluation-first platform.
- Production trace → eval case egy kattintással
- AI proxy minden nagy LLM provider-hez
- Brainstore (80x gyorsabb query)
- Ingyenes (1M span, 14 nap), Pro $249/hó, Enterprise egyedi
- Mikor: ha a kiértékelés ↔ production monitoring feedback loop a fő szempont
Weights & Biases Weave
Az ML ökoszisztéma veteránjának LLM observability megoldása.
- Zökkenőmentes integráció a meglévő W&B experiment tracking-gel
- Automatikus input/output/metaadat naplózás
- Trace tree metrikákkal
- Ingyenes kezdés, team / enterprise tervek
- Mikor: ha a csapat már W&B-t használ ML projektekhez
Összehasonlító táblázat
| Szempont | LangFuse | LangSmith | Arize Phoenix | Helicone | Braintrust |
|---|---|---|---|---|---|
| Open-source | MIT | Nem | Apache 2.0 | Részben | Nem |
| Self-hosting | Docker, K8s | Nem | Docker, K8s | Nem | Nem |
| Ingyenes tier | Korlátlan (self-hosted) | 5 000 trace/hó | Korlátlan (self-hosted) | 100K req/hó | 1M span |
| Fizetős induló ár | $199/hó (cloud) | $39/seat/hó | Cloud egyedi | $20/seat/hó | $249/hó |
| Tracing | Teljes | Teljes | Teljes | Proxy-alapú | Teljes |
| Evaluation | LLM-as-judge, custom | LLM-as-judge, datasets | RAG-fókuszú eval | Alap metrikák | Eval-first |
| Prompt management | Verziózás, label-ek | Verziózás, A/B teszt | Playground | Playground | Prompt tracking |
| Framework | Bármelyik | LangChain-optimális | Bármelyik | Bármelyik (proxy) | Bármelyik (proxy) |
| Megközelítés | SDK-alapú | SDK-alapú | SDK-alapú | Proxy-alapú | Proxy + SDK |
Döntési keretrendszer
1. Self-hosting fontos?
Ha igen → LangFuse vagy Arize Phoenix. Ezek az egyetlen érett, self-hostolható megoldások. GDPR, belső compliance vagy adatszuverenitás esetén nincs más választás.
2. Milyen framework-öt használsz?
- LangChain/LangGraph: LangSmith a legkényelmesebb, LangFuse is kiváló
- LlamaIndex, Haystack, DSPy: LangFuse vagy Arize Phoenix
- Közvetlen OpenAI/Anthropic SDK: LangFuse, Helicone vagy Braintrust
- Több framework vegyesen: LangFuse (legszélesebb integráció)
3. Mi a fő prioritásod?
- Cost optimization: Helicone (proxy + caching + routing)
- Evaluation, quality: Braintrust vagy LangSmith
- RAG debugging: Arize Phoenix
- Általános observability: LangFuse (legjobb all-rounder)
- ML team, meglévő W&B: Weave
4. Mennyi a büdzséd?
- $0 (self-hosted): LangFuse OSS vagy Arize Phoenix
- $0-50/hó: LangSmith Developer/Plus, Helicone free tier
- $200+/hó: LangFuse Cloud, Braintrust Pro
- Enterprise: bármelyik, egyedi árazással
Milyen metrikákat kövess?
Teljesítmény
- End-to-end latency: teljes pipeline (cél: <3s interaktív)
- LLM latency: a modell válaszideje, TTFT (Time to First Token)
- Retrieval latency: vektor keresés (cél: <200ms)
Költség
- Napi/havi API költség aggregált és per-trace bontásban
- Token/kérdés (input + output)
- Költség/felhasználó
Minőség
- Faithfulness: a válasz hűsége a forráshoz (RAG)
- Answer relevance: mennyire válaszol a kérdésre
- Hallucination rate: hallucinált válaszok aránya
- User feedback: hüvelykujj fel/le, CSAT
Megbízhatóság
- Error rate (sikertelen LLM hívások)
- Timeout rate
- Guardrail trigger rate
Az observability megtérülése
Mérhető üzleti érték:
- Költségcsökkentés: tipikusan 20-40% — láthatóvá válnak a felesleges hívások, túl hosszú promptok, alacsony cache hit rate
- Hallucination-csökkentés: 15-20%-ról 2-5% alá faithfulness-méréssel és automatikus eval-lal
- Gyorsabb debugging: egy production issue percek alatt, nem órák alatt — látod, melyik prompt, modell verzió, kontextus volt
- Prompt optimalizálás: A/B teszt verziókkal, adatalapú döntések
Összegzés
A lényeg: válassz egyet és kezdj el mérni. A legrosszabb döntés az, ha nem mérsz semmit. Ha az AI alkalmazásod observability-jének felállításához kell segítség, az AppForge csapata megtervezi az integrációt és a production monitoring-ot.



