LangFuse vs LangSmith: Így monitorozd és debugold az AI alkalmazásaidat
Az AI alkalmazásod egy fekete doboz - hacsak nem figyeled meg
Építettél egy RAG chatbotot, beállítottál egy AI agent-et, vagy integrálsz LLM-et az üzleti folyamataidba. Az első demó lenyűgöző. Aztán jönnek a kérdések: Miért hallucináit a modell a tegnapi ügyfélhívásban? Mennyibe kerül naponta az OpenAI API? Miért lett 8 másodperces a válaszidő? Melyik prompt verzió teljesít jobban?
Hagyományos szoftvernél van Datadog, Sentry, Grafana. De az LLM alkalmazások fundamentálisan mások: nem determinisztikusak, a költségük token-alapú, a minőségük szubjektív, és a hibáik sokszor nem exception-ök, hanem rossz válaszok. Ehhez más típusú megfigyelhetőség kell - ezt hívjuk AI observability-nek.
2026-ra ez a terület felrobbant. Ebben a cikkben összehasonlítjuk a két vezető platformot (LangFuse és LangSmith), áttekintjük az ökoszisztéma többi szereplőjét, és segítünk eldönteni, melyik illik a projektedhez.
Miért kritikus az AI observability?
Mielőtt az eszközökbe merülnénk, tisztázzuk, mit kell mérned egy LLM alkalmazásban:
- Tracing: Minden LLM hívás, tool use, retrieval lépés nyomon követése - ki hívta, mit kapott, mit válaszolt
- Latency: Mennyi idő a válasz generálása? Hol a szűk keresztmetszet - az LLM, a vektor keresés, vagy a hálózat?
- Költség: Token-használat és API költségek valós időben. Egy rosszul megírt prompt napi $50 helyett $500-ba is kerülhet
- Minőség: A válaszok pontossága, relevanciája, faithfulness-e - automatizált LLM-as-judge scoring-gal
- Hibaarány: Timeout-ok, rate limit-ek, parse hibák, guardrail sértések
Ezek nélkül vakon vezetsz. Az observability nem luxus - ez az, ami production-ready-vé teszi az AI alkalmazásodat.
LangSmith: a LangChain ökoszisztéma megfigyelője
A LangSmith a LangChain csapat hivatalos observability platformja. Ha a LangChain/LangGraph ökoszisztémában építesz, a LangSmith a természetes választás - egyetlen környezeti változó beállításával működik.
Főbb képességek
- Tracing: Automatikus, részletes trace-ek minden LangChain/LangGraph futáshoz. A trace-ek vizuálisan követhetők a webes felületen, beleértve az agent ciklusokat, tool use hívásokat és a döntési pontokat
- Evaluation: Beépített kiértékelő keretrendszer - LLM-as-judge, hasonlóság-metrikák, custom scorer-ek. Az eval eredmények közvetlenül a trace-ekhez kapcsolódnak
- Datasets: Adat-halmazok kezelése a kiértékeléshez és a regressziós teszteléshez
- Prompt management: Prompt verziózás és A/B tesztelés
- Polly AI asszisztens: Beépített AI, ami segít a trace-ek debugolásában és elemzésében
- Full-stack költségkövetés: Agent-szintű költségbontás, hogy lásd, melyik lépés mennyibe kerül
LangSmith árazás (2026)
| Terv | Ár | Seat-ek | Trace-ek (alap) | Megjegyzés |
|---|---|---|---|---|
| Developer | Ingyenes | 1 | 5 000/hó | Solo fejlesztőknek |
| Plus | $39/seat/hó | Max 10 | 10 000/hó | Növekvő csapatoknak |
| Enterprise | Egyedi | Korlátlan | Egyedi | SSO, RBAC, dedikált support |
Az alap trace-ek 14 napos megőrzéssel jönnek ($2.50 / 1 000 trace), a kiterjesztett trace-ek 400 napos megőrzéssel ($5.00 / 1 000 trace).
Mikor válaszd a LangSmith-t?
- Ha LangChain-nel vagy LangGraph-fal dolgozol - a setup szó szerint egy sor kód
- Ha a kiértékelés (eval) a legfontosabb szempont
- Ha elfogadod a vendor lock-in-t a kényelem kedvéért
- Ha managed SaaS-t akarsz, nem self-hostingot
Korlátok
- LangChain-függőség: Bár technikailag más framework-kel is működik, az integráció messze nem olyan mély
- Nincs self-hosting: Csak SaaS-ként érhető el - ha adatszuverenitás fontos, ez probléma
- Költség skálázásnál: 100K+ trace/hó esetén a költség gyorsan nő
LangFuse: a nyílt forráskódú alternatíva
A LangFuse az AI observability nyílt forráskódú válasza. MIT licenszelt, self-hostolható, és bármilyen LLM keretrendszerrel működik - nem csak LangChain-nel. 2026-ra a LangFuse lett a legelterjedtebb open-source LLM observability platform.
Főbb képességek
- Tracing: OpenTelemetry-kompatibilis trace-ek, amelyek bármilyen LLM hívást, tool use-t és egyéni logikát rögzítenek. Session-ök a többlépcsős interakciókhoz
- Scoring: Numerikus, boolean és kategória-alapú score-ok - LLM-as-judge automatikus kiértékelés, emberi feedback, vagy egyedi metrikák
- Prompt management: Verziókezelés, label-ek, és a prompt verziók trace-ekhez kapcsolása - így mérheted, melyik verzió teljesít jobban
- Datasets: Dataset item verziózás, bulk hozzáadás trace-ekből, és kísérletezés
- Cost tracking: Automatikus token- és költségszámítás az összes nagyobb modellhez, beleértve az OpenAI GPT-5.2-t is
- API v2: Nagy teljesítményű API cursor-alapú paginációval és szelektív mezőlekérdezéssel
LangFuse árazás (2026)
| Terv | Ár | Benne foglalt | Megjegyzés |
|---|---|---|---|
| Self-hosted (OSS) | Ingyenes | Korlátlan | MIT licensz, Docker/K8s |
| Cloud | $199/hó | 100K unit/hó | +$8 / 100K unit felette |
| Enterprise (self-hosted) | Egyedi | Enterprise funkciók | SSO, RBAC, support |
A self-hosted verzió teljesen ingyenes - Docker Compose, Kubernetes (Helm chart), vagy Terraform template-ek AWS/Azure/GCP-re.
Integráció: nem csak LangChain
A LangFuse legnagyobb előnye: framework-agnosztikus. Natív SDK-k Python-hoz és JavaScript-hez, plusz integrációk:
- LangChain / LangGraph
- LlamaIndex
- OpenAI SDK (közvetlen)
- Anthropic Claude SDK
- Haystack
- DSPy
- Vercel AI SDK
- Bármilyen egyéni kód a
@observedekorátorral
Mikor válaszd a LangFuse-t?
- Ha self-hosting fontos (adatszuverenitás, GDPR, belső policy)
- Ha nem LangChain-t használsz (vagy többféle framework-öt)
- Ha költségérzékeny vagy - a self-hosted verzió ingyenes
- Ha nyílt forráskódú eszközöket preferálsz
Gyakorlati implementáció: LangFuse tracing Python-ban
Lássuk, hogyan néz ki a LangFuse integráció a gyakorlatban:
from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from openai import OpenAI
# Inicializálás
langfuse = Langfuse(
public_key="pk-lf-...",
secret_key="sk-lf-...",
host="https://cloud.langfuse.com" # vagy a self-hosted URL
)
client = OpenAI()
@observe()
def retrieve_context(query: str) -> str:
"""Dokumentumok visszakeresése a vektor adatbázisból."""
# Vektor keresés szimulálás
results = vector_db.search(query, top_k=5)
langfuse_context.update_current_observation(
metadata={"source": "qdrant", "top_k": 5},
input=query,
output=results
)
return results
@observe()
def generate_answer(query: str, context: str) -> str:
"""Válasz generálás az LLM-mel."""
response = client.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "system", "content": f"Kontextus: {context}"},
{"role": "user", "content": query}
]
)
answer = response.choices[0].message.content
# Minőségi score hozzáadása
langfuse_context.score_current_trace(
name="answer_relevance",
value=0.95, # Ezt automatikus eval-ból is számolhatod
comment="Highly relevant response"
)
return answer
@observe()
def rag_pipeline(query: str) -> str:
"""Teljes RAG pipeline trace-szel."""
context = retrieve_context(query)
answer = generate_answer(query, context)
return answer
# Futtatás - a teljes pipeline automatikusan trace-elődik
result = rag_pipeline("Mi a visszaküldési szabályzatunk?")
Ez a kód automatikusan létrehoz egy hierarchikus trace-et a LangFuse-ban: a rag_pipeline a szülő, benne a retrieve_context és generate_answer gyerek observation-ök. Minden lépésnél látsz latency-t, token-használatot és költséget.
Az ökoszisztéma többi szereplője
A LangFuse és LangSmith mellett több érett platform is versenyez ezen a piacon:
Arize Phoenix
Nyílt forráskódú, OpenTelemetry-alapú observability és evaluation platform. Különösen erős a RAG kiértékelésben.
- Erősségek: Kiváló RAG evaluation toolkit, framework-agnosztikus (LangChain, LlamaIndex, Haystack, DSPy, smolagents), vizuális trace inspector, prompt playground
- Deployment: Docker, Kubernetes, vagy Arize Cloud (app.phoenix.arize.com)
- Aktuális verzió: 12.33.0 (2026. január)
- Mikor válaszd: Ha a RAG kiértékelés a fő prioritás, és nyílt forráskódú megoldást keresel
Helicone
Proxy-alapú megközelítés - a Helicone az LLM provider és az alkalmazásod közé áll, és minden hívást automatikusan naplóz.
- Erősségek: Ultra-gyors Rust gateway (8ms P50 latency), intelligens routing és caching (akár 95%-os költségcsökkentés), SOC 2 és GDPR kompatibilis
- Árazás: Ingyenes 100K request/hó, utána $20/seat/hó
- Mikor válaszd: Ha a leggyorsabb setup-ot akarod - egy URL csere és kész. Különösen jó cost optimization-re
Braintrust
Evaluation-first platform, ami az observability-t közvetlenül a kiértékelési ciklusba integrálja.
- Erősségek: Production trace-ek egy kattintással eval case-ekké válnak, AI proxy minden nagy LLM provider-hez, Brainstore (80x gyorsabb query teljesítmény)
- Árazás: Ingyenes (1M span, 14 napos megőrzés), Pro $249/hó, Enterprise egyedi
- Mikor válaszd: Ha a kiértékelés és a production monitoring közötti feedback loop a legfontosabb
Weights & Biases Weave
Az ML ökoszisztéma veteránjának LLM observability megoldása.
- Erősségek: Zökkenőmentes integráció a meglévő W&B experiment tracking-gel, automatikus input/output/metaadat naplózás, trace tree metrikákkal
- Árazás: Ingyenes kezdés, team/enterprise tervek
- Mikor válaszd: Ha a csapatod már W&B-t használ ML projektekhez, és az LLM alkalmazásokat ugyanabba az ökoszisztémába akarod integrálni
Összehasonlító táblázat
| Szempont | LangFuse | LangSmith | Arize Phoenix | Helicone | Braintrust |
|---|---|---|---|---|---|
| Open-source | MIT | Nem | Apache 2.0 | Részben | Nem |
| Self-hosting | Docker, K8s | Nem | Docker, K8s | Nem | Nem |
| Ingyenes tier | Korlátlan (self-hosted) | 5 000 trace/hó | Korlátlan (self-hosted) | 100K req/hó | 1M span |
| Fizetős induló ár | $199/hó (cloud) | $39/seat/hó | Cloud egyedi | $20/seat/hó | $249/hó |
| Tracing | Teljes | Teljes | Teljes | Proxy-alapú | Teljes |
| Evaluation | LLM-as-judge, custom | LLM-as-judge, datasets | RAG-fókuszú eval | Alap metrikák | Eval-first |
| Prompt management | Verziózás, label-ek | Verziózás, A/B teszt | Playground | Playground | Prompt tracking |
| Framework integráció | Bármelyik | LangChain-optimális | Bármelyik | Bármelyik (proxy) | Bármelyik (proxy) |
| Megközelítés | SDK-alapú | SDK-alapú | SDK-alapú | Proxy-alapú | Proxy + SDK |
Döntési keretrendszer: melyiket válaszd?
1. kérdés: Self-hosting fontos?
Ha igen → LangFuse vagy Arize Phoenix. Ezek az egyetlen érett, self-hostolható megoldások. Ha GDPR, belső compliance, vagy adatszuverenitás követelmény, itt nincs más választásod.
2. kérdés: Milyen framework-öt használsz?
- LangChain/LangGraph → A LangSmith a legkényelmesebb, de a LangFuse is kiváló
- LlamaIndex, Haystack, DSPy → LangFuse vagy Arize Phoenix
- Közvetlen OpenAI/Anthropic SDK → LangFuse, Helicone, vagy Braintrust
- Több framework vegyes használata → LangFuse (a legszélesebb integráció)
3. kérdés: Mi a fő prioritásod?
- Cost optimization → Helicone (proxy + caching + routing)
- Evaluation és quality → Braintrust vagy LangSmith
- RAG debugging → Arize Phoenix
- Általános observability → LangFuse (a legjobb all-rounder)
- ML team, meglévő W&B infrastruktúra → Weave
4. kérdés: Mennyi a büdzséd?
- $0 (self-hosted) → LangFuse OSS vagy Arize Phoenix
- $0-50/hó → LangSmith Developer/Plus, Helicone free tier
- $200+/hó → LangFuse Cloud, Braintrust Pro
- Enterprise → Bármelyik, egyedi árazással
Milyen metrikákat kövess?
Bármilyen eszközt is választasz, ezeket a metrikákat mindenképp figyeld:
Teljesítmény
- End-to-end latency: A teljes pipeline válaszideje (cél: <3s interaktív alkalmazásoknál)
- LLM latency: Maga a modell válaszideje, TTFT (Time to First Token)
- Retrieval latency: Vektor keresés ideje (cél: <200ms)
Költség
- Napi/havi API költség: Aggregált és per-trace bontásban
- Token/kérdés: Átlagos input és output token-szám kérdésenként
- Költség/felhasználó: Mennyibe kerül egy aktív felhasználó kiszolgálása
Minőség
- Faithfulness score: A válasz hűsége a forrás dokumentumokhoz (RAG)
- Answer relevance: A válasz relevanciája a kérdéshez
- Hallucination rate: A hallucinált válaszok aránya
- User feedback: Hüvelykujj fel/le, CSAT score
Megbízhatóság
- Error rate: Sikertelen LLM hívások aránya
- Timeout rate: Időtúllépések gyakorisága
- Guardrail trigger rate: Hányszor lép be a biztonsági szűrő
Az observability megtérülése
Az AI observability nem “nice-to-have” - mérhető üzleti értéket teremt:
Költségcsökkentés: Egy tipikus AI alkalmazásnál az observability bevezetése 20-40%-os költségcsökkentést hoz - mert láthatóvá válnak a felesleges LLM hívások, a túl hosszú promptok, és az alacsony cache hit rate.
Hallucination-csökkentés: Ha méred a faithfulness-t és automatikus eval-t futtatsz, a hallucinációs rátát 15-20%-ról 2-5% alá szoríthatod - mert látod, hol és miért történik, és célzottan javítasz.
Gyorsabb debugging: Egy production issue debugolása observability nélkül órákba telhet - “melyik prompt volt? melyik modell verzió? mi volt a kontextus?” Trace-ekkel ez percek kérdése.
Prompt optimalizálás: Ha verziókezeled a promptjaidat és méred a teljesítményüket, A/B tesztheted a változtatásokat - és a döntéseid adatalapúak lesznek, nem megérzés-alapúak.
Összegzés
Az AI observability 2026-ban már nem opcionális - ez az, ami elválasztja a “működő demót” a “production-ready AI alkalmazástól”. A jó hír: a piac érett, és mindegyik megközelítésnek megvan a maga helye.
Ha egy eszközt kell ajánlani: A LangFuse a legjobb kiindulópont a legtöbb csapat számára. Nyílt forráskódú, self-hostolható, framework-agnosztikus, és a cloud verzió is tisztességes áron elérhető. Ha LangChain-ben dolgozol és a kényelmet preferálod, a LangSmith kiváló választás. Ha a cost optimization a fő szempont, nézd meg a Helicone-t. Ha RAG-ot debugolsz, az Arize Phoenix a barátod.
A lényeg: válassz egyet és kezdj el mérni. A legrosszabb döntés az, ha nem mérsz semmit.
Ha AI alkalmazásod observability-jének felállításához vagy optimalizálásához segítségre van szükséged, az AppForge csapata segít a megfelelő eszköz kiválasztásában, az integráció megtervezésében és a production monitoring felállításában.
MI-megoldásra van szükséged?
Automatizáld a munkafolyamataidat és szerezz versenyelőnyt mesterséges intelligencia megoldásainkkal.
Kapcsolódó cikkek
Ezek a cikkek is érdekelhetnek
MI fejlesztés árak 2026 – Mennyibe kerül egy AI megoldás Magyarországon?
Részletes útmutató a mesterséges intelligencia fejlesztés árakról Magyarországon: chatbotok, RAG rendszerek, egyedi modellek és folyamatautomatizálás költségei.
Vállalkozás automatizálás MI-vel: Gyakorlati útmutató KKV-knak
Lépésről lépésre útmutató, hogyan automatizáld az üzleti folyamataidat mesterséges intelligenciával - konkrét eszközökkel és ROI számokkal.
RAG rendszerek: Hogyan építs intelligens vállalati tudásbázist?
Mi az a RAG (Retrieval-Augmented Generation)? Magyar nyelvű útmutató: hogyan működik, architektúra, vektor adatbázisok, chunking és gyakorlati implementáció.