LangFuse vs LangSmith: Így monitorozd és debugold az AI alkalmazásaidat

Írta: AppForge Team 2026. január 27. 12 perc olvasás

MI observability dashboard trace-ekkel és metrikákkal

Az AI alkalmazásod egy fekete doboz - hacsak nem figyeled meg

Építettél egy RAG chatbotot, beállítottál egy AI agent-et, vagy integrálsz LLM-et az üzleti folyamataidba. Az első demó lenyűgöző. Aztán jönnek a kérdések: Miért hallucináit a modell a tegnapi ügyfélhívásban? Mennyibe kerül naponta az OpenAI API? Miért lett 8 másodperces a válaszidő? Melyik prompt verzió teljesít jobban?

Hagyományos szoftvernél van Datadog, Sentry, Grafana. De az LLM alkalmazások fundamentálisan mások: nem determinisztikusak, a költségük token-alapú, a minőségük szubjektív, és a hibáik sokszor nem exception-ök, hanem rossz válaszok. Ehhez más típusú megfigyelhetőség kell - ezt hívjuk AI observability-nek.

2026-ra ez a terület felrobbant. Ebben a cikkben összehasonlítjuk a két vezető platformot (LangFuse és LangSmith), áttekintjük az ökoszisztéma többi szereplőjét, és segítünk eldönteni, melyik illik a projektedhez.

Miért kritikus az AI observability?

Mielőtt az eszközökbe merülnénk, tisztázzuk, mit kell mérned egy LLM alkalmazásban:

Tracing: Minden LLM hívás, tool use, retrieval lépés nyomon követése - ki hívta, mit kapott, mit válaszolt
Latency: Mennyi idő a válasz generálása? Hol a szűk keresztmetszet - az LLM, a vektor keresés, vagy a hálózat?
Költség: Token-használat és API költségek valós időben. Egy rosszul megírt prompt napi $50 helyett $500-ba is kerülhet
Minőség: A válaszok pontossága, relevanciája, faithfulness-e - automatizált LLM-as-judge scoring-gal
Hibaarány: Timeout-ok, rate limit-ek, parse hibák, guardrail sértések

Ezek nélkül vakon vezetsz. Az observability nem luxus - ez az, ami production-ready-vé teszi az AI alkalmazásodat.

LangSmith: a LangChain ökoszisztéma megfigyelője

A LangSmith a LangChain csapat hivatalos observability platformja. Ha a LangChain/LangGraph ökoszisztémában építesz, a LangSmith a természetes választás - egyetlen környezeti változó beállításával működik.

Főbb képességek

Tracing: Automatikus, részletes trace-ek minden LangChain/LangGraph futáshoz. A trace-ek vizuálisan követhetők a webes felületen, beleértve az agent ciklusokat, tool use hívásokat és a döntési pontokat
Evaluation: Beépített kiértékelő keretrendszer - LLM-as-judge, hasonlóság-metrikák, custom scorer-ek. Az eval eredmények közvetlenül a trace-ekhez kapcsolódnak
Datasets: Adat-halmazok kezelése a kiértékeléshez és a regressziós teszteléshez
Prompt management: Prompt verziózás és A/B tesztelés
Polly AI asszisztens: Beépített AI, ami segít a trace-ek debugolásában és elemzésében
Full-stack költségkövetés: Agent-szintű költségbontás, hogy lásd, melyik lépés mennyibe kerül

LangSmith árazás (2026)

Terv	Ár	Seat-ek	Trace-ek (alap)	Megjegyzés
Developer	Ingyenes	1	5 000/hó	Solo fejlesztőknek
Plus	$39/seat/hó	Max 10	10 000/hó	Növekvő csapatoknak
Enterprise	Egyedi	Korlátlan	Egyedi	SSO, RBAC, dedikált support

Az alap trace-ek 14 napos megőrzéssel jönnek ($2.50 / 1 000 trace), a kiterjesztett trace-ek 400 napos megőrzéssel ($5.00 / 1 000 trace).

Mikor válaszd a LangSmith-t?

Ha LangChain-nel vagy LangGraph-fal dolgozol - a setup szó szerint egy sor kód
Ha a kiértékelés (eval) a legfontosabb szempont
Ha elfogadod a vendor lock-in-t a kényelem kedvéért
Ha managed SaaS-t akarsz, nem self-hostingot

Korlátok

LangChain-függőség: Bár technikailag más framework-kel is működik, az integráció messze nem olyan mély
Nincs self-hosting: Csak SaaS-ként érhető el - ha adatszuverenitás fontos, ez probléma
Költség skálázásnál: 100K+ trace/hó esetén a költség gyorsan nő

LangFuse: a nyílt forráskódú alternatíva

A LangFuse az AI observability nyílt forráskódú válasza. MIT licenszelt, self-hostolható, és bármilyen LLM keretrendszerrel működik - nem csak LangChain-nel. 2026-ra a LangFuse lett a legelterjedtebb open-source LLM observability platform.

Főbb képességek

Tracing: OpenTelemetry-kompatibilis trace-ek, amelyek bármilyen LLM hívást, tool use-t és egyéni logikát rögzítenek. Session-ök a többlépcsős interakciókhoz
Scoring: Numerikus, boolean és kategória-alapú score-ok - LLM-as-judge automatikus kiértékelés, emberi feedback, vagy egyedi metrikák
Prompt management: Verziókezelés, label-ek, és a prompt verziók trace-ekhez kapcsolása - így mérheted, melyik verzió teljesít jobban
Datasets: Dataset item verziózás, bulk hozzáadás trace-ekből, és kísérletezés
Cost tracking: Automatikus token- és költségszámítás az összes nagyobb modellhez, beleértve az OpenAI GPT-5.2-t is
API v2: Nagy teljesítményű API cursor-alapú paginációval és szelektív mezőlekérdezéssel

LangFuse árazás (2026)

Terv	Ár	Benne foglalt	Megjegyzés
Self-hosted (OSS)	Ingyenes	Korlátlan	MIT licensz, Docker/K8s
Cloud	$199/hó	100K unit/hó	+$8 / 100K unit felette
Enterprise (self-hosted)	Egyedi	Enterprise funkciók	SSO, RBAC, support

A self-hosted verzió teljesen ingyenes - Docker Compose, Kubernetes (Helm chart), vagy Terraform template-ek AWS/Azure/GCP-re.

Integráció: nem csak LangChain

A LangFuse legnagyobb előnye: framework-agnosztikus. Natív SDK-k Python-hoz és JavaScript-hez, plusz integrációk:

LangChain / LangGraph
LlamaIndex
OpenAI SDK (közvetlen)
Anthropic Claude SDK
Haystack
DSPy
Vercel AI SDK
Bármilyen egyéni kód a @observe dekorátorral

Mikor válaszd a LangFuse-t?

Ha self-hosting fontos (adatszuverenitás, GDPR, belső policy)
Ha nem LangChain-t használsz (vagy többféle framework-öt)
Ha költségérzékeny vagy - a self-hosted verzió ingyenes
Ha nyílt forráskódú eszközöket preferálsz

Gyakorlati implementáció: LangFuse tracing Python-ban

Lássuk, hogyan néz ki a LangFuse integráció a gyakorlatban:

from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from openai import OpenAI

# Inicializálás
langfuse = Langfuse(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
    host="https://cloud.langfuse.com"  # vagy a self-hosted URL
)

client = OpenAI()

@observe()
def retrieve_context(query: str) -> str:
    """Dokumentumok visszakeresése a vektor adatbázisból."""
    # Vektor keresés szimulálás
    results = vector_db.search(query, top_k=5)

    langfuse_context.update_current_observation(
        metadata={"source": "qdrant", "top_k": 5},
        input=query,
        output=results
    )
    return results

@observe()
def generate_answer(query: str, context: str) -> str:
    """Válasz generálás az LLM-mel."""
    response = client.chat.completions.create(
        model="gpt-5.2",
        messages=[
            {"role": "system", "content": f"Kontextus: {context}"},
            {"role": "user", "content": query}
        ]
    )
    answer = response.choices[0].message.content

    # Minőségi score hozzáadása
    langfuse_context.score_current_trace(
        name="answer_relevance",
        value=0.95,  # Ezt automatikus eval-ból is számolhatod
        comment="Highly relevant response"
    )
    return answer

@observe()
def rag_pipeline(query: str) -> str:
    """Teljes RAG pipeline trace-szel."""
    context = retrieve_context(query)
    answer = generate_answer(query, context)
    return answer

# Futtatás - a teljes pipeline automatikusan trace-elődik
result = rag_pipeline("Mi a visszaküldési szabályzatunk?")

Ez a kód automatikusan létrehoz egy hierarchikus trace-et a LangFuse-ban: a rag_pipeline a szülő, benne a retrieve_context és generate_answer gyerek observation-ök. Minden lépésnél látsz latency-t, token-használatot és költséget.

Az ökoszisztéma többi szereplője

A LangFuse és LangSmith mellett több érett platform is versenyez ezen a piacon:

Arize Phoenix

Nyílt forráskódú, OpenTelemetry-alapú observability és evaluation platform. Különösen erős a RAG kiértékelésben.

Erősségek: Kiváló RAG evaluation toolkit, framework-agnosztikus (LangChain, LlamaIndex, Haystack, DSPy, smolagents), vizuális trace inspector, prompt playground
Deployment: Docker, Kubernetes, vagy Arize Cloud (app.phoenix.arize.com)
Aktuális verzió: 12.33.0 (2026. január)
Mikor válaszd: Ha a RAG kiértékelés a fő prioritás, és nyílt forráskódú megoldást keresel

Helicone

Proxy-alapú megközelítés - a Helicone az LLM provider és az alkalmazásod közé áll, és minden hívást automatikusan naplóz.

Erősségek: Ultra-gyors Rust gateway (8ms P50 latency), intelligens routing és caching (akár 95%-os költségcsökkentés), SOC 2 és GDPR kompatibilis
Árazás: Ingyenes 100K request/hó, utána $20/seat/hó
Mikor válaszd: Ha a leggyorsabb setup-ot akarod - egy URL csere és kész. Különösen jó cost optimization-re

Braintrust

Evaluation-first platform, ami az observability-t közvetlenül a kiértékelési ciklusba integrálja.

Erősségek: Production trace-ek egy kattintással eval case-ekké válnak, AI proxy minden nagy LLM provider-hez, Brainstore (80x gyorsabb query teljesítmény)
Árazás: Ingyenes (1M span, 14 napos megőrzés), Pro $249/hó, Enterprise egyedi
Mikor válaszd: Ha a kiértékelés és a production monitoring közötti feedback loop a legfontosabb

Weights & Biases Weave

Az ML ökoszisztéma veteránjának LLM observability megoldása.

Erősségek: Zökkenőmentes integráció a meglévő W&B experiment tracking-gel, automatikus input/output/metaadat naplózás, trace tree metrikákkal
Árazás: Ingyenes kezdés, team/enterprise tervek
Mikor válaszd: Ha a csapatod már W&B-t használ ML projektekhez, és az LLM alkalmazásokat ugyanabba az ökoszisztémába akarod integrálni

Összehasonlító táblázat

Szempont	LangFuse	LangSmith	Arize Phoenix	Helicone	Braintrust
Open-source	MIT	Nem	Apache 2.0	Részben	Nem
Self-hosting	Docker, K8s	Nem	Docker, K8s	Nem	Nem
Ingyenes tier	Korlátlan (self-hosted)	5 000 trace/hó	Korlátlan (self-hosted)	100K req/hó	1M span
Fizetős induló ár	$199/hó (cloud)	$39/seat/hó	Cloud egyedi	$20/seat/hó	$249/hó
Tracing	Teljes	Teljes	Teljes	Proxy-alapú	Teljes
Evaluation	LLM-as-judge, custom	LLM-as-judge, datasets	RAG-fókuszú eval	Alap metrikák	Eval-first
Prompt management	Verziózás, label-ek	Verziózás, A/B teszt	Playground	Playground	Prompt tracking
Framework integráció	Bármelyik	LangChain-optimális	Bármelyik	Bármelyik (proxy)	Bármelyik (proxy)
Megközelítés	SDK-alapú	SDK-alapú	SDK-alapú	Proxy-alapú	Proxy + SDK

Döntési keretrendszer: melyiket válaszd?

1. kérdés: Self-hosting fontos?

Ha igen → LangFuse vagy Arize Phoenix. Ezek az egyetlen érett, self-hostolható megoldások. Ha GDPR, belső compliance, vagy adatszuverenitás követelmény, itt nincs más választásod.

2. kérdés: Milyen framework-öt használsz?

LangChain/LangGraph → A LangSmith a legkényelmesebb, de a LangFuse is kiváló
LlamaIndex, Haystack, DSPy → LangFuse vagy Arize Phoenix
Közvetlen OpenAI/Anthropic SDK → LangFuse, Helicone, vagy Braintrust
Több framework vegyes használata → LangFuse (a legszélesebb integráció)

3. kérdés: Mi a fő prioritásod?

Cost optimization → Helicone (proxy + caching + routing)
Evaluation és quality → Braintrust vagy LangSmith
RAG debugging → Arize Phoenix
Általános observability → LangFuse (a legjobb all-rounder)
ML team, meglévő W&B infrastruktúra → Weave

4. kérdés: Mennyi a büdzséd?

$0 (self-hosted) → LangFuse OSS vagy Arize Phoenix
$0-50/hó → LangSmith Developer/Plus, Helicone free tier
$200+/hó → LangFuse Cloud, Braintrust Pro
Enterprise → Bármelyik, egyedi árazással

Milyen metrikákat kövess?

Bármilyen eszközt is választasz, ezeket a metrikákat mindenképp figyeld:

Teljesítmény

End-to-end latency: A teljes pipeline válaszideje (cél: <3s interaktív alkalmazásoknál)
LLM latency: Maga a modell válaszideje, TTFT (Time to First Token)
Retrieval latency: Vektor keresés ideje (cél: <200ms)

Költség

Napi/havi API költség: Aggregált és per-trace bontásban
Token/kérdés: Átlagos input és output token-szám kérdésenként
Költség/felhasználó: Mennyibe kerül egy aktív felhasználó kiszolgálása

Minőség

Faithfulness score: A válasz hűsége a forrás dokumentumokhoz (RAG)
Answer relevance: A válasz relevanciája a kérdéshez
Hallucination rate: A hallucinált válaszok aránya
User feedback: Hüvelykujj fel/le, CSAT score

Megbízhatóság

Error rate: Sikertelen LLM hívások aránya
Timeout rate: Időtúllépések gyakorisága
Guardrail trigger rate: Hányszor lép be a biztonsági szűrő

Az observability megtérülése

Az AI observability nem “nice-to-have” - mérhető üzleti értéket teremt:

Költségcsökkentés: Egy tipikus AI alkalmazásnál az observability bevezetése 20-40%-os költségcsökkentést hoz - mert láthatóvá válnak a felesleges LLM hívások, a túl hosszú promptok, és az alacsony cache hit rate.

Hallucination-csökkentés: Ha méred a faithfulness-t és automatikus eval-t futtatsz, a hallucinációs rátát 15-20%-ról 2-5% alá szoríthatod - mert látod, hol és miért történik, és célzottan javítasz.

Gyorsabb debugging: Egy production issue debugolása observability nélkül órákba telhet - “melyik prompt volt? melyik modell verzió? mi volt a kontextus?” Trace-ekkel ez percek kérdése.

Prompt optimalizálás: Ha verziókezeled a promptjaidat és méred a teljesítményüket, A/B tesztheted a változtatásokat - és a döntéseid adatalapúak lesznek, nem megérzés-alapúak.

Összegzés

Az AI observability 2026-ban már nem opcionális - ez az, ami elválasztja a “működő demót” a “production-ready AI alkalmazástól”. A jó hír: a piac érett, és mindegyik megközelítésnek megvan a maga helye.

Ha egy eszközt kell ajánlani: A LangFuse a legjobb kiindulópont a legtöbb csapat számára. Nyílt forráskódú, self-hostolható, framework-agnosztikus, és a cloud verzió is tisztességes áron elérhető. Ha LangChain-ben dolgozol és a kényelmet preferálod, a LangSmith kiváló választás. Ha a cost optimization a fő szempont, nézd meg a Helicone-t. Ha RAG-ot debugolsz, az Arize Phoenix a barátod.

A lényeg: válassz egyet és kezdj el mérni. A legrosszabb döntés az, ha nem mérsz semmit.

Ha AI alkalmazásod observability-jének felállításához vagy optimalizálásához segítségre van szükséged, az AppForge csapata segít a megfelelő eszköz kiválasztásában, az integráció megtervezésében és a production monitoring felállításában.

Megosztás:

MI-megoldásra van szükséged?

Automatizáld a munkafolyamataidat és szerezz versenyelőnyt mesterséges intelligencia megoldásainkkal.

MI fejlesztés részletek Ingyenes 30 perces konzultáció

Kapcsolódó cikkek

Ezek a cikkek is érdekelhetnek

MI fejlesztési megoldások költségáttekintéssel

MI árak automatizálás

MI fejlesztés árak 2026 – Mennyibe kerül egy AI megoldás Magyarországon?

Részletes útmutató a mesterséges intelligencia fejlesztés árakról Magyarországon: chatbotok, RAG rendszerek, egyedi modellek és folyamatautomatizálás költségei.

2026. február 6. 14 perc olvasás

MI automatizálás hatékonyság

Vállalkozás automatizálás MI-vel: Gyakorlati útmutató KKV-knak

Lépésről lépésre útmutató, hogyan automatizáld az üzleti folyamataidat mesterséges intelligenciával - konkrét eszközökkel és ROI számokkal.

2026. január 24. 11 perc olvasás

RAG pipeline dokumentumok feldolgozása MI válaszokká

MI RAG tudásbázis

RAG rendszerek: Hogyan építs intelligens vállalati tudásbázist?

Mi az a RAG (Retrieval-Augmented Generation)? Magyar nyelvű útmutató: hogyan működik, architektúra, vektor adatbázisok, chunking és gyakorlati implementáció.

2026. január 20. 11 perc olvasás

Vissza a bloghoz