LangFuse vs LangSmith: Így monitorozd és debugold az AI alkalmazásaidat

Egy rosszul írt prompt napi $50 helyett $500-ba is kerülhet. LangFuse (open-source, MIT) vs LangSmith (managed, LangChain-natív) vs Helicone (proxy + caching) — mikor melyiket, és miért.

12 perc olvasásÍrtaBoncz Bálint

Az AI alkalmazás egy fekete doboz — hacsak nem figyeled

Építettél egy RAG chatbotot, agentet, vagy LLM-et integráltál üzleti folyamatokba. Az első demó lenyűgöző. Aztán jönnek a kérdések: miért hallucinált a modell az ügyfélhívásban? Mennyibe kerül naponta az OpenAI API? Miért lett 8 másodperces a válaszidő? Melyik prompt verzió teljesít jobban?

Hagyományos szoftvernél van Datadog, Sentry, Grafana. De az LLM alkalmazások fundamentálisan mások: nem determinisztikusak, a költségük token-alapú, a minőségük szubjektív, és a hibáik sokszor nem exception-ök, hanem rossz válaszok. Ehhez kell az AI observability. 2026-ra ez a terület felrobbant.

Miért kritikus az AI observability?

Mielőtt eszközt választasz, tisztázzuk, mit kell mérned:

  • Tracing: minden LLM hívás, tool use, retrieval lépés nyomon követése — ki hívta, mit kapott, mit válaszolt
  • Latency: mennyi idő a válasz? Hol a szűk keresztmetszet — LLM, vektor keresés, hálózat?
  • Költség: token-használat és API költségek valós időben. Egy rosszul megírt prompt napi $50 helyett $500-ba is kerülhet
  • Minőség: a válaszok pontossága, relevanciája, faithfulness-e — automatizált LLM-as-judge scoring-gal
  • Hibaarány: timeout-ok, rate limit-ek, parse hibák, guardrail sértések

Ezek nélkül vakon vezetsz. Az observability nem luxus — ez teszi production-ready-vé az AI alkalmazást.

LangSmith — a LangChain ökoszisztéma megfigyelője

A LangSmith a LangChain csapat hivatalos observability platformja. Ha LangChain/LangGraph-ban építesz, a setup szó szerint egy környezeti változó.

Főbb képességek

  • Tracing: automatikus, részletes trace-ek minden LangChain/LangGraph futáshoz; agent ciklusok, tool use hívások és döntési pontok vizuálisan
  • Evaluation: beépített LLM-as-judge, hasonlóság-metrikák, custom scorer; az eval eredmények közvetlenül a trace-ekhez kapcsolódnak
  • Datasets: dataset-kezelés a kiértékeléshez és regressziós teszteléshez
  • Prompt management: verziózás, A/B tesztelés
  • Polly AI asszisztens: beépített AI a trace-debugoláshoz
  • Költségkövetés: agent-szintű költségbontás

LangSmith árazás (2026)

TervÁrSeat-ekTrace-ekMegjegyzés
DeveloperIngyenes15 000/hóSolo fejlesztőknek
Plus$39/seat/hóMax 1010 000/hóNövekvő csapatoknak
EnterpriseEgyediKorlátlanEgyediSSO, RBAC, dedikált support

Az alap trace-ek 14 napos megőrzéssel jönnek ($2,50 / 1 000 trace), a kiterjesztett trace-ek 400 napos megőrzéssel ($5,00 / 1 000 trace).

Mikor válaszd?

  • LangChain/LangGraph fejlesztés — egy sor kód a setup
  • Ha a kiértékelés a fő szempont
  • Ha managed SaaS kell, nem self-hosting

Korlátok

  • LangChain-függőség (más framework-kel sekélyebb az integráció)
  • Nincs self-hosting — ha adatszuverenitás kell, ez probléma
  • 100K+ trace/hó esetén a költség gyorsan nő

LangFuse — a nyílt forráskódú alternatíva

A LangFuse MIT licenszelt, self-hostolható, és bármilyen LLM keretrendszerrel működik — nem csak LangChain-nel. 2026-ra a legelterjedtebb open-source LLM observability platform.

Főbb képességek

  • Tracing: OpenTelemetry-kompatibilis trace-ek, session-ök a többlépcsős interakciókhoz
  • Scoring: numerikus, boolean és kategória-alapú score-ok — LLM-as-judge, emberi feedback, vagy egyedi metrika
  • Prompt management: verziózás, label-ek, prompt-trace kapcsolat
  • Datasets: verziózás, bulk hozzáadás trace-ekből, kísérletezés
  • Cost tracking: automatikus token- és költségszámítás minden nagyobb modellhez (GPT-5.2 is)
  • API v2: nagy teljesítményű, cursor-alapú pagináció, szelektív mezőlekérdezés

LangFuse árazás (2026)

TervÁrBenne foglaltMegjegyzés
Self-hosted (OSS)IngyenesKorlátlanMIT licensz, Docker/K8s
Cloud$199/hó100K unit/hó+$8 / 100K unit felette
Enterprise (self-hosted)EgyediEnterprise funkciókSSO, RBAC, support

Integráció — nem csak LangChain

Natív SDK Python-hoz és JavaScript-hez, plusz integrációk: LangChain / LangGraph, LlamaIndex, OpenAI SDK (közvetlen), Anthropic Claude SDK, Haystack, DSPy, Vercel AI SDK, és bármilyen egyéni kód a @observe dekorátorral.

Mikor válaszd?

  • Self-hosting fontos (adatszuverenitás, GDPR, belső policy)
  • Nem (csak) LangChain-t használsz
  • Költségérzékeny vagy — a self-hosted ingyenes
  • Nyílt forráskódú eszközöket preferálsz

Gyakorlati implementáció — LangFuse Python-ban

Tipikus RAG pipeline trace-ekkel:

from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from openai import OpenAI

langfuse = Langfuse(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
    host="https://cloud.langfuse.com"
)
client = OpenAI()

@observe()
def retrieve_context(query: str) -> str:
    results = vector_db.search(query, top_k=5)
    langfuse_context.update_current_observation(
        metadata={"source": "qdrant", "top_k": 5},
        input=query, output=results
    )
    return results

@observe()
def generate_answer(query: str, context: str) -> str:
    response = client.chat.completions.create(
        model="gpt-5.2",
        messages=[
            {"role": "system", "content": f"Kontextus: {context}"},
            {"role": "user", "content": query}
        ]
    )
    answer = response.choices[0].message.content
    langfuse_context.score_current_trace(
        name="answer_relevance", value=0.95
    )
    return answer

@observe()
def rag_pipeline(query: str) -> str:
    context = retrieve_context(query)
    return generate_answer(query, context)

Ez automatikusan létrehoz egy hierarchikus trace-et: a rag_pipeline a szülő, benne a retrieve_context és generate_answer gyerek observation-ök. Minden lépésnél látsz latency-t, token-használatot és költséget.

Az ökoszisztéma többi szereplője

Arize Phoenix

Nyílt forráskódú, OpenTelemetry-alapú observability és evaluation platform. Erőssége a RAG kiértékelés.

  • RAG eval toolkit, framework-agnosztikus (LangChain, LlamaIndex, Haystack, DSPy, smolagents)
  • Vizuális trace inspector, prompt playground
  • Deployment: Docker, Kubernetes, vagy Arize Cloud
  • Aktuális: 12.33.0 (2026 január)
  • Mikor: ha RAG eval a fő prioritás, és nyílt forráskódú megoldást keresel

Helicone

Proxy-alapú megközelítés.

  • Ultra-gyors Rust gateway (8ms P50 latency)
  • Intelligens routing és caching (akár 95% költségcsökkentés)
  • SOC 2 + GDPR kompatibilis
  • Ingyenes 100K request/hó, utána $20/seat/hó
  • Mikor: leggyorsabb setup (egy URL csere) és cost optimization

Braintrust

Evaluation-first platform.

  • Production trace → eval case egy kattintással
  • AI proxy minden nagy LLM provider-hez
  • Brainstore (80x gyorsabb query)
  • Ingyenes (1M span, 14 nap), Pro $249/hó, Enterprise egyedi
  • Mikor: ha a kiértékelés ↔ production monitoring feedback loop a fő szempont

Weights & Biases Weave

Az ML ökoszisztéma veteránjának LLM observability megoldása.

  • Zökkenőmentes integráció a meglévő W&B experiment tracking-gel
  • Automatikus input/output/metaadat naplózás
  • Trace tree metrikákkal
  • Ingyenes kezdés, team / enterprise tervek
  • Mikor: ha a csapat már W&B-t használ ML projektekhez

Összehasonlító táblázat

SzempontLangFuseLangSmithArize PhoenixHeliconeBraintrust
Open-sourceMITNemApache 2.0RészbenNem
Self-hostingDocker, K8sNemDocker, K8sNemNem
Ingyenes tierKorlátlan (self-hosted)5 000 trace/hóKorlátlan (self-hosted)100K req/hó1M span
Fizetős induló ár$199/hó (cloud)$39/seat/hóCloud egyedi$20/seat/hó$249/hó
TracingTeljesTeljesTeljesProxy-alapúTeljes
EvaluationLLM-as-judge, customLLM-as-judge, datasetsRAG-fókuszú evalAlap metrikákEval-first
Prompt managementVerziózás, label-ekVerziózás, A/B tesztPlaygroundPlaygroundPrompt tracking
FrameworkBármelyikLangChain-optimálisBármelyikBármelyik (proxy)Bármelyik (proxy)
MegközelítésSDK-alapúSDK-alapúSDK-alapúProxy-alapúProxy + SDK

Döntési keretrendszer

1. Self-hosting fontos?

Ha igen → LangFuse vagy Arize Phoenix. Ezek az egyetlen érett, self-hostolható megoldások. GDPR, belső compliance vagy adatszuverenitás esetén nincs más választás.

2. Milyen framework-öt használsz?

  • LangChain/LangGraph: LangSmith a legkényelmesebb, LangFuse is kiváló
  • LlamaIndex, Haystack, DSPy: LangFuse vagy Arize Phoenix
  • Közvetlen OpenAI/Anthropic SDK: LangFuse, Helicone vagy Braintrust
  • Több framework vegyesen: LangFuse (legszélesebb integráció)

3. Mi a fő prioritásod?

  • Cost optimization: Helicone (proxy + caching + routing)
  • Evaluation, quality: Braintrust vagy LangSmith
  • RAG debugging: Arize Phoenix
  • Általános observability: LangFuse (legjobb all-rounder)
  • ML team, meglévő W&B: Weave

4. Mennyi a büdzséd?

  • $0 (self-hosted): LangFuse OSS vagy Arize Phoenix
  • $0-50/hó: LangSmith Developer/Plus, Helicone free tier
  • $200+/hó: LangFuse Cloud, Braintrust Pro
  • Enterprise: bármelyik, egyedi árazással

Milyen metrikákat kövess?

Teljesítmény

  • End-to-end latency: teljes pipeline (cél: <3s interaktív)
  • LLM latency: a modell válaszideje, TTFT (Time to First Token)
  • Retrieval latency: vektor keresés (cél: <200ms)

Költség

  • Napi/havi API költség aggregált és per-trace bontásban
  • Token/kérdés (input + output)
  • Költség/felhasználó

Minőség

  • Faithfulness: a válasz hűsége a forráshoz (RAG)
  • Answer relevance: mennyire válaszol a kérdésre
  • Hallucination rate: hallucinált válaszok aránya
  • User feedback: hüvelykujj fel/le, CSAT

Megbízhatóság

  • Error rate (sikertelen LLM hívások)
  • Timeout rate
  • Guardrail trigger rate

Az observability megtérülése

Mérhető üzleti érték:

  • Költségcsökkentés: tipikusan 20-40% — láthatóvá válnak a felesleges hívások, túl hosszú promptok, alacsony cache hit rate
  • Hallucination-csökkentés: 15-20%-ról 2-5% alá faithfulness-méréssel és automatikus eval-lal
  • Gyorsabb debugging: egy production issue percek alatt, nem órák alatt — látod, melyik prompt, modell verzió, kontextus volt
  • Prompt optimalizálás: A/B teszt verziókkal, adatalapú döntések

Összegzés

A lényeg: válassz egyet és kezdj el mérni. A legrosszabb döntés az, ha nem mérsz semmit. Ha az AI alkalmazásod observability-jének felállításához kell segítség, az AppForge csapata megtervezi az integrációt és a production monitoring-ot.

Megosztás:

Készen állsz?

Beszéljük át a projektedet — 30 perc, ingyenes.

24 órán belül konkrét ár-tartománnyal, becsült átfutási idővel és világos következő lépéssel jövünk vissza. Nem értékesítési hívás.

Projektet indítok