23. června 2026

Přesýpací hodiny znalostí: Nejdřív vše zkomprimuj, pak nafoukni podle potřeby

Nejtěžší problém při stavbě znalostního bota nemá s modelem nic společného. Je to nepoměr měřítek. Na jedné straně máte znalostní bázi, která je prakticky neomezená — produkční databázi s tisícem tabulek, deset let záznamů z podpory, wiki, kterou celou nikdo nepřečetl. Na druhé straně kontextové okno, které je — ať ho výrobci zvětší jakkoli — vždy konečné a vždy drahé na naplnění.

Naivní instinkt je čekat na větší okna. To je špatná sázka. I když se všechno vejde, nacpat to tam dělá odpovědi horší, ne lepší — model, který má najít jeden fakt mezi deseti tisíci nepodstatnými, se spolehlivě nechá rozptýlit. Tomuto selhání říkáme halucinace přes rušivé prvky a je to důvod, proč „prostě vlož celé schéma" v produkci nikdy nefunguje.

Vzorec, který funguje, má tvar přesýpacích hodin.

Tvar řešení

Představte si tři vrstvy poskládané na sebe.

Nahoře, široká baňka: všechny vaše surové znalosti. Obrovské, neuspořádané, autoritativní, příliš velké na to, aby se nad nimi dalo přímo uvažovat.

V hrdle, nejužší bod: jediná uživatelská otázka. Pár slov přirozeného jazyka — „kolik máme inženýrů v pražské pobočce?" Tento drobný signál je jediné, s čím systém ve skutečnosti začíná.

Dole, opět široká baňka: přesný, zrekonstruovaný kontext, který model potřebuje, aby odpověděl na tuhle otázku — a na nic jiného.

Celé řemeslo znalostního bota spočívá v protažení informace tímto hrdlem, aniž by se ztratilo to podstatné. Děje se to ve dvou pohybech, a ty běží v úplně jiných časech.

Deflace: zkomprimuj svět dřív, než se kdokoli zeptá

První pohyb se odehrává s předstihem, jako úloha na pozadí, dávno předtím, než se objeví uživatel. Vezmeme obrovskou horní baňku a vymáčkneme ji do něčeho kompaktního a dotazovatelného. Zásadní je, že data nesumarizujeme — budujeme index jejich podstaty.

Pro databázového agenta deflace předpočítá:

Embeddingy každého názvu tabulky a sloupce plus lidsky psané popisy, aby se význam dal hledat podle podobnosti, ne podle přesné shody řetězců.
Mapu vztahů — cizí klíče, cesty pro JOINy, které tabulky visí na kterých — aby bot nikdy nemusel strukturu objevovat za běhu.
Obsahy číselníků — kódové tabulky, které překládají 1 na „inženýr" — připravené, ale ještě nevložené.
Levné statistiky — počty řádků, míru naplněnosti, počty unikátních hodnot — přesně to, co botovi později umožní zkontrolovat sám sebe.

Proč platit tuhle cenu předem? Protože alternativou je dotazovat se na systémový katalog naživo, při každém požadavku. To je pomalé, když je schéma velké, a překvapivě náchylné k chybám. Předpočítání mění opakovaný runtime náklad na jednorázový přípravný krok. Modelu už nepodáváme celou knihovnu — podáváme mu tahák.

Deflace je komprese s předstihem. Vyměníte noční úlohu na pozadí za rychlý, čistý, nízkošumový kontext ve chvíli, kdy na něm opravdu záleží — když člověk čeká na odpověď.

Výstupem této fáze jsou dva úložiště: vektorový index pro sémantické vyhledávání a metadatové úložiště s předpočítanými vztahy a číselníky. Obnovujte je podle plánu — pro většinu systémů bohatě stačí jednou za noc — a problém s aktuálností z velké části zmizí. Změnily se znalosti? Přeindexujte. Žádné přeučování, žádné fine-tuning, modelu se vůbec nikdo nedotkne.

Inflace: zrekonstruuj přesně tolik, kolik je třeba, vrstvu po vrstvě

Druhý pohyb se odehrává za běhu a běží opačným směrem. Bot dostane v hrdle drobnou otázku a postupně ji nafoukne zpět do bohatého kontextu — ale jen po cestě, kterou otázka skutečně vyžaduje.

Právě tady to týmy dělají špatně. Snaží se sestavit celý kontext najednou. Přesýpací hodiny říkají: rozbalujte po fázích a nechte každou fázi rozhodnout, co potřebuje ta další.

Najdi kandidáty. Otázkou prohledej vektorový index a najdi relevantní tabulky. Tady jdeš po úplnosti — lepší vynést o pár navíc, než minout tu jedinou, na které záleželo.
Dotáhni strukturu. Pro tyto kandidáty načti sloupce, typy a — podle předpočítané mapy — související tabulky a číselníky, na kterých závisí.
Prozkoumej hodnoty. Teprve teď, a jen pro sloupce ve hře, dotáhni konkrétní hodnoty číselníků, kterých se otázka dotýká. Ne všech tisíc oborových kódů — jen tu hrstku, kterou tenhle dotaz potřebuje.
Sestav a odpověz. Předej modelu těsný, účelově sestavený balíček a nech ho dělat jedinou věc, ve které jsou modely opravdu skvělé: uvažovat nad dobře vybraným kontextem.

Každá vrstva je akt postupného odhalování. Model nikdy nevidí celé schéma. Vidí malý, rostoucí, relevantní výsek — a protože je výsek malý, je uvažování ostré.

Hrdlo je celá pointa

Stojí za to se u nejužší části hodin zastavit, protože obsahuje tu nejhlubší myšlenku. V hrdle pracuje celý systém prakticky s ničím — pár slov. Všechno pod hrdlem se z toho malého signálu rekonstruuje, tak jako se komprimovaný soubor rozbalí zpět do plného dokumentu.

To mění pohled na to, co znalostní bot vlastně je. Není to vyhledávač, který vrací dokumenty. Je to dekompresní stroj, který bere řídký lidský záměr a na požádání znovu sestaví přesně ten výsek vašeho světa, jenž je potřeba k jeho naplnění. Navrhněte hrdlo dobře — čisté předpočítané indexy živící ukázněnou, fázovanou expanzi — a všechno za ním je zároveň levnější, rychlejší i přesnější.

Udržujte balíček štíhlý

Nejčastější regrese, kterou vídáme, je balíček, který nenápadně bobtná. Sloupec odkazuje na číselník, a tak k němu bot poslušně připojí všechny jeho hodnoty — a pokud je tím číselníkem zrovna seznam deseti tisíc klasifikačních kódů, je váš pečlivě postavený kontext z 95 % šum a ten jeden fakt o pobočce je zahrabaný. Model ztratí nit a vy dostanete sebevědomě špatnou odpověď.

Náprava je disciplína, ne lepší model: omezte, kolik smí přispět jediný zdroj, a číselníky připojujte jen tehdy, když po nich otázka opravdu sahá. Štíhlý balíček není luxus. Je to rozdíl mezi agentem, který má pravdu, a tím, který jen zní věrohodně.

Proč tohle poráží větší okno

Větší kontextová okna jsou reálná a užitečná, ale tenhle problém nerozpouštějí — jen mění místo, kde kousne. Náklady rostou s tokeny. Latence roste s tokeny. A přesnost od určitého bodu s tokeny klesá, jak se hromadí rušivé prvky. Přesýpací hodiny útočí na všechny tři najednou tím, že před model nikdy nepoloží víc, než otázka potřebuje.

Navíc dělají systém poctivým ohledně aktuálnosti způsobem, jakého fine-tuning nikdy nedosáhne. Vaše znalosti žijí mimo model, v indexech, které ovládáte a obnovujete podle vlastního plánu. Když se svět změní, deflaci zopakujete. Model zůstane přesně takový, jaký byl — a přesto zůstane aktuální.

Stavíte bota, který musí uvažovat nad velkou a neuspořádanou znalostní bází? Přesýpací hodiny jsou to, čím začínáme každý projekt. Třicetiminutový hovor ukáže, co předpočítat, co rozbalovat a kde vám současné nastavení ztrácí přesnost.