21. června 2026

Slovník, který se napíše sám: Nechte model navrhnout vlastní doménový slovník

Už dřív jsme tvrdili, že vrstva asociací — slovník mapující slova vašich uživatelů na názvy ve vašem schématu — je nejmocnější artefakt znalostního bota a že ji máte psát ručně, odzadu, od otázek, které nejvíc potřebujete zodpovědět. Ta rada platí. Ale má strop.

Pro prvních dvanáct tabulek funguje krásně. Pro tisíc nefunguje. A opravdu nefunguje ve chvíli, kdy každý nový klient dorazí s úplně novým schématem, které jste nikdy neviděli, a běží čas. Ruční psaní každého aliasu pro každou tabulku jsou týdny únavné archeologie, z velké části strávené nad tabulkami, na které se nikdo nikdy nezeptá. V produkčním měřítku není ruční zachycení disciplína — je to úzké hrdlo.

Tak změníte dělbu práce. Model navrhne slovník; člověk ho zkurátoruje.

Model je v tomhle dobrý, když dostane správný pohled

Tah je tenhle: pro každou tabulku předáte modelu její název, sloupce a malý vzorek skutečných řádků a požádáte ho, ať vyprodukuje hrstku — tři až šest bohatě stačí — doménových termů v jazyce vašich uživatelů. Ne názvy sloupců. Slova, která by člověk opravdu použil.

To hraje přesně do toho, v čem jsou modely dobré. Když uvidí tabulku H_OSOBA se sloupci na jména, data narození a kód titulu plus deset vzorových řádků, model snadno odvodí „tohle je hlavní záznam o lidech" a nabídne zaměstnanec, osoba, personál, pracovník. Je to rozpoznávání vzorů nad strukturou a příklady, což je přesně ten druh úsudku, který jazykové modely dělají dobře. Nežádáte ho, aby uvažoval o vašem byznysu; žádáte ho, ať přečte tabulku a pojmenuje ji tak, jak by to udělal člověk.

Tvarování vstupu je to skutečné řemeslo

Naivní verze tohohle hned selže, protože celou tabulku do promptu nenalijete. Široká tabulka s milionem řádků by rozhodila kontextové okno, stála majlant a pohřbila signál — tatáž past zaplavení kontextu, která ničí vyhledávání.

Skutečná dovednost je proto tvarovat vstup. Omezte ho natvrdo: nanejvýš zhruba šedesát sloupců, deset vzorových řádků, pár stovek znaků na buňku. To stačí, aby model pochopil, co tabulka je — názvy sloupců nesou většinu významu, vzorové řádky to potvrdí — aniž by se v tom utopil. Je to disciplína štíhlého balíčku aplikovaná na jinou fázi: dej modelu přesně tolik, aby se rozhodl, a ani token navíc.

Pojistka proti zřejmému selhání

Existuje konkrétní, předvídatelný způsob, jak se tohle pokazí: model vrátí názvy sloupců převlečené za aliasy. Ptáte se, jak lidé říkají tabulce zaměstnanců, a on vám podá „TITUL_PRED_KOD". To není doménový termín; je to přesně ten žargon, kvůli jehož překladu slovník existuje.

Tak výstup zkontrolujete. Pokud vygenerované asociace vypadají podezřele jako schéma, které měly popsat, tu tabulku spustíte znovu s přísnějším promptem, který vyhláskuje rozdíl mezi technickým názvem a lidským slovem. Je to levná, automatická pojistka — drobná samoopravná smyčka, tentýž instinkt jako rozhodčí, který přepočítává dotaz — a brání auto-generovanému slovníku, aby se tiše sám otrávil.

Druhá, čistě provozní pojistka: generování asociací pro tisíc tabulek je salva volání na model a cloudoví poskytovatelé se salvám brání. Přiškrťte tempo, běžte v skromných dávkách deseti až dvaceti tabulek a opakujte při odpovědích o překročení limitu a přetížení. Neokázalé, ale je to rozdíl mezi pipeline, která doběhne, a tou, která umře v půlce velkého schématu.

Navrhni rychle, kurátoruj tam, kde na tom záleží

Auto-generování je návrh, ne verdikt. Dostane vás napříč celým schématem z velké části za minuty místo týdnů — ale tabulky, na které vaše skutečné otázky opravdu míří, si zaslouží lidský průchod. Doménový expert přelétne vygenerované termy, opraví ty, které model uhádl špatně, a doplní institucionální slova, která by žádný vzorek dat neodhalil (interní přezdívku oddělení, zkratku, kterou znají jen zasvěcení).

Tohle je správný tvar zachycení znalosti obecně: model navrhne, expert zkurátoruje, systém uchová. Samotné auto-generování nechá chyby v dlouhém ocase; čistě ruční psaní nikdy nedojde do konce. Dohromady vám dají slovník, který je široký i ostrý, za cenu, která skutečně škáluje.

A trvalost je tady stejně důležitá jako u ručně psaného případu. Vygenerované asociace zapište do verzovaného souboru a naplňte je přes migraci, takže přestavba databáze — která se ve vývoji děje neustále — práci nikdy nesmaže. Slovník žije ve verzování, ne v databázi, která se v pátek dropne.

Kam to směřuje dál

Vzorové řádky jsou nejdostupnější zdroj signálu, ale ne jediný. Tatáž pipeline může čerpat odkudkoli, kde už jazyk vaší domény žije: z datových slovníků, interních wiki, dokumentace, kterou kdysi napsal služebně nejstarší člen týmu. Všude tam, kde už byl význam H_OSOBA zapsán lidskými slovy, ho bootstrapovací proces může vytěžit — a proměnit roztroušenou, napůl zapomenutou dokumentaci ve strukturovaný slovník, který bot opravdu použije.

A o to jde. Nejcennější znalost ve vaší organizaci je tichá a nestrukturovaná, rozprostřená napříč daty, dokumenty a pamětí lidí. Bootstrapping je způsob, jak ji vytěžit ve velkém, aniž byste někoho nutili všechno to vyťukat ručně — asistované zachycení, kurátorované experty, uchované jako aktivum. Je to to, co promění vrstvu asociací z roztomilého demo triku v něco, co přežije střet se skutečnou produkční databází o tisíci tabulkách.

Čelíte rozlehlému schématu, které nemůžete ručně anotovat? Bootstrapping slovníku je způsob, jak vrstvu asociací rozškálovat — navržená modelem, kurátorovaná expertem, ve verzování. Pojďme zmapovat, co by to chtělo pro to vaše.