Evaluace jako vstup, ne dashboard: Jak stavět sebeopravné LLM systémy
Většina týmů bere evaluaci jako tabuli skóre — číslo, na které mrknete a je vám dobře nebo zle. Pokročilá myšlenka je zapojit eval zpátky do systému jako vstup, který ho přepisuje: trace jdou nezávislým rozhodčím, fixy se navrhují automaticky a jeden člověk schvaluje. Je to AI až na dno, s jedinou bránou, která jí není.

