Nemocnice.czmetodika ↗
← Zpět

Metodika a omezení

Aktualizováno 24. 5. 2026

Co děláme

Stahujeme veřejné Google recenze 3 českých nemocnic přes službu Apify (compass/Google-Maps-Reviews-Scraper). Z 1 767 recenzí jsme 1 152 textových klasifikovali pomocí Claude Sonnet — přiřadili jsme každé z nich témata, sentiment, oddělení, roli recenzenta, čas péče a primární emoci. Klasifikační schéma je stejné pro všechny recenze, takže výsledky lze férově srovnávat.

Pre-registrované hypotézy

Před sběrem dat jsme zapsali a uzamkli 8 hypotéz s konkrétními predikcemi a prahy. Po analýze reportujeme všechny — potvrzené, vyvrácené i nulové. Toto je rozdíl mezi datovou analýzou a vyprávěním. Nesbíráme „překvapivá zjištění“ post-hoc; vybíráme předem, co považujeme za zajímavé, a pak měříme.

Plné znění hypotéz a výsledků (vč. testovacích statistik) v repu projektu.

Statistika

Klasifikace recenzí

Před produkčním klasifikováním jsme udělali tzv. bake-off: na 100 stratifikovaně vybraných recenzích jsme porovnali tři metody — Czech-keyword regex, Claude Haiku a Claude Sonnet. Měřili jsme Cohenovo kappa mezi metodami a kvalitu odhalujeme transparentně v technickém repu. Sonnet byl konzistentně nejstřízlivější a nejvíce souhlasil s vlastní intuitivní kontrolou autora, takže pro produkci jsme zvolili Sonnet pro všechna pole. Recenze bez textu (pouhé hvězdičky) jsou označeny is_substantive: false a do ohraničených statistik (např. procento jmenovitě uvedeného personálu) se nezapočítávají — ohraničení n je vždy uvedeno u stat.

Omezení

Etika a privacy

Reprodukce

Celý pipeline (scrape → klasifikace → agregace → testy → grafy) je open-source. Schémata, taxonomie, hypotézy i klasifikační prompty jsou součástí repu. Pokud najdete chybu, otevřete issue.