Metodika a omezení
Aktualizováno 24. 5. 2026
Co děláme
Stahujeme veřejné Google recenze 3 českých nemocnic přes službu Apify (compass/Google-Maps-Reviews-Scraper). Z 1 767 recenzí jsme 1 152 textových klasifikovali pomocí Claude Sonnet — přiřadili jsme každé z nich témata, sentiment, oddělení, roli recenzenta, čas péče a primární emoci. Klasifikační schéma je stejné pro všechny recenze, takže výsledky lze férově srovnávat.
Pre-registrované hypotézy
Před sběrem dat jsme zapsali a uzamkli 8 hypotéz s konkrétními predikcemi a prahy. Po analýze reportujeme všechny — potvrzené, vyvrácené i nulové. Toto je rozdíl mezi datovou analýzou a vyprávěním. Nesbíráme „překvapivá zjištění“ post-hoc; vybíráme předem, co považujeme za zajímavé, a pak měříme.
- H1 — Nejvíce chválené téma se liší podle archetypu nemocnice (potvrzeno, p < 0,001 BH)
- H2 — Sokolov má nejvyšší procento recenzí jmenovitě zmiňujících personál (potvrzeno, p < 0,001 BH)
- H3 — Alespoň 10 % pětihvězdičkových recenzí obsahuje ≥ 2 stížnosti (vyvráceno — < 3 %)
- H4 — Modernost vnímaná recenzenty neodpovídá kalendářnímu věku budovy (potvrzeno; Spearman ρ = −0,5)
- H5 — Mezi nejlepším a nejhorším oddělením ve stejné nemocnici je rozdíl ≥ 0,5★ (potvrzeno; Δ až 2,86★)
- H6 — Rodičovští recenzenti v Motole dávají nižší hvězdičky než nerodičovští (vyvráceno — rozdíl 0,1★)
- H7 — Pohotovostní recenze hodnotí o ≥ 0,3★ níž než plánovaná péče (potvrzeno; ~1,5★ propad)
- H8 — Vyšší míra odpovědí provozovatele koreluje s pozdějším sentimentem (nelze testovat — 0 % odpovědí)
Plné znění hypotéz a výsledků (vč. testovacích statistik) v repu projektu.
Statistika
- Wilsonovo 95% CI pro podíly (vhodné i pro malé vzorky).
- Welchův t-test pro porovnání průměrů s nerovnoměrnými variancemi.
- χ²-test pro kontingenční tabulky.
- Cohenovo d jako míra velikosti efektu.
- Benjamini–Hochbergova FDR korekce pro mnohonásobná porovnání (α = 0,05).
Klasifikace recenzí
Před produkčním klasifikováním jsme udělali tzv. bake-off: na 100 stratifikovaně vybraných recenzích jsme porovnali tři metody — Czech-keyword regex, Claude Haiku a Claude Sonnet. Měřili jsme Cohenovo kappa mezi metodami a kvalitu odhalujeme transparentně v technickém repu. Sonnet byl konzistentně nejstřízlivější a nejvíce souhlasil s vlastní intuitivní kontrolou autora, takže pro produkci jsme zvolili Sonnet pro všechna pole. Recenze bez textu (pouhé hvězdičky) jsou označeny is_substantive: false a do ohraničených statistik (např. procento jmenovitě uvedeného personálu) se nezapočítávají — ohraničení n je vždy uvedeno u stat.
Omezení
- Vzorek 3 nemocnic. Smoke-test fáze. Pro generalizaci na celou ČR je třeba ≥ 30 nemocnic.
- Selection bias. Google recenze píší jen ti, co se rozhodli psát. Neměří všechny pacienty.
- Nejde o medical-quality ranking. Měříme to, co píší recenzenti. To není totéž jako kvalita péče.
- Klasifikace LLM-based. Sonnet má ~85 % shodu se zlatým standardem na nejasných polích (sentiment, role).
- Časový průřez. Recenze z posledních ~4 let. Trendy v čase ještě nemáme dostatek dat.
Etika a privacy
- Citujeme jen úryvky veřejných recenzí. Atribuce: „anonymní recenze, Google Maps, MM/YYYY“.
- Nezveřejňujeme jména personálu. Klasifikátor zaznamenává „byl uveden konkrétní zaměstnanec“ jako pravdivostní hodnotu, ale jméno se v publikovaných výstupech nikdy neobjeví.
- Nepublikujeme jména recenzentů. Google už mnoho z nich anonymizuje samo.
Reprodukce
Celý pipeline (scrape → klasifikace → agregace → testy → grafy) je open-source. Schémata, taxonomie, hypotézy i klasifikační prompty jsou součástí repu. Pokud najdete chybu, otevřete issue.