Metodika a omezení

Aktualizováno 24. 5. 2026

Co děláme

Stahujeme veřejné Google recenze 3 českých nemocnic přes službu Apify (compass/Google-Maps-Reviews-Scraper). Z 1 767 recenzí jsme 1 152 textových klasifikovali pomocí Claude Sonnet — přiřadili jsme každé z nich témata, sentiment, oddělení, roli recenzenta, čas péče a primární emoci. Klasifikační schéma je stejné pro všechny recenze, takže výsledky lze férově srovnávat.

Pre-registrované hypotézy

Před sběrem dat jsme zapsali a uzamkli 8 hypotéz s konkrétními predikcemi a prahy. Po analýze reportujeme všechny — potvrzené, vyvrácené i nulové. Toto je rozdíl mezi datovou analýzou a vyprávěním. Nesbíráme „překvapivá zjištění“ post-hoc; vybíráme předem, co považujeme za zajímavé, a pak měříme.

H1 — Nejvíce chválené téma se liší podle archetypu nemocnice (potvrzeno, p < 0,001 BH)
H2 — Sokolov má nejvyšší procento recenzí jmenovitě zmiňujících personál (potvrzeno, p < 0,001 BH)
H3 — Alespoň 10 % pětihvězdičkových recenzí obsahuje ≥ 2 stížnosti (vyvráceno — < 3 %)
H4 — Modernost vnímaná recenzenty neodpovídá kalendářnímu věku budovy (potvrzeno; Spearman ρ = −0,5)
H5 — Mezi nejlepším a nejhorším oddělením ve stejné nemocnici je rozdíl ≥ 0,5★ (potvrzeno; Δ až 2,86★)
H6 — Rodičovští recenzenti v Motole dávají nižší hvězdičky než nerodičovští (vyvráceno — rozdíl 0,1★)
H7 — Pohotovostní recenze hodnotí o ≥ 0,3★ níž než plánovaná péče (potvrzeno; ~1,5★ propad)
H8 — Vyšší míra odpovědí provozovatele koreluje s pozdějším sentimentem (nelze testovat — 0 % odpovědí)

Plné znění hypotéz a výsledků (vč. testovacích statistik) v repu projektu.

Statistika

Wilsonovo 95% CI pro podíly (vhodné i pro malé vzorky).
Welchův t-test pro porovnání průměrů s nerovnoměrnými variancemi.
χ²-test pro kontingenční tabulky.
Cohenovo d jako míra velikosti efektu.
Benjamini–Hochbergova FDR korekce pro mnohonásobná porovnání (α = 0,05).

Klasifikace recenzí

Před produkčním klasifikováním jsme udělali tzv. bake-off: na 100 stratifikovaně vybraných recenzích jsme porovnali tři metody — Czech-keyword regex, Claude Haiku a Claude Sonnet. Měřili jsme Cohenovo kappa mezi metodami a kvalitu odhalujeme transparentně v technickém repu. Sonnet byl konzistentně nejstřízlivější a nejvíce souhlasil s vlastní intuitivní kontrolou autora, takže pro produkci jsme zvolili Sonnet pro všechna pole. Recenze bez textu (pouhé hvězdičky) jsou označeny is_substantive: false a do ohraničených statistik (např. procento jmenovitě uvedeného personálu) se nezapočítávají — ohraničení n je vždy uvedeno u stat.

Omezení

Vzorek 3 nemocnic. Smoke-test fáze. Pro generalizaci na celou ČR je třeba ≥ 30 nemocnic.
Selection bias. Google recenze píší jen ti, co se rozhodli psát. Neměří všechny pacienty.
Nejde o medical-quality ranking. Měříme to, co píší recenzenti. To není totéž jako kvalita péče.
Klasifikace LLM-based. Sonnet má ~85 % shodu se zlatým standardem na nejasných polích (sentiment, role).
Časový průřez. Recenze z posledních ~4 let. Trendy v čase ještě nemáme dostatek dat.

Etika a privacy

Citujeme jen úryvky veřejných recenzí. Atribuce: „anonymní recenze, Google Maps, MM/YYYY“.
Nezveřejňujeme jména personálu. Klasifikátor zaznamenává „byl uveden konkrétní zaměstnanec“ jako pravdivostní hodnotu, ale jméno se v publikovaných výstupech nikdy neobjeví.
Nepublikujeme jména recenzentů. Google už mnoho z nich anonymizuje samo.

Reprodukce

Celý pipeline (scrape → klasifikace → agregace → testy → grafy) je open-source. Schémata, taxonomie, hypotézy i klasifikační prompty jsou součástí repu. Pokud najdete chybu, otevřete issue.