De afgelopen jaren hebben wetenschappelijke verenigingen, de IGZ, ziekenhuizen, patiëntenorganisaties en zorgverzekeraars in de zorg druk gediscussieerd over de zogenaamde ‘volume – kwaliteit’ relatie.
Kern van de discussie is telkens dat er tal van studies zijn die laten zien dat als je iets vaker doet dat dan de uitkomsten voor de patiënt beter zijn. Het laatste deel van het debat was een paar weken terug toen IKNL met een studie kwam dat per ziekenhuis minimaal 75 borstkanker patiënten behandeld moeten worden, omdat dan de overleving beter is. De kern van de vraag bij deze discussies is iedere keer: waar moet de afkapwaarde liggen?
Echter, in plaats van het aantonen (of verwerpen) van deze volume-kwaliteit relaties, kan je ook een simpele (en minstens zo belangrijke) vraag stellen: welk kwaliteitsverschil voor patiëntengroep X wil ik kunnen meten? Vinden patiënten een verschil van 2% overleving – voor een vergelijkbare patiëntenpopulatie – tussen ziekenhuizen in 30-daagse sterfte bij bijvoorbeeld traumazorg relevant? Of zijn ze pas bereid naar een verder gelegen ziekenhuis te gaan bij een verschil van 5%?
Betrouwbaarheid
Deze vraag is van belang voor de wijze waarop we de zorg organiseren. Immers, het verhogen van aantallen behandelingen leidt tot een preciezer (met veel kleinere betrouwbaarheidsintervallen) beeld van de kwaliteit van zorg. Neem bijvoorbeeld het plaatje hieronder. Daar staat de 30 daagse sterfte post-OK voor een rectumcarcinoom. De variatie tussen ziekenhuizen is aanwezig: er zijn ziekenhuizen waar niemand sterft en ziekenhuizen waarvan meer dan 5% van de patiënten binnen 30-dagen na de operatie sterven. Wij verwachten dat deze verschillen voor patiënten bijzonder belangrijk zijn. De resultaten sluiten echter niet uit dat de verschillen door toeval ontstaan. Uit het plaatje blijkt dat het betrouwbaarheidsinterval (95% BI) ver boven de 8% loopt.
Uit wat eerste analyses van onze kant blijkt dat in veel gevallen de aantallen per ziekenhuis die nodig zijn om relevante kwaliteitsverschillen te meten vaak een stuk hoger zijn dan het aantal (minimum)behandelingen per jaar. Dit argument en het kwaliteitsargument dienen te worden afgewogen tegen andere argumenten die juist pleiten voor een betere toegankelijkheid en spreiding van zorg. De uitkomst van deze weging zal per diagnose en wellicht ook per gebied (landelijk vs. stedelijk) verschillen. Wel lijken ons drie zaken erg belangrijk, die we hieronder uiteenzetten.
Power berekening
Waar het in de wetenschap erg normaal is om een zogenaamde ‘power berekening’ te doen, zien we dit nog niet gebeuren bij kwaliteitsmetingen. Het bepalen van hoeveel patiënten je nodig hebt om een relevant verschil te kunnen meten zou een standaard criterium moeten zijn in het selecteren van kwaliteitsindicatoren, het stellen van minimum en optimumnormen en zou opgenomen moeten worden in kwaliteitsstandaarden en richtlijnen. Een tweede element – dat nu nog (te) weinig wordt toegepast – is het slim vergroten van betrouwbaarheid van indicatoren door bijvoorbeeld jaren samen te voegen, de opvolgtijd van de meting te verlengen, of het gebruik maken van somscores van samenhangende indicatoren (waardoor uitkomsten vaker voorkomen en dus betrouwbaarder te meten zijn). Daarnaast, zou het goed zijn om – bijvoorbeeld via focusgroepen of keuze-experimenten – patiënten te vragen wat zij een relevant verschil vinden, om zo ook een duiding van afkapwaarden te krijgen die volgen uit de twee zaken hiervoor genoemd.
Tot slot verwachten we, dat er ook met bovenstaande stappen in enige mate relevante verschillen overblijven die niet significant verschillend zijn. Voor patiënten en hun vertegenwoordigers (zorginkopers) is dit echter wel bruikbare informatie. Ziekenhuizen die nu goed scoren hebben immers een grotere kans dat volgend jaar ook te doen. Dus ook als de verschillen niet significant zijn, is het rationeel om wel gebruik maken van deze informatie. Dat is natuurlijk pijnlijk voor die ziekenhuizen die door toeval een keer slecht hebben gescoord. Reden te meer om zo snel mogelijk te werken aan het vergroten van de betrouwbaarheid.
David Ikkersheim
KPMG Plexus en gastdocent VU
Xander Koolman
Talma/VU en SiRM