Stichting Benchmark GGZ

Toon het menu Verberg het menu
Benchmarken

Hier vindt u uitleg over wat benchmarken is, welk onderzoek wordt gedaan om de benchmark te verbeteren, welke trainingen SBG aanbiedt voor het gebruik van de benchmarkgegevens en welke pilots SBG met het GGZ veld uitvoert.

Onderzoeksagenda Wetenschappelijke Raad

Laatst gewijzigd op: 03 mei 2016

De Wetenschappelijke Raad van SBG heeft een onderzoeksagenda opgesteld voor de jaren 2014-2018. De onderzoeksonderwerpen van de agenda zijn onder te brengen in drie bredere thema’s: uniformiteit, representativiteit en casemixcorrectie en een aantal separate onderwerpen.

Uniformiteit

Laatst gewijzigd op: 01 maart 2018
Benchmarken is jezelf verbeteren door te leren van vergelijken. Maar vergelijken is alleen goed mogelijk als iedereen de onderliggende gegevens op dezelfde manier verzamelt. Het gaat hier om de interne validiteit van de gegevensverzameling. Uniformiteit bij het verzamelen van gegevens komt vooral tot stand door strakke afspraken te maken met het veld over hoe we therapie-uitkomst meten. Daarna kun je via audits vaststellen of die afspraken ook daadwerkelijk worden nageleefd. Ruis in de gegevens ten gevolge van ongewenste variatie in meetmoment of gebruikt meetinstrument moet immers zoveel mogelijk worden tegengegaan.

Waar het niet mogelijk is tot uniforme afspraken te komen kunnen we onderzoeken of we uitkomstgegevens op een valide wijze kunnen corrigeren voor systematische verschillen die zijn opgetreden bij het verwerven van de gegevens. Psychometrisch onderzoek naar bestaande meetinstrumenten en de ontwikkeling van nieuwe instrumenten en meetmethodieken, zoals Computer Adaptive Testing (CAT), kan ook helpen om meer uniformiteit te bewerkstellingen en de last van meten te verlichten.

Meetinstrumenten

Stand van zaken per 1-3-2016: Scores op verschillende meetinstrumenten worden vergelijkbaar gemaakt door ze te converteren naar een gemeenschappelijke schaal, de T-score. Een bevinding uit de Achmea Pilot is dat T-scores en de uitkomst (Delta-T) van twee meetinstrumenten (de DASS-21 en de CORE) niet direct vergelijkbaar zijn, vanwege het feit dat beide instrumenten op verschillende patiëntenpopulaties gekalibreerd zijn ( Blankers, Barendregt en Dekker, Tijdschrift voor Psychiatrie). Mede vanwege deze bevinding heeft het bestuur van SBG besloten om voor het zorgdomein Volwassenen Cure het aantal meetinstrumenten voor het meetdomein klachten en symptomen terug te brengen van acht tot drie: OQ-45, BSI en SQ-48. Voor instellingen die over moeten stappen op een ander meetinstrument is dit een omvangrijke operatie en zij krijgen hier ruim de tijd voor. We streven ernaar samen met het GGZ veld in de nabije toekomst de responsiviteit van de drie zelfrapportage-instrumenten te onderzoeken bij een forse en representatieve steekproef van patiënten. Ook bij andere zorgdomeinen is het wenselijk de verscheidenheid van meetinstrumenten binnen hetzelfde meetdomein zoveel mogelijk in te perken. Samen met de Expertraden en de Wetenschappelijke Raad en op basis van onderzoeksgegevens wordt gewerkt aan deze beperking van meetinstrumenten.

Meetmomenten

SBG heeft ook onderzoek gedaan naar de invloed van variatie in meetmomenten. Het is voor een valide benchmark van belang dat er meer uniformiteit komt in toepassing van ROM. Wat is de invloed van metingen voor of na intake of wachtlijstperiode daarop? Welke marge in meetmomenten is acceptabel voor een valide benchmark? Op voorhand is het wenselijk dat er meer uniformiteit komt in het moment van meten.

Stand van zaken per 1-4-2016: Uit onderzoek naar het optimale meetmoment kwamen geen systematische verschillen in Delta-T naar voren afhankelijk van of de voormeting nu voor of na de intake had plaatsgevonden. Variëren van de breedte van de meetmarges had slechts een klein effect op Delta-T (versmalling leidt tot een iets grotere Delta-T), maar vooral een aanzienlijk effect op de meetrespons (door versmalling neemt de respons substantieel af).
Op inhoudelijke gronden is besloten om meer uniformiteit in meten na te streven en het meetmoment te vervroegen naar het eerste face-to-face contact. De ruime marges van drie maanden voor tot drie maanden na de peildatum blijven vooralsnog gehandhaafd.

Zorgdomeinen

SBG onderscheidt zeven zorgdomeinen: Volwassenen Cure en EPA, Ouderen Gerontopsychiatrie en Psychogeriatrie, Verslaving Cure en Chronisch en Forensische zorg. De basis voor deze onderverdeling is de doelstelling van de zorg en het meetinstrumentarium dat gebruikt wordt om de uitkomst van zorg vast te stellen.

Onderzoeksvragen bij deze onderverdeling van zorg in de GGZ zijn:
  • Moet er verder gedifferentieerd worden binnen de huidige zorgdomeinen? Zijn er bijvoorbeeld aparte benchmarks nodig voor persoonlijkheidsstoornissen of autisme, omdat de huidige selectie van meetinstrumenten te kort schiet om de uitkomst van de behandeling goed te bepalen? We moeten nader onderzoeken of voor een valide uitkomstbepaling bij sommige patiëntengroepen een afwijkende meetmethodiek of instrumentarium noodzakelijk is.
  • Bij nader differentiëren binnen zorgdomeinen kan je ook denken aan specifieke vormen van zorg, zoals ziekenhuispsychiatrie of zorg aan verstandelijk gehandicapten. Voor ROM kan meten met stoornisspecifieke meetinstrumenten belangrijke aanvullende informatie opleveren. Zo vergelijken we de responsiviteit van stoornisspecifieke meetinstrumenten, zoals de IDS voor depressie met (subschalen van) generieke meetinstrumenten, zoals de BSI.
  • Hoe gaan we om met afscheiding tussen zorgdomeinen en raakvlakken tussen zorgdomeinen? Bijvoorbeeld Volwassenen Cure en EPA of het raakvlak van forensische jeugd en verslaafde jeugd?
  • Hoe scheiden we de zorgdomeinen goed van elkaar af? 
Stand van zaken per 1-4-2016: We gaan na of er praktijkvariatie is in de toebedeling van DBC’s aan zorgdomeinen. Samen met de expertraden onderzoeken we of het noodzakelijk is de zorgdomeinen nauwkeuriger te definiëren en de regels voor aanlevering aan te scherpen. Hierbij krijgt met name het onderscheid tussen Volwassenen Cure en EPA aandacht. Voor de onderverdeling binnen de verslavingszorg tussen curatieve en chronische zorg is door de WR op advies van de Expertraad een objectief demarcatiecriterium gevonden op basis van het indicatiestellingsprotocol
bestuurmanagerbeleidsmed,onderzoeker,wetenschappelijk,zorgverzekeraar
onderzoek,wetenschappelijkeraad

Representativiteit

Laatst gewijzigd op: 15 december 2017

Alle behandelingen in de GGZ voor de volle honderd procent evalueerbaar meten en aanleveren bij het benchmarkinstituut is een mooi streven, maar zullen we nooit halen. Niet alle patiënten beheersen de Nederlandse taal, sommigen willen geen vragenlijsten over hun symptomen of functioneren invullen of de behandelaar vergeet de vragenlijst aan te bieden. Eind 2015 werd 47 procent van de DBC’s met een voor- en nameting aangeleverd. Hiermee is een forse inspanning geleverd door het veld, maar het is de vraag of dit responspercentage hoog genoeg is om voldoende vertrouwen te hebben in de representativiteit van de resultaten voor alle behandelingen. Er kunnen twee vormen van selectie bias optreden: niet bij alle patiënten een voormeting uitvoeren kan leiden tot steekproef-vertelening (sampling bias); niet alle voorgemeten patiënten nameten kan leiden tot attritievertekening (attrition bias). 

Maatregelen om de representativiteit te verhogen zijn steekproefsgewijs nameten of de respons verhogen door frequenter te meten tijdens de behandeling. Aan steekproefsgewijs meten kleven echter weer andere bezwaren, waardoor hiervoor niet is gekozen. Door frequenter te meten tijdens de behandeling wordt de kans groter dat er een meting beschikbaar is in het tijdsinterval van drie maanden voor tot drie maanden na de peildatum.

Naast deze maatregelen kan de representativiteit van de huidige gegevens worden vastgesteld door te onderzoeken of er systematische verschillen zijn tussen wel en niet evalueerbare behandelingen (met name op relevante demografische en klinische patiëntkenmerken).

Representativiteit en selectieve uitval

Op zijn hoogst zullen er van 50 – 70 procent van de uitgevoerde DBC’s begin- en eindmetingen bij SBG binnenkomen. Hoe staat het met de representativiteit van de aangeleverde gegevens? Is er sprake van selectieve non-respons? De uitkomst van behandeling kan systematisch vertekend raken door selectieve uitval van gegevens, bijvoorbeeld wanneer vooral geslaagde behandelingen zijn nagemeten en mislukte behandelingen zijn “vergeten” te meten (attrition bias). De mate van vertekening kan onderzocht worden door bij ontbrekende nametingen gegevens alsnog te schatten. Daar zijn verschillende methoden voor ontwikkeld zoals last-observation-carried-forward (niet de laatste maar de voorlaatste meting imputeren) of schatting van de nameting op basis van wel aanwezige gegevens, zoals patiënt kenmerken). Door vervolgens na te gaan of de resultaten anders worden na imputatie krijgen we inzicht in de mate van de mogelijke vertekening vanwege ontbrekende nametingen.

Stand van zaken per 1-3-2016: In pilotprojecten met zorgaanbieders en zorgverzekeraars is onderzocht of er verschillen zijn in demografische en klinische patiëntkenmerken tussen ‘completers’ en niet-evalueerbare DBC’s of zorgtrajecten (selection bias). Tot nog toe zijn er geen grote verschillen aan het licht gekomen en neemt het vertrouwen in de representativiteit van gegevens van completers voor de gehele populatie toe.

SBG heeft ook onderzoek gedaan naar verschillende imputatiemethoden, wat de volgende bevindingen opleverde. De mate van vertekening (selection bias) hangt af van de ROM-respons en de gekozen imputatie methode (regressie-analyse of multilevel) Dat de verhouding van aanwezige gegevens en geïmputeerde gegevens van invloed is op de mate van vertekening ligt voor de hand: hoe minder gegevens geïmputeerd worden, des te minder vertekening. Bij regressie-analyse wordt de missende nameting geschat op basis van patiënt kenmerken en landelijke uitkomstgegevens, bij multilevel wordt ook de prestatie van de instelling bij de schatting meegenomen. Imputatie op basis van regressieanalyse suggereert meer vertekening dan multilevel imputatie. Dit is ook goed te verklaren, want bij regressieanalyse worden de resultaten van een instelling richting het landelijk gemiddelde getrokken terwijl bij multilevel analyse de prestatie van de instelling zelf ook meegenomen wordt bij de imputatie. Tenslotte is er meer vertekening naarmate de Delta T verder van het landelijk gemiddelde af ligt. De mate van vertekening door selectiebias blijft bij 94% van de aanbieders beperkt tot op zijn hoogst een halve Delta T punt (multilevel imputatie).

bestuurmanagerbeleidsmed,onderzoeker,wetenschappelijk,zorgverzekeraar

Confounding van uitkomsten of casemix-correctie

Laatst gewijzigd op: 15 december 2017

Voor een ‘eerlijke’ vergelijking van behandeluitkomsten met de benchmark (het landelijke gemiddelde) of voor onderlinge vergelijking is het belangrijk om rekening te houden met achtergrondkenmerken en klinische kenmerken van de patiëntenpopulatie van een instelling.

Als de patiëntenpopulaties van instellingen onderling verschillen en deze verschillen zijn gerelateerd aan de behandeluitkomst dan is er sprake van confounding. Verschillen in behandeluitkomst tussen instellingen zijn dan (deels) terug te voeren op verschillen in patiëntenpopulaties.

Met subgroepselectie of case mix correctie kan confounding tegengegaan worden. Bij subgroepselectie wordt een homogene subgroep geselecteerd die op de relevante kenmerken identiek is. Zo ontstaan alsnog vergelijkbare behandeluitkomsten, maar kan er geen uitspraak meer worden gedaan over de totale populatie. Bij case mix correctie wordt de behandeluitkomst gecorrigeerd op basis van de relevante kenmerken, maar dit kan alleen indien de patiëntenpopulaties niet al te veel van elkaar verschillen.

Vragen bij case mix correctie of subgroepselectie zijn:

  • Zijn de juiste case mix variabelen geselecteerd, of moeten er nog case mix variabelen toegevoegd worden (generiek en zorgdomeinspecifiek)?
  • Hebben de geselecteerde case mix variabelen voorspellende waarde voor het behandeleffect (per zorgdomein)?
  • Zijn er systematische verschillen tussen instellingen op deze case mix variabelen?
  • Hoe kunnen we het beste zorgvraagzwaarte operationaliseren? (Zorgvraagzwaarte is vermoedelijk de belangrijkste case mix variabele.)
  • Leveren verschillende statistische benaderingen voor case mix correctie uiteenlopende resultaten op?

Stand van zaken per 1-4-2016:  Voor twee meetdomeinen (Klachten en symptomen bij Volwassenen cure en Functioneren bij Volwassenen EPA) is een case mix correctiemodel (1.0) opgesteld.

Twee groepen variabelen zijn onderzocht: demografische variabelen zoals sekse, leeftijd, woonplaatsgrootte en SES en klinische variabelen, zoals ernst bij de voormeting, comorbiditeit, en functioneren.

De voorspellende waarde van patiënt kenmerken voor behandeluitkomst is met regressieanalyse onderzocht. Uit de analyses komt naar voren dat bij beide zorgdomeinen de voormetingsscore de belangrijkste voorspeller van de uitkomst is. Andere variabelen, zoals het functioneren (GAF-score) bij aanvang van de behandeling en de aanwezigheid van sommige aandoeningen als primaire diagnose (zoals persoonlijkheidsstoornissen en somatoforme stoornissen) verklaren weinig variantie in uitkomsten. Ook demografische kenmerken van patiënten (leeftijd, geslacht, opleidingsniveau en sociaal-economische status verklaren weinig variatie in uitkomst. Een beperking is dat deze analyses zijn gedaan met een incomplete gegevensverzameling. Case mix variabelen worden vooralsnog verre van volledig aangeleverd bij SBG.

Verder blijkt dat comorbide problematiek, zoals bijvoorbeeld sommige persoonlijkheidsstoornissen, een negatieve invloed op de uitkomst heeft.

Comorbiditeit op As I van de DSM is uitgebreid onderzocht op een complete dataset afkomstig van Rivierduinen. Hieruit komt naar voren dat comorbiditeit, enige variantie in uitkomst verklaart maar wanneer voor voormetingsernst wordt gecontroleerd draagt zij nog nauwelijks bij aan het model.

In BRaM wordt nu in aanvulling op de uitkomst (Delta-T) de te verwachten Delta-T op basis van de case mix getoond. Zo kan bij beoordeling van de behandeluitkomst toch rekening gehouden worden met de eigen case mix en kunnen verschillen tussen instellingen beter geïnterpreteerd worden. Daadwerkelijk gecorrigeerde Delta-T’s worden pas berekend, wanneer we zekerder zijn van de methodiek voor case mix correctie.

Aan alle expertraden is gevraagd om aan te geven of er voor hun zorgdomein nog extra case mix variabelen zijn die van significante invloed zijn op de uitkomst van de behandeling en dus ook door SBG verzameld moeten worden. Zo zijn nu een beperkt aantal kandidaat variabelen geselecteerd die nader onderzocht gaan worden. Mocht blijken dat een nieuwe case mix variabele in belangrijke mate samenhangt met de uitkomst van behandeling, dan wordt deze toegevoegd aan de Minimale Dataset.

behandelaar,bestuurmanagerbeleidsmed,onderzoeker,wetenschappelijk,zorgverzekeraar
casemix,onderzoek

Overige onderwerpen

Laatst gewijzigd op: 15 december 2017

Aard van de behandeling

Het doel van benchmarken is jezelf verbeteren door je eigen prestaties te vergelijken met die van anderen. Uitkomstgegevens zijn een beter aanknopingspunt voor verbetering van de zorg als er ook inzicht is in de samenstelling van de eigen patiëntenpopulatie (de case mix) en in de processen die van invloed zijn op de uitkomst. Voor het laatste aspect moet informatie beschikbaar zijn over de aard van de behandeling (procesinformatie). De combinatie van patiëntkenmerken, behandeluitkomst- en procesinformatie kan inzichtelijk maken wat werkt bij wie onder welke omstandigheden en kan suggesties opleveren om tot een betere of meer doelmatige manier van behandelen te komen. De aard van de behandeling wordt door SBG vooralsnog echter niet in kaart gebracht. Procesinformatie is nu beperkt tot de prestatiecode van het DBC (waaruit de intensiteit van de behandeling valt op te maken) en de lengte van de behandeling (het interval tussen de eerste en de laatste behandelsessie). Er is vooralsnog geen uitgekristalliseerd systeem met voldoende draagvlak om verschillende typen GGZ-behandelingen te categoriseren.

Stand van zaken per 1-4-2016: De huidige behandelrichtlijnen en de inspanningen van het Netwerk Kwaliteitsontwikkeling om te komen tot zorgstandaarden kunnen aanknopingspunten bieden om te komen tot een breed gedragen taxonomie van behandelingen/interventies in de GGZ. Ook onderzoeken we activiteiten codering van de DBC-systematiek als mogelijk uitgangspunt voor zo’n taxonomie.

Benchmark presentatievormen

Mede op geleide van gebruikerservaringen moet bepaald worden waar het optimum ligt tussen eenduidig resultaten presenteren en recht doen aan de complexiteit van kwaliteitsmeting in de GGZ. Op dit moment operationaliseert SBG behandeluitkomst als het gemiddeld verschil tussen voor- en nameting in T-score (Delta-T). Een alternatief is om het resultaat van de behandeling te categoriseren in vier mogelijke uitkomsten: “hersteld”, “verbeterd”, “onveranderd” of “verslechterd”. Er zijn door Jacobson et al. criteria opgesteld voor Reliable Change en Clinical Significant Change die gebruikt worden om te komen tot deze categorisering.

Stand van zaken per 1-4-2016: Deze categorisering op basis van Delta-T en T-scores is inmiddels uitgewerkt voor twee zorgdomeinen: Volwassen cure en Kinderen en Jeugd (zie de publicatie van de Beurs et al, 2014, European Child & Adolescent Psychiatry en de Beurs et al, 2015, Clinical Psychology and Psychotherapy). Voor volwassenen EPA is een publicatie met een vergelijkbare categorisering in voorbereiding. In april 2016 is de categorisering in BRaM ingebouwd en wordt in de vorm van een rangordening gerapporteerd. Er wordt onderzoek gedaan naar een vergelijkbare categorisering van behandeluitkomst bij andere zorgdomeinen.

Patiëntervaring

Naast de behandeluitkomst wordt een andere prestatie-indicator door SBG inzichtelijk gemaakt: de patiëntervaring. Dit gebeurt op basis van de verkorte CQ-index. Deze vragenlijst levert informatie vanuit het gezichtspunt van de patiënt over hoe deze de geleverde zorg heeft ervaren, een rapportcijfer en een score die aangeeft in hoeverre de patiënt de instelling zou aanbevelen bij een lotgenoot.

Psychometrische aspecten van de CQ-i en de aanvullende waarde van deze prestatie-indicator op behandeluitkomst moet onderzocht worden. Hoe verhouden de verschillende onderdelen die gemeten worden met de CQ-index zich tot elkaar? (Net-promotor score, rapportcijfer, DC-i subschaal scores)? Voorgaande onderzoeksonderwerpen (controle op confounding, representativiteit en de presentatie van resultaten) zijn ook relevant voor deze prestatie-indicator. Daarnaast moet de relatie onderzocht worden van patiëntervaring en uitkomst; overlappen ze grotendeels, vullen ze elkaar aan, of bieden ze tegengestelde informatie? Hierbij kunnen er betekenisvolle verschillen zijn tussen de zorgdomeinen.

Stand van zaken per 1-4-2016: Inmiddels zijn er voldoende CQ-i gegevens beschikbaar bij SBG om bovenstaande vragen te gaan onderzoeken.

De bruikbaarheid van ROM-gegevens als kwaliteitsindicator van zorg

Zijn ROM gegevens voldoende betrouwbaar, robuust en betekenisvol om de uitkomst van zorg te meten? Geeft dit een goed beeld van de kwaliteit van de zorgverlening? Zouden ook andere gegevens, zoals vervolgbehandeling, recidive of nevenbehandeling in ogenschouw genomen moeten worden?

Stand van zaken per 1-4-2016: In diverse pilot projecten heeft SBG de bruikbaarheid van de ROM-gegevens als benchmarkinformatie onderzocht. We kunnen hier onderscheid maken tussen bruikbaarheid in engere zin, waar het gaat om meer objectieve wetenschappelijke validiteit. Bruikbaarheid in bredere zin heeft betrekking op informatiekwaliteit: zijn de data bruikbaar voor de gestelde doelen? Voor sommige pragmatische doelen, zoals verbeteren van kwaliteit van zorg, zijn de huidige data goed bruikbaar. Als directe indicator voor kwaliteit van zorg moet aan strenge eisen van validiteit worden voldaan en verschillende bronnen van mogelijke vertekening worden onderzocht. Confounding door demografische variabelen (voor zover onderzoekbaar op basis van de vooralsnog onvolledige aanlevering van gegevens) blijkt mee te vallen. Confounding door klinische variabelen komt vooral van de ernstscore bij de voormeting; andere klinische variabelen blijken slechts in beperkte mate samen te hangen met de uitkomst van behandeling. Mogelijke vertekening door non-representativiteit van de nu beschikbare gegevens wordt in de loop van 2016 onderzocht.

Combineren van patiëntkenmerken (zorgvraagzwaarte), behandeling en behandeluitkomst

De ultieme kwaliteitsindicator zou kunnen bestaan uit een combinatie van patiëntkenmerken, behandelintensiteit en uitkomst van de behandeling. Een te onderzoeken vraag is, of deze combinatie meerwaarde heeft en betere informatie oplevert.

Een aanpalend onderwerp is de productstructuur in de GGZ. We werken hiervoor momenteel met de DBC-systematiek en dat is in essentie een tijdschrijfsysteem, waarin behandelingen worden gecategoriseerd naar duur in minuten. Er worden door de zorgaanbieders en zorgverzekeraars gezamenlijk mogelijke alternatieven bestudeerd, zoals de categorisering van diensten in het Verenigd Koninkrijk (21 care clusters voor niet-psychotische, psychotische stoornissen en dementie). Met een productstructuur die beter aansluit bij de klinische werkelijkheid kan onderzocht worden of de combinatie van case mix-, behandelings- en uitkomstinformatie een goed uitgangspunt zou kunnen zijn voor kwaliteitsinformatie in de GGZ.

Stand van zaken per 1-4-2016: Dit onderzoek wordt stapsgewijs uitgevoerd:

  • Onderzoeken naar de beste of meest relevante indicator van de geleverde zorg is; intensiteit (kosten) of duur.
  • Toevoegen van deze indicator aan de uitkomstinformatie en onderzoeken of zo een eenvoudige en bruikbare indicator voor doelmatigheid ontstaat (bijvoorbeeld kosten per Delta T punt).
  • Onderzoeken of case mix variabelen van invloed zijn op deze doelmatigheidsindicator.
  • Onderzoeken of de resulterende kwaliteitsindicator (die is gebaseerd op gecombineerde informatie van patiëntkenmerken, behandeling en uitkomst) een beter beeld geeft van eventuele verschillen in kwaliteit van zorgverlening dan de afzonderlijke indicatoren.

Evaluatie benchmarken

ROM-feedback is op zichzelf geen wondermiddel om een stagnerende behandeling bij een patiënt vlot te trekken; de feedback kan wel de aanleiding zijn om de behandeling bij te sturen. Op dezelfde manier is monitoren van de gemiddelde behandeluitkomst van een instellingsonderdeel op zichzelf niet voldoende om een kwaliteitsverbetering van de geboden zorg tot stand te brengen. Feedback kan wel de aanleiding zijn tot het implementeren van veranderingen in het beleid.

Benchmarken is jezelf verbeteren door te leren van vergelijken van behandeluitkomsten om uiteindelijk te komen tot kwaliteitsverbetering van de zorg. Door monitoring krijgt men feedback over de prestaties van de instelling. De kwaliteitsverbeteringen zelf kunnen tot stand komen in een voortdurende opeenvolging van Plan–Do–Check–Act cycli. Monitoring van de prestaties op basis van uitkomstgegevens vervult in de cyclus de rol van check. De feedback dient dus gepaard te gaan met maatregelen die worden getroffen in de instelling en die zijn gericht op bevordering van de kwaliteit.

Levert benchmarken kwaliteitswinst op? Die vraag roept weer vier subvragen op:

  1. Komen er kwaliteitsverschillen aan het licht in aangeboden zorg?
  2. Nemen de verschillen af over de tijd?
  3. Zijn afnemende verschillen terug te voeren op leren van elkaar en implementatie van veranderingen in behandelbeleid?
  4. Speelt de geboden feedback over de uitkomst hierbij een doorslaggevende rol?

Stand van zaken per 1-4-2016: Onderzoek naar deze vragen gaat voor SBG antwoord geven op de hamvraag of de ambities die zijn verwoord in het ‘position paper’ ook daadwerkelijk gerealiseerd worden. In 2016 gaan een aantal benchmark pilots van start waarmee een evaluatie van benchmarken in een cluster- gerandomiseerde studie mogelijk wordt.

bestuurmanagerbeleidsmed,onderzoeker,wetenschappelijk,zorgverzekeraar
onderzoek
top