Beoordelen en graderen kwaliteit van het bewijs

3 Werkwijze en uitgangspunten

3.2 Beoordelen en graderen kwaliteit van het bewijs

De volgende stap is om de met behulp van de PICO(T) gevonden en geselecteerde informatie te beoordelen: wat is de kwaliteit van het daaruit te destilleren bewijs? Deze beoordeling kent een aantal aspecten.

3.2.1 Aspecten die de kwaliteit van het bewijs bepalen

3.2.1.1 Methodologische aspecten

Bij de beoordeling op methodologische aspecten wordt nagegaan of er tekortkomingen zijn in de opzet of uitvoering van het onderzoek, waardoor de resultaten vertekend en daarmee minder geloofwaardig kunnen zijn. De inschatting van de kans op vertekening noemen we ook wel de ‘risk of bias’. Het gaat hier om de interne validiteit.

Aspecten die bij het beoordelen van de risk of bias worden bekeken zijn: • randomisatie;

• geblindeerde toewijzing van de interventie; • blindering van patiënten en behandelaars; • blindering van effectbeoordelaars;

• vergelijking van de groepen aan het begin van het onderzoek; • volledigheid van follow up;

• analyse van patiënten in de groep waarin ze waren gerandomiseerd; • gelijke behandeling van de groepen, afgezien van de interventie; • selectieve publicatie en sponsoring.107

3.2.1.2 Belang van de resultaten

De uitkomsten moeten uiteraard van belang zijn voor de patiënt: gaat het om klinisch relevante uitkomstmaten en is er een klinisch relevant verschil zichtbaar? Het gaat dan om de beoordeling van de relevantie en de grootte van het in de studies gevonden effect en hoe betrouwbaar dat is gemeten (de precisie van de effectschatting)108_{. Ook de geloofwaardigheid van het effect is van belang. Zie hierna}

onderdeel 3.2.1.4 en paragraaf 3.2.4 over de GRADE-methodiek. 3.2.1.3 Generaliseerbaarheid

Het gaat hier om de vraag of de resultaten van de gevonden studies ook van toepassing zijn op andere dan de in het onderzoek betrokken patiënten. De in de studies geïncludeerde patiënten kunnen bijvoorbeeld in een specifieke leeftijdsgroep vallen of uit alleen mannen of alleen vrouwen bestaan. Dit wordt ook wel externe validiteit genoemd.

101 Betreft een set databases waaronder de door de Cochrane Collaboration onderhouden database of Cochrane reviews. 102 National Institute for Clinical Excellence.

103 Database met verpleegkundige en paramedische literatuur. 104 Database voor psychologie en gedragswetenschappen.

105 Respectievelijk: Der Gemeinsame Bundesausschuss in Duitsland, Haute Autorité de Santé in Frankrijk en Federaal Kenniscentrum voor de Gezond- heidszorg in België.

106 Respectievelijk: Ludwig Boltzmann Institut in Oostenrijk en Der Gemeinsame Bundesausschuss in Duitsland.

107 Zie pag. 58 van Scholten RJPM, Offringa M, Assendelft WJJ van. Inleiding in evidence-based medicine. 4e druk. Houten: Bohn Stafleu van Loghum, 2014.

3.2.1.4 Onderzoeksmethodiek (EBRO-classificatie respectievelijk GRADE)

Ook de gebruikte onderzoeksmethodiek (‘design’) bepaalt de kwaliteit van het bewijs. Tot nog toe hebben wij bij onze beoordelingen voor dit onderdeel de EBRO-classificatie gevolgd. Geleidelijk aan hebben wij een andere methodiek, de GRADE-methodiek, voor onze beoordelingen geïntroduceerd. De volgende paragraaf gaat in op de EBRO-classsificatie en de ‘passend bewijs-benadering’ die wij in aanvulling daarop hebben ontwikkeld. Daarna komt in een aparte paragraaf de GRADE-methodiek aan bod. De ‘passend bewijs-benadering’ vormt ook een aanvulling op GRADE.

3.2.2 EBRO-classificatie

De EBRO-classificatie is een classificatie om de mate van bewijskracht van de evidence (‘de sterkte’ van het bewijs) in kaart te brengen. Uitgaande van het onderzoeksdesign, worden ‘levels of evidence’ toegekend.109_{Daarmee ontstaat een hiërarchie in evidence (bewijskracht), waarvoor in principe geldt dat}

sterkere evidence zwakkere evidence verdringt.

De EBRO-classificatie luidt als volgt (hieronder alleen weergegeven voor therapeutische interventies): • A1: systematische review van tenminste twee onafhankelijk van elkaar uitgevoerde onderzoeken van

A2-niveau;

• A2: gerandomiseerd dubbelblind vergelijkend klinisch onderzoek van goede kwaliteit en voldoende omvang (RCT);

• B : vergelijkend onderzoek, maar niet met alle kenmerken van A2; • C : niet-vergelijkend onderzoek;

• D : mening van deskundigen.

Ter toelichting hierbij het volgende. Een goed opgezet en uitgevoerd gerandomiseerd vergelijkend onderzoek (randomised controlled clinical trial – RCT) geeft in principe de minste kans op vertekening van het effect en geeft derhalve de hoogste mate van zekerheid over de causale relatie tussen de interventie en het waargenomen effect. Anders gezegd: een goede RCT geeft in het algemeen de grootst mogelijke mate van zekerheid dat het gevonden effect ook inderdaad ‘waar’ is. Door de te onderzoeken interventie ad random (bijvoorbeeld door loting) te verdelen over de onderzoekspopulatie, worden in principe twee groepen gecreëerd die uitsluitend verschillen wat betreft de interventie, maar die verder identiek zijn aan elkaar. Een gevonden verschil in effectiviteit kan dan in principe uitsluitend worden toegeschreven aan de interventie en niet aan andere, bekende (bijvoorbeeld de leeftijd) of onbekende vertekenende factoren. Dat betekent dat dit studiedesign (RCT), indien goed opgezet en uitgevoerd, in het algemeen de effectiviteit van een interventie het beste kan aantonen. Andere onderzoeksdesigns hebben als nadeel dat er meer kans is op confounding, i.e. de mogelijkheid dat andere (onbekende) factoren een rol spelen die kunnen leiden tot onder- of overschatting van het verschil in effect van de interventie t.o.v. de behandeling waarmee vergeleken wordt.

Onderkend moet echter worden dat een RCT ook nadelen heeft en beperkingen kent. Een RCT geeft niet altijd de dagelijkse praktijk weer, vanwege het soms zeer streng toepassen van in- en exclusiecriteria, en vanwege de ‘extra’ aandacht die een patiënt krijgt. Een RCT is erg duur om uit te voeren, en

patiënten willen niet altijd dat het lot hun behandeling bepaalt. Ook is een RCT niet geschikt om (zelden voorkomende) bijwerkingen of problemen op de lange termijn te ontdekken.

Verder is het zo dat er situaties denkbaar zijn waarin een RCT niet nodig is en/of een RCT niet haalbaar is. Uiteraard moeten wij daar bij onze beoordelingen rekening mee houden en dat in onze overwegingen betrekken. Met dat doel hebben wij een kader ontwikkeld aan de hand waarvan wij kunnen afwegen en beargumenteren, wat - gelet op de concrete casus - als ‘passend bewijs’ kan dienen.

109 EBRO staat voor Evidence Based Richtlijn Ontwikkeling. Zie Kwaliteitsinstituut voor de Gezondheidszorg CBO. Evidence-based Richtlijnontwikkeling. Handleiding voor werkgroepleden. Utrecht, 2007. Zie verder de Kennisbank voor het maken en herzien van richtlijnen (HARING) op www.zorginsti- tuutnederland.nl.

In document Beoordeling 'stand van de wetenschap en praktijk' (pagina 42-44)