Strengthening methods of diagnostic accuracy studies

(1)

UvA-DARE is a service provided by the library of the University of Amsterdam (https://dare.uva.nl)

UvA-DARE (Digital Academic Repository)

Ochodo, E.A.

Publication date 2014

Link to publication

Citation for published version (APA):

Ochodo, E. A. (2014). Strengthening methods of diagnostic accuracy studies. Boxpress.

General rights

It is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), other than for strictly personal, individual use, unless the work is under an open content license (like Creative Commons).

Disclaimer/Complaints regulations

If you believe that digital publication of certain material infringes any of your rights or (privacy) interests, please let the Library know, stating your reasons. In case of a legitimate complaint, the Library will make the material inaccessible and/or remove it from the website. Please Ask the Library: https://uba.uva.nl/en/contact, or a letter to: Library of the University of Amsterdam, Secretariat, Singel 425, 1012 WP Amsterdam, The Netherlands. You will be contacted as soon as possible.

(2)

Samenvatting en discussie

(3)

Nederlandse samenvatting

236

Nederlandse samenvatting

Behandelen of niet behandelen? Het nemen van de beslissing om wel of niet te behandelen op basis van testresultaten kan verregaande gevolgen hebben voor de gezondheid van een patiënt. Het wetenschappelijke bewijs voor de accuratesse van medische testen moet daarom betrouwbaar zijn en gegenereerd zijn met behulp van valide en robuuste methoden. In dit proefschrift hebben we onderzocht hoe de aanbevolen methoden voor diagnostische accuratesse zijn toegepast in de literatuur. We richtten ons specifiek op de rapportagemethoden in primair onderzoek naar de accuratesse van diagnostische testen en op methoden om het risico op vertekening te bepalen, om meta-‐analyses uit te voeren en om vertekening door selectieve publicatie (publicatiebias) te onderzoeken in systematisch literatuuronderzoek, systematic reviews.

Ons onderzoek in Hoofdstuk 1 liet zien dat ongeveer 3 van de 10 onderzoeken naar de diagnostische accuratesse van biomarkers of andere medische testen hun resultaten optimistischer rapporteren dan ze in werkelijkheid zijn. Het ging hierbij om artikelen gepubliceerd in wetenschappelijke tijdschriften met een impact factor van 4 of meer. Van deze artikelen bevatte 99% methoden die een dergelijke overoptimistische interpretatie faciliteerden. De meest voorkomende vorm van overoptimistische interpretatie is een overoptimistische samenvatting. De meest voorkomende methode die overoptimistische interpretatie faciliteert, was het niet rapporteren van een steekproefgrootte berekening en het niet op voorhand noemen van een onderzoekshypothese. Diagnostische accuratesse onderzoek dat optimistische conclusies rapporteert, zal veelvuldig geciteerd worden en leidt daardoor tot een cascade aan opgeblazen en dubieus wetenschappelijk ‘bewijs’ in de medische literatuur. Dit kan zich vervolgens vertalen in de voortijdige toepassing van testen in de medische praktijk.

In Hoofdstuk 2 vonden we dat in een cohort van onderzoeken naar de accuratesse van diagnostische testen die geregistreerd stonden in ClinicalTrials.gov, iets meer dan de helft al 18 maanden of langer geleden was afgerond voordat de resultaten gepubliceerd warden in een biomedisch

(4)

tijdschrift. Hoewel de publicatiesnelheid omhoog ging met de jaren, was ongeveer een derde van de onderzoeken die voor 2009 waren afgerond, halverwege 2013 nog steeds niet gepubliceerd. Het niet rapporteren en publiceren van onderzoeksresultaten kan leiden tot onnodig dupliceren van onderzoek en het wegblijven van valide resultaten beperkt de wetenschappelijke basis voor veel klinische beslissingen.

Ons opiniestuk over de STARD richtlijnen voor rapportage, in Hoofdstuk 3, belichtte de trage verbetering van de rapportage van accuratesse onderzoek. Wij pleitten voor een herziening van de STARD richtlijnen om ook de rapportage van samenvattingen er in op te nemen. Net zoals voor klinisch experimenteel onderzoek, roepen we op tot een formele eis tot registratie van vooraf gedefinieerde accuratesse studies. Ook stellen we een uitbreiding voor met richtlijnen voor andere typen accuratesse onderzoek, zoals de accuratesse van prognostische testen.

In Hoofdstuk 4 vonden we dat van een steekproef van 53 recent gepubliceerde diagnostische accuratesse reviews met een meta-‐analyse bijna alle publicaties (92%) de methodologische kwaliteit van de geïncludeerde onderzoeken hadden bepaald. Echter, slechts 2 publicaties (4%) namen de resultaten van deze kwaliteitsbeoordeling in beschouwing bij het trekken van conclusies. Simpelweg op test resultaten vertrouwen zonder de kwaliteit in ogenschouw te nemen kan leiden tot het in praktijk brengen van slecht presterende testen en zou vervolgens kunnen leiden tot suboptimale behadeling van patiënten.

Hoofdstuk 5 wees in een online steekproef uit dat er onder auteurs van

systematic reviews over diagnostische accuratesse een gebrek aan duidelijkheid

is over de aanbevolen methoden voor het doen van meta-‐analyses. De meeste auteurs die de traditionele methoden hadden gebruikt lieten weten dat zij dachten dat dit de aanbevolen methoden waren. De meeste auteurs die geavanceerde methoden hadden gebruikt rapporteerden ook dat de methoden die zij gebruikten de aanbevolen methoden waren. Als we bedenken dat er veel variatie is in resultaten van diagnostische accuratesse onderzoek, dan is het

(5)

238

essentieel dat meta-‐analyses deze variatie meenemen en indien mogelijk verklaren. Dit zal artsen en beleidsmakers helpen een objectief oordeel te vellen over de toepasbaarheid van de testen in hun situatie. Hopelijk zal het ook het gebruik van testen op basis van inadequaat wetenschappelijk bewijs verminderen. Geavanceerde modellen voor meta-‐analyses van diagnostische accuratesse zijn hierbij in het voordeel, omdat zij beter met variatie kunnen omgaan dan de meer traditionele methoden.

In Hoofdstuk 6 vonden we dat in een steekproef van 114 literatuuroverzichten de meeste auteurs (65%) het potentiële gevolg van vertekening door selectieve publicatie noemden of zelfs onderzochten. Echter, de meesten (90%) gebruikten hiervoor statistische methoden die niet aanbevolen worden voor het onderzoeken van deze vorm van vertekening in diagnostische accuratesse onderzoek. Daarbij lieten onze vergelijkingen tussen de statistische toetsen die aanbevolen worden voor interventie-‐onderzoek (Begg toets en Egger toets) en die aanbevolen worden voor accuratesse-‐onderzoek (Deeks toets) zien dat deze methoden verschillende resultaten geven en dus niet inwisselbaar zijn. Het gebruik van de verkeerde methoden leidt tot een overschatting van de invloed van selectieve publicatie op accuratesseresultaten en misleidt daarbij de lezers.

Hoofdstuk 7 bevat een systematic review van sneltesten en PCR voor de detectie

van malaria in zwangere vrouwen. Onze bevindingen suggereren dat sneltesten en PCR goed genoeg kunnen zijn om als alternatief voor microscopie te fungeren. Eén van de uitdagingen in dit onderzoek was de beperkte praktische waarde van de referentiestandaard, histologie van de placenta. Omdat histologie niet altijd mogelijk of wenselijk is, gebruikten slechts enkele onderzoeken dit als referentiestandaard. Om dit op te lossen hebben we de sneltesten en PCR ook geëvalueerd tegen alternatieve referentiestandaarden, zoals microscopie van placentabloed en microscopie van perifeer bloed.

In Hoofdstuk 8 hebben we systematisch de diagnostische accuratesse samengevat van verschillende testen voor actieve schistosomiasis (bilharzia), in endemische gebieden. Het ging om testen voor circulerend antigeen en urine

(6)

reagens staafjes. Er is momenteel geen gouden standard of aanbevolen klinische referentie standaard voor de detectie van actieve schistosomiasis. Echter, omdat in de praktijk microscopie de meest gebruikte test is, hebben we deze gebruikt als referentie standaard voor de detectie van S. haematobium en S. mansoni. Onder de onderzochte testen voor S. haematobium infectie was microhematurie de test die het grootste deel van de infecties en non-‐infecties, zoals gemeten door microscopie, detecteerde. Voor S. mansoni detecteerde de CCA POC test een hoog percentage infecties die ook door microscopie gevonden warden, maar er was ook een hoog percentage dat door microscopie als niet-‐geïnfecteerd werd gezien en dat positief was op de CCA POC test. Dit was met name het geval in endemische gebieden met een hoge tot gemiddelde prevalentie. Slechte en inconsistente rapportage beperkte het onderzoek van bronnen van variatie en vertekening.

We besluiten dit proefschrift met een dwingende vraag naar een veelvuldiger gebruik van systematic reviews van diagnostische accuratesse in Afrika, in

Hoofdstuk 9. In een continent dat is opgezadeld met vele ziekten tegenover een

gebrek aan hulpmiddelen, is evidence-‐based medicine nodig om effectief het gebruik van deze hulpmiddelen te kunnen prioriteren. We bespreken manieren om het aantal en gebruik van voor Afrika relevante diagnostische reviews te vergroten.

Hoe nu verder

Om de methoden voor diagnostisch accuratesse onderzoek te verstevigen, bevelen we de volgende stappen en onderzoeksgebieden aan voor de toekomst.

Om overoptimistische interpretatie van diagnostisch accuratesse onderzoek tegen te gaan

• Zouden tijdschriften continu moeten benadrukken dat ingediende artikelen aan de STARD richtlijnen moeten voldoen;

• de STARD richtlijnen uitgebreid moeten worden voor rapportage van samenvattingen;

(7)

240

• het woordgebruik in STARD aangepast moeten worden, zodat het meer in lijn ligt met de CONSORT richtlijnen en makkelijker te volgen wordt; • Zou verder onderzoek gedaan moeten worden naar mogelijke

mechanismen die leiden tot overoptimistische interpretatie van diagnostisch accuratesse onderzoek;

• Verder onderzoek dat de citaties van overoptimistische artikelen vergelijkt met artikelen die niet overoptimistisch zijn;

• Verder onderzoek naar de frequentie van overoptimistische interpretatie van diagnostisch accuratesse onderzoek dat gebruikt wordt om richtlijnen of beleid te informeren.

Om vertekening door selectieve publicatie te onderzoeken en tegen te gaan

• Bevelen we prospectieve registratie van diagnostisch accuratesse onderzoek aan;

• Uitbreiding van STARD voor de rapportage van protocollen voor diagnostisch accuratesse onderzoek;

• Onderzoek naar de mechanismen achter selectieve publicatie en rapportage in diagnostisch accuratesse onderzoek;

• Is onderzoek nodig in een cohort van geregistreerde

onderzoeksprotocollen dat de discrepanties laat zien tussen wat vooraf geregistreerd wordt en uiteindelijk gepubliceerd wordt;

• Is meer onderzoek is nodig naar nieuwe statistische toetsen of verbetering van de Deeks’ toets on selectieve publicatie te kunnen onderzoeken in diagnostisch accuratesse onderzoek.

Om de integratie van kwaliteitsbeoordeling in diagnostische literatuuroverzichten te verbeteren

• Moet het Cochrane Handbook auteurs expliciet adviseren om de kwaliteitsbeoordeling op te nemen in de conclusies van diagnostische

systematic reviews;

• Een vragenlijst onder auteurs van deze overzichten zou de uitdagingen kunnen laten zien die men tegenkomt bij het beoordelen en interpreteren van de methodologische kwaliteit.

(8)

Om de aanbevolen methoden voor meta-‐analyses van diagnostische accuratesse te verbeteren

• Is meer onderzoek nodig dat laat zien hoe de resultaten van traditionele methoden en die van geavanceerde methoden de resultaten in de klinische praktijk beïnvloeden.

• Duidelijk advies is nodig om de auteurs te verwijzen naar passende alternatieve methoden voor meta-‐analyse als de aanbevolen methoden niet goed werken.

Om het testen op malaria en schistosomiasis te verbeteren,

• Moeten onderzoeken een passende en praktische referentiestandaard vinden voor malaria tijdens de zwangerschap en voor schistosomiasis. • Voor malaria tijdens de zwangerschap, zouden meer evaluaties van de

accuratesse van sneltesten en PCR in gedaan moeten worden in situaties met verschillende prevalentie.

• Voor schistosomiasis zouden meer evaluaties naar circulerend antigen testen gedaan moeten worden in verschillende prevalentie-‐situaties en in situaties met een lage intensiteit, om aan te kunnen sluiten bij de huidige controleprogramma’s met praziquantel.

• Auteurs die onderzoek uitvoeren naar deze testen in ontwikkelingslanden zouden zich meer bewust moeten zijn van de STARD richtlijnen.

Conclusies

De voorkeursmethoden voor rapporteren, kwaliteitsbeoordeling en meta-‐ analyse in onderzoeken en systematic reviews van diagnostisch accuratesse zijn naar voren gebracht. Dit proefschrift laat echter zien dat het begrip en correcte gebruik van deze methoden suboptimaal is. Dit kan deels komen door de complexiteit en het beperkte begrip van de methodologie van diagnostisch onderzoek. In plaats van ons steeds te richten op de verdere ontwikkeling van meer geavanceerde methoden terwijl de kennis van de huidige methoden nog steeds zo slecht is, geloof ik dat de nadruk in diagnostisch onderzoek meer zou moeten liggen op innovatieve kennisoverdracht. Met andere woorden, hoe

(9)

242

kunnen deze methoden op eenvoudiger wijze gecommuniceerd worden? Hoe kunnen deze methoden beter passend gemaakt worden voor de (volks)gezondheidszorg? Hoe kunnen rapportagemethoden, zoals STARD, beter gecommuniceerd worden, zodat ze ook beter gebruikt zullen worden? Meer onderzoek naar de gebruikswaarde of het begrip van deze methoden kan handig zijn als we het gebruik ervan willen bevorderen. Bij voorkeur wordt dit onderzoek gedaan in de klinische context. Bijvoorbeeld, redenen voor slecht begrip en beperkt gebruik van de methoden zou kunne variëren tussen specialismen (in infectieziekten anders dan bij niet-‐infectieuze aandoeningen?) of tussen verschillende diagnostische methoden (beeldvormende technieken tegenover laboratoriumtesten).

Daarbij, om selectieve publicatie te matigen, wordt een oproep gedaan om ook diagnostisch accuratesse onderzoek prospectief te registreren. Methodologen zouden zich daarnaast ook moeten afvragen waarom selectieve rapportage kan optreden binnen accuratesse onderzoek. Kwalitatief onderzoek naar de drijfveren achter publicatie of het niet publiceren van resultaten zou ook gedaan moeten worden om tot effectieve maatregelen te kunnen komen.