Artikel bewaren

Je hebt een account nodig om artikelen in je profiel op te slaan

Login of Maak een account aan
Reacties0

Diagnostiek: wetenschappelijk onderzoek naar testeigenschappen

redactie

In de vorige aflevering van Wetenschap in een notendop zagen we dat het nut van een test afhankelijk is van de kans op ziekte en van de eigenschappen van de test. Wat de kans op ziekte bepaalt, zijn de eigenschappen van de patiënt: jong of oud, klachten of niet, bevolkingsgroep enzovoort. Kennis over die kans op ziekte halen we uit epidemiologisch onderzoek. Wetenschappelijk onderzoek naar testeigenschappen (zie kader 1) bestaat in het algemeen uit een transversaal (dwarsdoorsnede-) onderzoek, waarin onderzoekers twee tests met elkaar vergelijken. In dit artikel bespreken we de eisen waaraan dergelijk transversaal onderzoek moet voldoen.

Casus 1

Screening op depressie

In een vorig nummer van dit tijdschrift (nummer 6, december 2008) lees je dat patiënten na een hartinfarct vaak lijden aan een depressie. Naar aanleiding daarvan besluit je om bij de postinfarctpatiënten na te gaan wie van hen een depressie zou kunnen hebben. In overleg met de huisarts vraag je alle postinfarctpatiënten een PHQ-9 (patient health questionnaire met 9 vragen) in te vullen. Uit recent onderzoek blijkt dat de PHQ-9 redelijk goede testeigenschappen heeft (sensitiviteit 0,77 en specificiteit 0,94).1 Nadat je 40 patiënten met behulp van de PHQ-9 hebt geëvalueerd, blijkt echter dat je slechts bij 3 van hen een positieve score vindt. Omdat je een prevalentie van depressie van ongeveer 20% verwachtte, vraag je jezelf af of die PHQ-9 wel echt zo goed is.

Onderzoek naar testeigenschappen

Om een juiste diagnose te kunnen stellen, is een test nodig (of soms meerdere tests) die de diagnose met maximale zekerheid vaststelt of verwerpt. Een dergelijke optimale test (of opeenvolging van tests) noemen we de gouden standaard. Een uitgebreid en gestandaardiseerd diagnostisch interview door een ervaren psychiater beschouwen we als de gouden standaard bij de diagnostiek van depressie. Omdat een dergelijke procedure in de dagelijkse praktijk niet haalbaar is, zijn allerlei instrumenten ontwikkeld om op een eenvoudiger manier de diagnose depressie te kunnen stellen. En een van die instrumenten is de PHQ-9. Wetenschappelijk onderzoekers bepalen in welke mate een test (in ons geval de PHQ-9) eenzelfde uitkomst heeft als toepassing van de gouden standaard. Dat lijkt eenvoudig: zij vergelijken gewoon de uitkomst van de indextest (de indextest is de test die we willen onderzoeken) met de uitkomst van de gouden standaard en dan kennen we de sensitiviteit en specificiteit van de indextest (zie kader 1). Toch zitten ook hier weer addertjes onder het gras waarop we goed moeten letten bij de beoordeling van de validiteit van wetenschappelijk onderzoek naar de eigenschappen van tests (zie kader 2).

Kader 1 Testeigenschappen

Sensitiviteit: proportie zieken van alle mensen met een positieve testuitslag. Specificiteit: proportie niet-zieken van alle mensen met een negatieve testuitslag.

Kader 2 Criteria voor beoordeling van de validiteit van diagnostisch onderzoek

1. Validiteit van de gebruikte referentietest. 2. Blindering van de toepassing van beide tests en de beoordeling van testresultaten. 3. Spectrum en selectie van patiënten voor deelname aan het onderzoek. 4. Selectie van patiënten voor het ondergaan van de referentietest. 5. Tijdsverloop tussen de afname van beide tests.

Validiteit van onderzoek naar testeigenschappen

1. Validiteit referentietest

Soms is het niet mogelijk om de echte gouden standaard te gebruiken in onderzoek naar testeigenschappen. Dat is bijvoorbeeld het geval bij aandoeningen die een arts alleen met autopsie zeker kan vaststellen. Soms is toepassing van de gouden standaard op ethische gronden niet mogelijk, bijvoorbeeld bij een invasieve test, zoals pulmonalisangiografie bij de diagnostiek van longembolie. En soms is toepassing van de gouden standaard gewoon te duur. In dergelijke omstandigheden nemen onderzoekers hun toevlucht tot een andere test waarvan men aanneemt dat die het resultaat van de gouden standaard zo goed mogelijk benadert: de referentietest. Wanneer we echter de gouden standaard niet gebruiken, kan misclassificatie optreden (ten onrechte vaststellen of verwerpen van de diagnose). Vergelijking van de resultaten van de indextest met de resultaten van een niet-adequate referentietest heeft natuurlijk weinig waarde. We zullen ons daarom als lezer steeds moeten afvragen of de gebruikte referentietest wel de juiste is. Een dergelijk probleem speelt bijvoorbeeld bij de diagnostiek van pijn op de borst. De referentietest voor het vaststellen van ischemie van het hart is een angiografie, maar het stuit natuurlijk op bezwaren om allerlei mensen met een zeer kleine voorafkans een angiogram aan te doen. Daarom zou men een inspannings-ecg als referentietest kunnen gebruiken. Een inspannings-ecg is echter geen goede referentietest, aangezien (afhankelijk van de gekozen afkapwaarde) we dan een aantal mensen foutief zullen diagnosticeren. Gebrek aan overeenstemming over de te gebruiken referentietest heeft tot gevolg dat onderzoekers in verschillende onderzoeken soms verschillende referentietests gebruiken. Dat zien we ook bij het onderzoek naar de eigenschappen van de PHQ-9. In vrijwel al het wetenschappelijk onderzoek naar de waarde van de PHQ gebruiken onderzoekers steeds een andere test (en dus niet de gouden standaard) als referentietest.1 Dat zij niet de gouden standaard gebruiken is wel logisch, want toepassing daarvan zou erg arbeidsintensief en kostbaar zijn. Problematisch is het gebruik van verschillende referentietests wel, want hierdoor kunnen we de resultaten van de onderzoeken soms moeilijk met elkaar kunnen vergelijken.

2. Blindering

Zowel het feitelijk verrichten van de intextest en de referentietest als het beoordelen van de resultaten ervan dienen geblindeerd plaats te vinden. Dat wil zeggen dat de onderzoeker niet op de hoogte is van de uitkomst van de ene test als hij de andere afneemt of beoordeelt. De kans bestaat bijvoorbeeld dat de onderzoeker een nieuwe vorm van spirometrie nauwkeuriger zal uitvoeren als hij weet dat de proefpersoon COPD heeft (de gouden standaard was positief) dan wanneer hij weet dat de proefpersoon de ziekte niet heeft. Bij twijfel over de interpretatie van de uitslag van die nieuwe vorm van spirometrie speelt een soortgelijk probleem. Vrijwel altijd vereist de interpretatie van testresultaten een of andere beoordeling. Bij twijfel zal degene die beoordeelt dan geneigd zijn om de uitkomsten van de indextest te interpreteren in de richting van de uitkomsten van de referentietest (en andersom). Als onderzoekers de indextest en de referentietest (de standaard waarmee we de indextest vergelijken) niet onafhankelijk van elkaar afnemen en beoordelen, zullen ze een te hoge sensitiviteit en specificiteit vinden. Eenzelfde redenering geldt voor andere klinische informatie die richtinggevend is voor diagnostiek. Weet de psychiater die het gouden-standaardinterview afneemt bijvoorbeeld dat een patiënt eerder een depressie heeft gehad, dan zal hij bij twijfel eerder geneigd zijn de diagnose depressie te stellen. Ook kunnen we ons voorstellen dat de beoordelaar van een ecg eerder geneigd is aanwijzingen voor angina pectoris te zien als hij weet dat de patiënt pijn op de borst had en leed aan hypertensie en hypercholesterolemie. Dat kan het onderzoeksresultaat vertekenen.

3. Spectrum van patiënten

Kenmerken van patiënten zijn belangrijk, omdat die samenhangen met de te onderzoeken testeigenschappen. Wees in het algemeen op je hoede bij onderzoek dat is verricht in specialistische setting. Patiënten die zijn verwezen naar een specialist, zullen immers vaak een duidelijker (of verder ontwikkelde) ziekte hebben dan patiënten uit de huisartsenpraktijk. Als in een onderzoek naar de diagnostische waarde van de PHQ-9 patiënten uit het zorgprogramma voor stemmingsstoornissen van een psychiatrische kliniek worden vergeleken met gezonde vrijwilligers, zal de PHQ-9 vrijwel zeker uitstekende testeigenschappen hebben. Het onderscheid tussen de proefpersonen is immers bijzonder groot, veel groter dan in de wachtkamer van de huisartsenpraktijk. Daarom moeten patiënten uit het onderzoek zoveel mogelijk lijken op je eigen patiënten. Ook mag daarom binnen de te onderzoeken groep geen voorafgaande selectie optreden, want ook dat kan het contrast tussen de mensen met en de mensen zonder de aandoening vergroten.

3. Selectie van patiënten voor de referentietest

Soms kiezen onderzoekers ervoor om de referentietest bij slechts een beperkt aantal patiënten uit te voeren. Dat gebeurt vaker naarmate de referentietest duurder is of belastender voor de patiënt. In principe zal iedere selectie leiden tot vertekening van de resultaten. Als bijvoorbeeld alle patiënten met een positieve indextest, en een selectie van degenen met een negatieve indextest de referentietest ondergaan, leidt dat uiteraard tot vertekening. Relatief veel patiënten met een negatieve uitslag worden dan natuurlijk niet onderzocht met de referentietest (de indextest was immers negatief). In een dergelijk geval schatten de onderzoekers de sensitiviteit van de indextest te hoog en de specificiteit te laag in. Ze onderzoeken dan immers met de referentietest minder mensen met foutnegatieve en met terechtnegatieve uitslagen van de indextest. Vaak komen in een onderzoekspopulatie veel meer mensen voor met een negatieve dan met een positieve indextest. In dat geval kan men er toch voor kiezen een selectie van de mensen met een negatieve indextest te onderwerpen aan de referentietest. Als men daarvoor in de analyse corrigeert, hoeft dat niet te leiden tot vertekening van de resultaten. De selectie moet dan natuurlijk wel echt willekeurig plaatsvinden.

5. Tijdsverloop

De index- en de referentietest moeten de onderzoekers niet te lang na elkaar afnemen. De tijdsduur die is toegestaan, bepalen zij aan de hand van het beloop van de ziekte die ze willen opsporen. Bij acute aandoeningen verandert het ziektebeeld vaak snel, met als resultaat een verschillende uitslag van de index- en de referentietest indien men teveel tijd laat verlopen tussen het afnemen van beide tests. Het ziektebeloop verandert dan de uitslag van de test. Hetzelfde geldt natuurlijk bij behandeling tussen afname van de index- en referentietest. Bij depressie, zoals in ons geval, mag er best een aantal dagen tussen index- en referentietest zitten; zo snel verandert de toestand immers niet. Kortom: wil je twee tests vergelijken, dan doe je dat op tijdstippen waarop je dezelfde ziekte in hetzelfde stadium meet.

Casus 2

Verklaringen voor de geringe opbrengst

Omdat je de geringe opbrengst van je diagnostiek niet vertrouwt, ga je op zoek in de literatuur. Je vindt daarbij een artikel waaruit blijkt dat de onderzoekers een vergelijkbaar lage sensitiviteit van de PHQ-9 hebben gevonden.2 Bovendien blijkt dat het onderzoek is gedaan bij oudere patiënten met diabetes en COPD. De lage sensitiviteit bleek vooral te worden veroorzaakt door het antwoord op de vragen naar somberheid en anhedonie (vermindering van interesse en plezier). Het is dus mogelijk dat een specifieke populatie (ouderen met chronische aandoeningen) de PHQ-9 anders invult dan de gemiddelde huisartspatiënt. Zeker ben je er niet van, want het betreft slechts een klein onderzoek met enige beperkingen, maar het verschaft je een mogelijke verklaring. Je besluit het na te gaan in je eigen materiaal. Verder concluderen de schrijvers van het artikel dat de prevalentie van – nog niet ontdekte – depressie in een groep patiënten die zo goed in de gaten wordt gehouden als deze chronisch zieken, mogelijk laag is. Ten slotte gebruikte men in dit onderzoek een andere referentietest dan in het meeste onderzoek uit de review. Je hebt dus redenen om te twijfelen aan de testeigenschappen van de PHQ-9 voor jouw patiëntengroep. Toch heb je de test niet voor niets uitgevoerd. Want de drie patiënten die je hebt gevonden, hebben in ieder geval baat bij je werk.

Ten slotte

De beschreven vorm van wetenschappelijk onderzoek om een diagnostische test te evalueren, is van toepassing als we beschikken over een adequate en uitvoerbare referentietest. Soms is dat niet het geval, bijvoorbeeld als men van een nieuwe test beweert dat deze veel beter is dan de tot op dat moment gebruikte referentietest. In dergelijke omstandigheden gebruiken onderzoekers vaak andere onderzoeksopzetten, zoals trials, cross-overonderzoeken, of cohorten met follow-upgegevens. Het is niet mogelijk om in een kort bestek een leidraad te geven hoe men de kwaliteit van die vormen van onderzoek kan beoordelen. Dan rest niets anders dan het gebruik van het gezonde verstand en bespreking van dat onderzoek met andere verstandige mensen. Bij het gewone, transversale diagnostische onderzoek doe je er verstandig aan te letten op de vijf genoemde elementen. Uitgebreide scorelijsten om de kwaliteit van wetenschappelijk onderzoek te beoordelen zijn te vinden op de website van het CBO (www.cbo.nl).

Bladnaam:
Tijdschrift voor praktijkondersteuning 2009, nummer 5

Literatuurverwijzingen:

Literatuur

1Wittkampf KA, Naeije L, Schene AH, Huyser J, Van Weert HC. Diagnostic accuracy of the mood module of the Patient Health Questionnaire: a systematic review. Gen Hosp Psychiatry 2007;29:388-95.
2Lamers F, Jonkers CC, Bosma H, Penninx BW, Knottnerus JA, Van Eijk JT. Summed score of the Patient Health Questionnaire-9 was a reliable and valid method for depression screening in chronically ill elderly patients. J Clin Epidemiol 2008;61:679-87.