In deel 12 van de wetenschapsalmanak hebben we betrouwbaarheid beschreven: de mate waarin een meting consistent dezelfde resultaten oplevert. Maar zelfs een betrouwbare meting is niet per definitie bruikbaar. Het is minstens zo belangrijk dat een test daadwerkelijk meet wat we willen meten. Neem bijvoorbeeld een DEXA-scan. Dit is een redelijk betrouwbare en valide methode om de vetvrije massa te schatten, omdat herhaalde metingen doorgaans vergelijkbare waarden opleveren. Maar betekent een toename in vetvrije massa automatisch dat iemand meer spiermassa heeft opgebouwd? Niet per se. DEXA maakt geen onderscheid tussen spieren, botten en vocht, waardoor veranderingen in bijvoorbeeld glycogeenvoorraden of de vochtbalans de uitkomst kunnen beïnvloeden. In deel 13 van de wetenschapsalmanak richten we ons op validiteit: de mate waarin een meting daadwerkelijk meet wat deze beoogt te meten. Hoe bepalen we of een test geschikt is voor het beoogde doel? Welke soorten validiteit bestaan er? En waarom is validiteit net zo essentieel als betrouwbaarheid voor wetenschappelijk onderzoek? We verkennen de verschillende dimensies van validiteit en bespreken methoden om de geldigheid van metingen en onderzoek te beoordelen.
Betrouwbaar, maar niet altijd valide
Betrouwbaarheid geeft aan hoe consistent een meting is, maar dat betekent niet automatisch dat de meting ook valide is. Stel dat een meetinstrument systematisch een te hoge vetvrije massa schat, maar dit wel iedere keer op dezelfde manier doet. Dan is de meting betrouwbaar, maar niet valide. Validiteit gaat over de nauwkeurigheid van een meting: komt de gemeten waarde overeen met de werkelijke waarde?
DEXA: een betrouwbare, maar beperkte methode
Bij krachttraining zijn er verschillende manieren om spiergroei te meten, of te schatten, maar niet alle methoden zijn even valide. DEXA-scans worden bijvoorbeeld veel gebruikt om veranderingen in vetvrije massa nauwkeurig te schatten. Dit is een betrouwbare methode—herhaalde metingen geven doorgaans vergelijkbare waarden—maar betekent een toename in vetvrije massa ook dat iemand meer spiermassa heeft opgebouwd? Niet per se. DEXA maakt geen onderscheid tussen spieren, botten en vocht, waardoor een verandering in glycogeenvoorraden of de vochtbalans de uitkomst kan beïnvloeden.
Directe metingen van spiergroei
Een directere methode om spiergroei te meten is ultrageluid. Hiermee kan de dikte van een spier in beeld worden gebracht, waardoor onderzoekers beter kunnen beoordelen of een training daadwerkelijk heeft geleid tot spiergroei. Echter de spierdikte kan ook toenemen, doordat de spierglycogeenvoorraad meer gevuld is (1 gram glycogeen houdt namelijk 2,3 gram water vast). Ook kan de spierdikte toenemen door een ontstekingsreactie en de bijbehorende zwelling die ontstaat na pittige krachttraining. Dit is vooral het geval bij ongetrainden. Het is dus belangrijk dat in de meting rekening wordt gehouden met deze aspecten.
Om spiergroei nog wat nauwkeuriger te meten kunnen spiervezels met behulp van een microscoop bekeken worden. Door middel van een spierbiopt kunnen onderzoekers spiervezels verkrijgen en vervolgens de grootte van individuele spiervezels meten. Dit is een van de meest valide manieren om spiergroei vast te stellen, maar vanwege de invasieve aard niet altijd praktisch voor grootschalige studies. En daarnaast is niet met zekerheid vast te stellen of het verschil dat wordt gevonden in spiervezelgrootte wordt veroorzaakt door training, of omdat op een net andere locatie van de spier spiervezels zijn verkregen.
Hoe beoordelen we de validiteit van een meting?
Om de validiteit van een nieuwe meetmethode vast te stellen, wordt deze vaak vergeleken met een methode die al als betrouwbaar en nauwkeurig wordt erkend. Stel dat een nieuw apparaat wordt ontwikkeld om spiermassa te meten. Onderzoekers zouden de waarden hiervan kunnen vergelijken met ultrageluidmetingen of spierbiopten om te beoordelen of het apparaat valide is. Als de nieuwe methode sterk overeenkomt met deze referentiemethoden, kunnen we zeggen dat de meting valide is.
Validiteit kwantificeren: hoe nauwkeurig is een meting?
Net als bij betrouwbaarheid zijn er verschillende manieren om validiteit te kwantificeren. Eén veelgebruikte methode is het berekenen van de typische meetfout (typical error). Dit geeft aan hoe sterk opeenvolgende metingen met dezelfde methode van elkaar kunnen verschillen door willekeurige variatie. Een lage typische meetfout betekent dat herhaalde metingen dicht bij elkaar liggen en dus nauwkeurig zijn.
Een andere manier om validiteit te beoordelen is met een gepaarde t-test. Hierbij wordt gekeken of de gemiddelde waarden van twee meetmethoden systematisch van elkaar verschillen. Als een nieuwe methode consequent hogere of lagere waarden geeft dan een gevalideerde referentiemethode, kan dat duiden op een systematische fout.
Daarnaast kan een correlatieanalyse worden uitgevoerd. Deze statistische test meet hoe sterk twee variabelen met elkaar samenhangen. In dit geval vergelijkt men de resultaten van een nieuwe meetmethode met die van een geaccepteerde referentiemethode. Een hoge correlatie betekent dat beide methoden op een vergelijkbare manier reageren op veranderingen, maar zegt op zichzelf niets over de nauwkeurigheid. Bijvoorbeeld: als een nieuwe manier om lichaamssamenstelling te schatten systematisch 5% hogere waarden geeft dan een DEXA-scan, kan de correlatie hoog zijn, maar de schatting nog steeds niet valide. Daarom wordt correlatie vaak gecombineerd met andere methoden, zoals een Bland-Altman-analyse, om systematische afwijkingen te detecteren.
De juiste balans tussen betrouwbaarheid en validiteit
Validiteit en betrouwbaarheid werken samen: een meting moet niet alleen consistent zijn, maar ook daadwerkelijk meten (of schatten) wat deze beoogt te meten (of te schatten). Voor onderzoek naar krachttraining en spiergroei is het essentieel om methoden te gebruiken die zowel betrouwbaar als valide zijn, zodat we echt begrijpen welke veranderingen zich in het lichaam voltrekken. Met behulp van figuur 1 wordt de relatie tussen betrouwbaarheid en validiteit toegelicht.
Figuur 1
Betrouwbaarheid en validiteit
Deze dartbordanalogie legt heel duidelijk de relatie tussen betrouwbaarheid en validiteit uit.
- Betrouwbaarheid heeft betrekking op consistentie. In het eerste dartbord zie je dat bij elkaar blijven, wat aangeeft dat ze consistent zijn, maar niet per se nauwkeurig. Dus betrouwbaarheid is hoog, maar validiteit is laag omdat de worpen niet in het midden van het bord landen.
- Validiteit verwijst naar de nauwkeurigheid van de worpen. In het tweede dartbord zijn de worpen verspreid, waardoor de consistentie (betrouwbaarheid) laag is. Maar de gemiddelde locatie is goed in het midden van het doel, wat aangeeft dat de validiteit goed is, ondanks de lage betrouwbaarheid.
- Het derde dartbord laat zowel een slechte betrouwbaarheid (inconsistente worpen) als een slechte validiteit (ver van het midden) zien. Dit is de minst ideale situatie.
- Het vierde dartbord toont zowel een goede betrouwbaarheid (worpen blijven consistent op dezelfde plek) als een goede validiteit (nauwkeurig in het midden van het doel). Dit is de ideale situatie waarin zowel betrouwbaarheid als validiteit geoptimaliseerd zijn.
Deze analogie benadrukt dat betrouwbaarheid en validiteit samenhangen, maar verschillende aspecten meten, en het is mogelijk om de ene zonder de andere te hebben.
Soorten validiteit
Validiteit in wetenschappelijk onderzoek verwijst naar de mate waarin een onderzoek meet wat het bedoelt te meten. In het kader van krachttraining en sportvoeding zijn er verschillende soorten validiteit die de nauwkeurigheid van metingen en experimenten beïnvloeden. We onderscheiden inhoudsvaliditeit, criteriumvaliditeit, en constructvaliditeit, die elk verschillende aspecten van het onderzoek aanspreken.
Inhoudsvaliditeit
Inhoudsvaliditeit heeft betrekking op de mate waarin een meetinstrument (bijvoorbeeld een vragenlijst of test) daadwerkelijk alle relevante aspecten van een onderwerp dekt. Als een studie de impact van eiwitinname op spierherstel onderzoekt, maar alleen kijkt naar de inname van whey-eiwit en geen andere eiwitbronnen zoals plantaardige eiwitten, mist de inhoudsvaliditeit, omdat niet alle mogelijke eiwitbronnen worden meegenomen in het onderzoek.
Criteriumvaliditeit
Criteriumvaliditeit verwijst naar de mate waarin de metingen van een onderzoek overeenkomen met een andere, al bewezen geldige maatstaf (criterium). Er zijn twee vormen: concurrente validiteit (meten op hetzelfde moment) en predictieve validiteit (meten met het oog op toekomstige resultaten). In een studie naar de effectiviteit van een bepaald supplement voor vetverbranding, zou de predictieve validiteit worden getest door te kijken of de resultaten van het supplement (bijvoorbeeld gewichtsverlies) overeenkomen met de veranderingen in lichaamssamenstelling, gemeten door een geavanceerde methode zoals DEXA-scanning (Dual-energy X-ray Absorptiometry), die als criterium wordt gebruikt om vetmassa te meten.
Constructvaliditeit
Constructvaliditeit verwijst naar de mate waarin een test of meetinstrument daadwerkelijk het concept meet dat het beoogt te meten. Dit houdt in dat het meetinstrument conceptueel goed onderbouwd moet zijn. Als een studie beweert de ‘kracht’ van atleten te meten met een nieuwe test, moet duidelijk zijn dat de test daadwerkelijk spierkracht meet en geen andere fysieke capaciteiten zoals uithoudingsvermogen. Een validatie van de test zou kunnen inhouden dat de resultaten van de test correleren met andere gevestigde methoden van krachtmeting, zoals de 1RM-squat.
Wil je fit worden zonder fratsen. Bestel dan Fit zonder fratsen hier. Of klik op het boek hieronder: