Deze bladzij gaat over datawegen

Data wegen voor regionale statistiek

Klopt het dat in 'richtlijn wegen' van het RIVM 'kleine' weegfactoren worden berekend, terwijl jij in je presentatie laat zien hoe je de 'grote' weegfactoren maakt?

Klopt niet, de RIVM richtlijn wegen adviseert het gebruik van de “grote” weegfactoren (W), met uitzondering van het afkappen, dat doe je op basis van de kleine weegfactoren (w). Overigens berekent de toepassing op de website zowel de kleine als de grote weegfactoren.

Klopt het dat 'grote' weegfactoren beter zijn? (versus de kleine weegfactoren, deze moet je ook nog afkappen indien te groot of te klein)

Het resultaat van weging met de grote of de kleine weegfactoren verschilt niet, dus ze zijn even goed. De grote weegfactoren zijn echter meestal handiger en als je er meer ervaring mee hebt ook inzichtelijker. De grote weegfactoren vertellen je hoeveel personen in de bevolking een enkele respondent vertegenwoordigd. Dit aantal blijft altijd gelijk, dus als je de gemeenten met elkaar vergelijkt, of als je groepen vergelijkt binnen de gemeenten, of kijkt naar de hele regio, je gebruikt altijd dezelfde gewichten. De kleine gewichten geven het gewicht van een gewogen respondent, soms wordt een respondent minder belangrijk na weging, soms meer belangrijk. Dit lijkt een inzicht te geven, maar als je wat vaker met de grote gewichten hebt gewerkt kan je het relatieve belang van de gewogen respondenten ook wel zien. Het grote nadeel van de kleine gewichten is dat deze veranderen als je van analyse veranderd. Dus voor een analyse op regio niveau heb je andere gewichten nodig dan voor een analyse op gemeente niveau en voor een analyse op wijkniveau weer andere gewichten. Ook als je de analyse voor mannen of vrouwen apart wilt doen, of voor de verschillende opleiding of leeftijd groepen, iedere keer heb je andere kleine gewichten nodig. Tenslotte, SPSS Complex samples gaat er vanuit dat je de grote weegfactoren gebruikt.

Klopt het, dat bij je bij de 'grote' weegfactoren, analyses (zeg maar een rapport) kunt maken voor de regio, provincie, gemeente, stad en wijk, mits je per gebied, (waar je het rapport over maakt) de weegfactor hebt gemaakt?

Ja dat klopt.

We hebben de Wi uitgerekend en we zien dat dat toch niet zo goed gaat (veel lage respons, veel <5 in de tabel), hoe lossen we dat op?

Je ontkom er niet aan om leeftijdgroepen of regio’s bijeen te nemen. Dat kan je vrij willekeurig doen, daar waar je eindigt met minder dan 5 in de deler voeg je twee leeftijdgroepen of (buur)regio’s samen. Of je leeftijdgroepen of regio’s samen neemt bepaal je aan de hand van waar je het meeste effect verwacht. Is het verwachtte verschil in de uitkomstvariabele tussen de leeftijdgroepen groot dan neem je de regio’s samen, is het verschil tussen de regio’s groot dan neem je de leeftijdgroepen samen. En een andere vuistregel is, over hoe meer categorien je weegt hoe minder potentiele bias in je eindresultaten, neem dus niet te veel samen.

Wanneer moeten we afkappen?

Volgens de richtlijn wegen van het RIVM moet je kleine gewichten van boven de 5 afkappen, en onder 0,2 ophogen. Afkappen is daarbij belangrijker dan ophogen. Afkappen wordt minder belangrijk naarmate de cellen met grote gewichten meer respondenten bevatten. Waar het om gaat is dat je probeert door middel van afkappen te voorkomen dat enkele respondenten na het wegen met grote gewichten enorm belangrijk worden, dat introduceert een grote mate van onbetrouwbaarheid, ook in de vorm van een groot designeffect.

Ik heb begrepen dat je de grote Weegfactor niet hoeft af te kappen.

Als je de toepassing gebruikt worden de grote gewichten aangepast aan de afgekapte gewichten. Een nadeel hiervan is dat de grote gewichten dan niet meer invariant zijn over de groepen, je kan ze dus niet zondermeer elders toepassen.

In de gemeente hebben we een opgehoogde steekproef voor een van de wijken: behandel je deze twee gebieden als twee onafhankelijke steekproeven, als ware het 2 gemeenten? Dus de populatie van de wijk en de populatie van de rest van de gemeente (minus de wijk), respons wijk en respons de rest (min wijk)?

Ja, het is het handigst om de gemeente in dit geval als twee gemeenten te behandelen. Misschien dat je zelfs kunt overwegen om te wegen naar alle wijken van de gemeente, als je een verschillende response per wijk vermoed is dat het overwegen waard. Hangt overigens ook een beetje van je steekproef omvang af, je moet voldoende aantallen in de weegcelen hebben, minstens 5 is de vuistregel.

En als je iets over de hele gemeente wilt zeggen, kun je dan de twee populaties samen nemen en daar de analyses op doen (met diezelfde weegfactor die je al eerder gemaakt hebt) of moet je dan een nieuwe weegfactor maken?

Als je de grote weegfactoren gebruikt hoef je geen nieuwe gewichten te maken. Bij de kleine gewichten wel.

We hebben uit de stad een willekeurige steekproef getrokken (respons ongeveer 1000) en een panel de vragenlijst in laten vullen (respons ongeveer 1500). Totaal hebben zij een respons van 2500, terwijl bij de overige gemeenten in de regio zijn er in iedere gemeente 1000 vragenlijsten verstuurd. a) Moeten we bij de stad nu ook per te analyseren wijk de populatie + respons bepalen en daar dan een weegfactor aanhangen? b) En als je iets over de hele stad wil zeggen, kun je met dezelfde weegfactor alle wijken samen doen en dat analyseren? c) En de belangrijkste vraag, is het methodologisch verantwoord dat we de data van de stad samenvoegen met de rest van de data van alle overige gemeenten, voor het verkrijgen van de dataset van de regio? Om uitspraken op regio niveau te doen.

Of je voor uitspraken op het stadsniveau naar wijk gaat wegen, en of je weegt binnen de wijken, hangt af van i) of je genoeg respondenten per wijk hebt en de cellen redelijk kan vullen, anders moet je wijken samenvoegen ii) je kan daarbij betrekken of de response rate per wijk (sterk) verschillend is, daarnaast iii) ook nog rekening houden met een mogelijk groot verschil in de sociaal/demografisch/economische samenstelling van de wijken, response verschillen in de wijken werken dan sterk door in het profiel van je steekproef. Als je de grote gewichten gebruikt voor wegen voor uitspraken over de wijken dan kan je dezelfde gewichten gebruiken voor het doen van uitspraken over de stad. Als je de grote gewichten neemt die je hebt gebruikt voor de analyse van de gemeente rapporten, inclusief de gewichten naar wijk die je voor de stad hebt gebruikt, dan kan je alle data bij elkaar nemen, en wegen met die grote gewichten om uitspraken te doen over de regio.

Het probleem is dat we gegevens verzamelen onder schoolgaande jeugd en uitspraken willen doen op wijk/buurtniveau wat weer woonachtig en niet alleen schoolgaand impliceert. We komen er niet uit hoe we nu moeten wegen en hoe we dit probleem op kunnen lossen?

Het probleem dat je gegevens hebt verzameld onder schoolgaande jongeren maar uitspraken wilt doen over alle jongeren is natuurlijk niet op te lossen met weging. De niet schoolgaande jongeren zijn per definitie minder goed opgeleid. Daar komt dan bij dat gezondheid en gezondheidsgedrag sterk samenhangt met de opleiding. Misschien dat je data kunt krijgen uit andere bronnen om de validiteit van uitspraken over gezondheid en gezondheidsgedrag te toetsen. Bijvoorbeeld, als de volwassenen enquête 16+ plus is en de schoolenquête tot 18 dan kan je een vergelijking maken om te zien wat de verschillen zijn, met de uitkomsten van die vergelijking kan je later rekening houden bijvoorbeeld door het berekenen van correctie factoren. De beste oplossing is om je onderzoek te beperken tot schoolgaande jongeren. Dus overal in je rapport bezig je taal zoals “de schoolgaande jongeren in wijk west gedragen zich niet zo best”. Helaas krijg je dan het probleem dat je dan je steekproef representatief moet maken voor de schoolgaande jongeren in de wijken. Daarvoor heb je een bevolkingsprofiel van jongeren naar schoolgaan, schooltype, leeftijd, geslacht en dergelijke naar wijk nodig, om na te gaan in hoeverre je steekproef schoolgaande jongeren per wijk vergelijkbaar is met de bevolking aan schoolgaande jongeren in de wijk. Dat lijkt moeilijk na te gaan. Zorgvuldig bijhouden van hoe het zit met de response van en in de scholen is een goed begin. Op grond daarvan kan je goede gewichten samenstellen. Daarnaast kijken naar zaken als hoeveel procent van de jongeren in een wijk heeft gerespondeerd, wat is hun sociaal demografisch profiel vergeleken met alle jongeren in een wijk, hoe werken mogelijke verschillen door in de resultaten van het onderzoek?

Nu hebben wij bij het opmaken van de planfile in onze stratavariabele leeftijd, geslacht en gemeente opgenomen zoals op pagina 29 en 30 van de richtlijn vermeld. In een andere GGD is bij de stratavariabele alleen leeftijd en geslacht opgenomen. Hierdoor worden je betrouwbaarheidsintervallen ruimer hebben we gezien. Kan jij ons uitleggen wanneer je gemeente wel of niet moet opnemen in je strata-variabele? Ik dacht nl. dat je die opneemt omdat je de steekproef naar gemeente, leeftijd en geslacht hebt getrokken.

Als je een analyse doet naar regio neem je gemeente op. Maakt verder niet uit, wordt niet meegenomen als je vervolgens een analyse doet binnen de gemeenten, moet vanzelf goed gaan. Overigens is het zo, meer stratificeren kan inderdaad je betrouwbaarheidsinterval smaller maken, omdat je variantie bindt in de strata. Het is vooral het wegen dat de betrouwbaarheidsinterval breder maakt.

Is het belangrijk om op de waarde van het design effect te letten? Meestal is dit tussen de 1 en 3. Soms zie ik een hogere waarde. Zijn er grenswaarden waartussen het design effect zich moet bevinden? Zijn de uitkomsten betrouwbaar als het design effect groot is?

Nee het is op zich niet erg belangrijk om op de waarde van het designeffect te letten. De data wordt onbetrouwbaarder naarmate het design effect toeneemt, daardoor wordt de variantie groter, worden je statistische toesen minder snel significant en de betrouwbaarheidsintervallen worden breder. Complex Samples van SPSS en Complex Samples in Epiinfo doen dat allemaal automatisch. Er is ook geen bovengrens, is het designeffect heel groot dan wordt de betrouwbaarheidsinterval heel breed. Spreekt voor zich. Echter, als de grote variantie een probleem wordt, bijvoorbeeld bij kleine groepen, dan kan je proberen het designeffect te verminderen, bijvoorbeeld door grote gewichten kleiner te maken of door groepen samen te voegen. En dan wordt het designeffect wel relevant om te zien hoe je dat het beste kunt doen.

We willen graag toetsen of er binnen een gemeente verschillen zijn tussen mannen en vrouwen en tussen de 3 verschillende leeftijdsgroepen. Nu is mijn vraag of we hiervoor gewoon Chi-kwadraattoetsen kunnen gebruiken (crosstabs) op het gewogen bestand. Of moet dit ook mbv de module complex samples

Nee je kunt niet gewoon "SPSS Crosstabs" gebruiken na weging zonder rekening te houden met het design effect. Je statistische toesen zouden té snel significant zijn. Ik zou daar, evenals voor de leeftijdgroepen en de mannen en de vrouwen "complex samples" voor gebruiken. Als je het eenmaal hebt opgezet zal je merken dat het een verbetering is ten opzichte van de oude SPSS, je krijgt bijvoorbeeld betrouwbaarheidsintervallen binnen categorien. De richtlijn wegen geeft een goede introductie, kijk daar eerst even naar.

Ik snap dat als je voor verschillende wijken weegt, dat deze totaal de stad vormen, en dan voor de grote gewichten samen mag voegen. Mag je ook op de volgende manier wegen:

1 stadsdeelA,
2 stadsdeelB,
3 wijkC1(minus stadsdeelC)
3 stadsdeelC (minus wijkC1)
4 stadsedeelD

Ja, dit is prima

Wij verzamelen data met zowel een postenquête als via het internet. Kan je deze data sets samenvoegen?

De verzamel methode doet er niet zoveel toe, zolang ze alle twee maar betrekking hebben op een willekeurige selectie uit de bevolking, of één selectie waar mensen of de postenquête beantwoorden of de internet enquête. Je kunt nadat je de data van de twee enquêtes hebt samengevoegd het profiel van je steekproef vergelijken met het profiel van de bevolking en dan de gewichten berekenen. Waar je wel rekening mee moet houden is de mogelijkheid dat respondenten een dubbele kans hebben om in de steekproef te komen, dat ze kunnen worden geselecteerd zowel voor de post enquête als voor de internet enquête, en andere respondenten hebben deze dubbele kans niet. Hoewel het in principe mogelijk is om hiermee bij het wegen rekening te houden is het beter om dit te voorkomen.

Voor een gemeente willen we een vast panel uit de gemeente optellen bij een aselecte steekproef. We hebben t-toetsen gedaan en weinig verschil gevonden tussen het panel en de steekproef. Alleen in de leeftijd vinden we verschillen, maar daar weeg je toch voor?

Het is inderdaad waar dat je de verschillen voor een deel wegwerkt door te wegen, maar als je eerst samenvoegt en daarna weegt, en niet anders om, is dat maar heel gedeeltelijk waar. Als blijkt dat je panel een willekeurige selectie uit de bevolking van de gemeente vormt, en de steekproef ook, dan kan je ze eventueel samen nemen. Maar hou er wel rekening mee dat als je samenvoegt niet iedereen het met je eens zal zijn. En sommige mensen kunnen hard roepen. Dat zijn dan vaak de mensen waar naar wordt geluisterd en niet naar de zacht sprekende en bescheiden onderzoeker. Technisch lijkt er dan misschien geen probleem om panel en aselect steekproef bij elkaar te voegen, maar politiek is er misschien wel een probleem.

We testen o.a. op wijkverschillen. In Complex Samples maak je dan een kruistabel waarbij je de 'test of indepence' aanvinkt. In de output krijg je vervolgens twee testwaarden te zien, namelijk de Pearson chi-kwadraat en de likelihood. Deze kunnen verschillen geven in de p-waarden. Theoretische kan het dus voorkomen dat de één wel een significant verschil aangeeft en de andere niet. Welke is het meest juist om te gebruiken.

Eigenlijk maakt het niet zoveel uit, meestal zullen de uitkomsten van de GFX (Pearson’s) en de LRX overeenkomen. Behalve als je een heel scheve verwachting hebt, dan is de LRX wat betrouwbaarder, of als je cellen hebt met heel kleine geobserveerde aantallen, dan is de GFX meer betrouwbaar. Voor beide is het zo dat als je deze problemen hebt ze te groot te worden, dus te snel significant. Dan is uitgaan van de meest conservatieve, dus niet significante, het beste. Meestal, voor historische redenen, hij was er eerder, wordt de GFX gerapporteerd, behalve bij log-lineaire analyse, daar wordt meestal de LRX gerapporteerd. Dat heeft te maken met de wiskunde van log-lineaire analyse. Als je in een tijdschrift leest van "de gerapporteerde gezondheid is significant verschillend tussen mannen en vrouwen (Chisq=6.45; df=3; p<0.05)" dan gaat het dus meestal om de GFX. Als je de uitdraai in SPSS bekijkt van een Crosstabs dan staat de GFX ook bovenaan.

Voorheen maakte we geen gebruik van Complex Samples (en dus de grote weegfactoren). Bij het gebruik van kleine weegfactoren geeft de chi-kwadraat toets keurig aan of de toets al dan niet te vertrouwen is als de cellen kleine aantallen bevatten (expected < 5). Bij het gebruik van de grote weegfactor komt het (bijna) nooit voor dat de expected kleiner is dan 5 omdat je met de werkelijke aantallen werkt. Hoe gaan we hiermee om. Wanneer is de celvulling te laag. Op dit moment maken we naast de kruistabellen in Complex Samples ook 'gewone' kruistabellen waarbij we gebruik maken van de kleine weegfactor om zo te kijken naar de 'expected' om de betrouwbaarheid van de chi-kwadraat te bekijken. Is dit een juiste (kort door de bocht) oplossing of kan het beter?

De vuistregel bij de Pearsons is dat je verwachting -expected inderdaad- moet zijn dat je er minstens 5 in een cel hebt, en je observatie doet er niet zoveel toe. Dat zie je niet zomaar in een tabel. Bij nul in een cel geobserveerd krijg je altijd nog een keurige Pearsons. Waar je naar moet kijken is of je er voldoende hebt in de marginalen. Ik zou gewoon lekker analyseren en die ene keer dat het voorkomt dat je te weinig verwachtte hebt in een cel niets mee doen. Echter, als je iedere keer kleine groepen bekijkt, 10 Marokkaanse vrouwen of zo, en de redenen waarom ze zo weinig bewegen, en daar dan stevige conclusies uittrekt, dat zou ik niet doen. Want dan kan je op je vingers wel natellen dat je stom bezig bent.

Nu lopen we tegen de vraag op hoe we omgaan met de weegfactoren wanneer we 3 van de 11 gemeenten op wijkniveau hebben aangeschreven en ook op wijkniveau willen analyseren. Hebben we hier dan toch 2 weegfactoren voor nodig, of gaan die ook gewoon met de grote gewichten mee?

Je moet gewoon de grote gewichten per gemeente aanmaken, dus in de ene gemeente heb je wel wijkgewichten (naar leeftijd en geslacht etc.) en in de andere gemeente niet, die gemeente zijn dan in feite één grote wijk. Die gewichten kan je gebruiken voor de analyse op wijkniveau (waar nodig), op gemeente en op regio niveau.

Wij willen oa. toetsen of er verschillen zijn tussen de gemeenten en de regio. Daarnaast willen we ook graag toetsen of er binnen een gemeente verschillen zijn tussen mannen en vrouwen en tussen de 3 verschillende leeftijdsgroepen. Nu is mijn vraag of we hiervoor gewoon Chi-kwadraattoetsen kunnen gebruiken (crosstabs) op het gewogen bestand. Of moet dit ook mbv de module complex samples. Zo ja, hoe dan?

Ik wil niet al te flauw doen, maar je kunt de gemeente natuurlijk niet zo makkelijk toetsen tegen de regio, wel tegen de andere gemeenten in de regio. Ik zou daar, evenals voor de leeftijdgroepen en de mannen en de vrouwen "complex samples" voor gebruiken, ook voor het toetsen op significante verschillen. Als je de grote gewichten gebruikt dan zal alles al snel significant worden als je daar een niet aangepaste toets gebruikt, bij de kleine gewichten zal je door het niet rekening houden met het designeffect ook verschilen te snel significant verklaren. Als je het eenmaal hebt opgezet zal je merken dat het een verbetering is ten opzichte van de oude SPSS, je krijgt bijvoorbeeld betrouwbaarheidsintervallen binnen categorien.

We hebben de grote gewichten gebruikt en krijgen nu hele grote aantallen in de tabellen en de standaard fouten en variantie zijn ook heel groot. Klopt dat?

Ja, bij de grote gewichten is de meeteenheid de hele bevolking, en niet, zoals bij de kleine gewichten, de steekproef. In de tabellen zie je dan het geschatte aantal in de bevolking, dus het geschatte aantal rokers of mensen die te veel drinken. De variantie en standaard fout zijn daaraan gekoppeld, het is het geschatte aantal in de bevolking plus of minus een paar duizend, of een paar 10000 bij een grote gemeente, of een paar miljoen als we het over een land hebben.

Wij hebben drie gemeenten opgesplitst in wijken maar willen natuurlijk ook een totaal gemeente cijfer kunnen presenteren. Hoe pakken we dit aan. We kunnen toch niet zomaar een nieuwe variabele aanmaken want de gewichten hangen samen met aantal mensen dat zij vertegenwoordigd? Of moeten we voor deze drie gemeenten nieuwe gewichten aanmaken?

Ik zou geen nieuwe gewichten aanmaken. Als je namelijk geen nieuwe gewichten aanmaakt dan weeg je de gehele gemeente statistieken naar eventuele verschillen in response tussen de wijken. Als je naar wijken hebt gestratificeerd, bijvoorbeeld vaste aantallen inwoners per wijk hebt genomen, dan moet je de gemeente natuurlijk al helemaal wegen naar wijk. De enige reden die ik kan bedenken om niet te wegen naar wijk is als je kleine aantallen hebt en je de gemeente liever weegt naar een andere factor (die je niet al bij de wijken hebt gebruikt), bijvoorbeeld naar verschillen tussen de gemeente en de steekproef naar etniciteit.

Mag je in de analyses andere leeftijdscategorieen gebruiken dan die waarop de weegfactoren gebaseerd zijn, ook als deze leeftijdscategorieen over de leeftijdsgrens van de weegfactoren heen lopen. Zo hebben wij in ons jongerenonderzoek gewogen naar de leeftijdscategorieen 12-14, 15-16 en 17-18 jaar. Voor een aantal analyses (bv alcoholgebruik), is het echter interessant om te kijken naar jongeren van 12-15 jaar en 16-18 jaar (ivm de leeftijdsgrenzen zoals gehanteerd bij alcoholpreventie)?

Ja, je mag andere leeftijdcategorien gebruiken als waarvoor je hebt gewogen en je hoeft geen nieuwe gewichten aan te maken. Bij het grote gewicht staat het gewicht voor het aantal personen dat iemand vertegenwoordigd in de bevolking, het is dus respondent gebonden. In feite stel je dat vast op het moment dat je de studie ontwerpt. Dat veranderd natuurlijk niet als je andere leeftijdcategorien gebruikt, dan vertegenwoordigd iemand niet een ander aantal personen.

Mijn collega maakt voor elke gemeente stratum 1, 2, 3, etc. aan. Zelf heb ik het begrepen dat je door moet nummeren, omdat de strata uniek zijn. Dus voor een andere gemeente maak je de strata 13 t/m 24 aan?

Inderdaad, als je weegt naar 33 gemeente, 2 geslachten, en 3 leeftijdgroepen dan heb je minstens 33x2x3=198 strata. Inderdaad, doornummeren. Als je met een “select if” apart per gemeente de analyse gaat doen heeft je per analyse maar 2x4 is 8 strata nodig. Maar dat is nodeloos veel werk en bovendien maakt dat het vergelijken van de gemeenten heel moeizaam.

Ik heb een aantal gewichten van boven de 5, die heb ik afgekapt, maar als ik daarna met de 'grote weegfactoren' frequenties gaat berekenen, klopt het totaal aantal mensen uit de populatie niet meer. Dat zijn er 4 of 5 meer (op een totaal van rond de 496.000).

Ik was van plan om een upgrade te maken waarin we het verschil terug kunnen brengen van 496005 naar 496002, of zoiets. Staat niet hoog op mijn lijst van prioriteiten. Computers kappen getallen af en als je dat maar vaak genoeg doet wil dat wel een verschilletje geven. Er zijn trucks om dat te verminderen maar die heb ik niet toegepast, extra werk met weinig opbrengst. Afrondingsfout is hier een juiste melding, en het zal je resultaten niet beinvloeden.

Indien je vragen of opmerkingen over data wegen hebt mail me dan op:

TOP of page


Wegen Vraag & Antwoord