Spreidingsdiagram
Een spreidingsdiagram (Engels: scatter plot) geeft een indruk van de mate waarin twee verschillende factoren aan elkaar gerelateerd zijn. Naarmate de punten meer homogeen binnen het x,y-vlak verspreid liggen is het onwaarschijnlijker dat er een verband bestaat tussen de factoren. Voor min of meer lineaire relaties is de correlatiecoëfficiënt een wiskundige maat voor een mogelijk verband.
Inhoud
Voorbeelden
Om een spreidingsdiagram te kunnen maken moet je over paarsgewijze observaties beschikken, d.w.z. dat voor twee factoren X en Y de waarde steeds wordt bepaald voor dezelfde eenheid van analyse, bijv. dezelfde locatie (voorbeeld 1), dezelfde locatie én hetzelfde tijdstip (voorbeeld 2 en 3), of dezelfde persoon (voorbeeld 4). Aan de vorm van de "puntenwolk" van een spreidingsdiagram valt af te lezen of er aanwijzingen zijn dat er tussen de twee factoren enig verband bestaat:
1. Uur van de dag ↔ invallende zonnestraling
(Bron: knmi)
Dit voorbeeld laat zien dat de zonne-energie die per uur binnenkomt in juli over het algemeen veel meer is dan die in januari, maar ook dat er dagen in juli zijn waarop er minder zonne-energie binnenkomt dat op de zonnigste dagen in januari. Het verschil in de lengte van de dag is ook zichtbaar: het blauwe "bergje" is niet alleen lager, maar ook smaller. De hoogste waarden op ieder uur komen overeen met een wolkeloze hemel en vormen een halve sinus als functie van de tijd. Onder deze maximale waarden zijn de metingen tamelijk homogeen verdeeld. Er lijkt dus een verband te zijn tussen de tijd en de maximaal te verwachten waarden, maar de werkelijk optredende waarde op een bepaald uur kan dan nog alle waarden tot dat maximum aannemen.
2. Temperatuur ↔ windsnelheid
(Bron: knmi)
In dit diagram is te zien dat de wind bij lage temperaturen in januari meestal niet sterk is: onder 5°C komen bijna uitsluitend windsnelheden t/m 6 m/s ("matig") voor. Boven 5°C is er echter een grote verticale spreiding. Er kan dan op basis van de temperatuur dus weinig gezegd worden over de windsnelheid. De hoogste windsnelheden (rond 15 m/s, "hard") komen onder 7°C nauwelijks voor.
3. Benzineprijs ↔ Automobiliteit
(Bron: statline.cbs.nl)
Let op: Het puntenpatroon in een spreidingsdiagram geeft hooguit een indicatie voor het bestaan van een verband tussen twee factoren. Vaststellen of het gaat om een causaal verband of een schijnverband vergt nader onderzoek. Bovenstaand spreidingsdiagram suggereert zo'n schijnverband: mensen lijken meer te gaan autorijden naarmate de benzine duurder wordt.
4. Aantal wedstrijden ↔ leeftijd voetballer
De langgerekte vorm van de puntenwolken in voorbeeld 3 laat zien dat er een positieve correlatie bestaat tussen de leeftijd van een voetballer en het aantal wedstrijden dat hij heeft gespeeld. Dat op zich is niet verwonderlijk — een goede voetballer speelt immers elk jaar een paar wedstrijden op het hoogste niveau. Wat deze analyse interessant maakt is de vergelijking tussen de twee clubs: bij PSV lijken ze net iets minder wedstrijden per levensjaar te spelen dan bij Ajax. Als we voor beide puntenwolken de regressielijn bepalen wordt dat duidelijk:
Merk op: We hebben de assen van de diagrammen omgewisseld. Hierdoor is het gesuggereerde verband logischer gevisualiseerd: leeftijd als onafhankelijke variabele X, aantal gespeelde wedstrijden als afhankelijke variabele Y. Aan de richtingscoëfficiënt van de lijnen kun je zien dat bij Ajax 19,76 wedstrijden per levensjaar worden gespeeld en bij PSV 18,49.