Correlatie
We zeggen dat er correlatie bestaat tussen twee factoren of variabelen X en Y wanneer er een (lineair) verband lijkt te bestaan tussen hun waarden in de zin dat als de waarde van X hoog is, die van Y dan vaak ook hoog is, of omgekeerd (dus bij een hoge X juist vaak een lage Y). Het soort verband is dus vergelijkbaar met de + en − in een causalerelatiediagram.
De mate van correlatie tussen X en Y wordt uitgedrukt in de correlatiecoëfficiënt (notatie: ρ). De waarde van de correlatiecoëfficiënt ligt altijd tussen -1 en +1. Daarbij betekent:
ρ = 0 geen lineaire samenhang ρ = +1 perfecte positieve lineaire samenhang ρ = −1 perfecte negatieve lineaire samenhang
Onderstaande spreidingsdiagrammen laten voor verschilende typen puntenwolk zien welke correlatiecoëfficiënt daarbij hoort.
Merk op:
- Alleen het teken (+ of −) van de correlatiecoëfficiënt zegt iets over de (lineaire) verhouding tussen X en Y, namelijk dat de waarde van α in de vergelijking Y = α·X + β positief (> 0) of negatief (< 0) is. Bij een hoge absolute waarde van de correlatiecoëfficiënt liggen de punten (X, Y) vrijwel op één lijn, maar die lijn kan ook (bijna) horizontaal zijn.
- Als alle punten (X, Y) exact op een horizontale lijn liggen (dus Y is constant voor alle X) is de correlatiecoëfficiënt ongedefinieerd. Liggen bijna alle punten een horizontale lijn, dan is de correlatiecoëfficiënt bijna gelijk aan 0. Dit klopt netjes met het idee dat een lage ccorrelatiecoëfficiënt aangeeft dat de waarde van Y geen verband lijkt te houden met de waarde van X.
- Omdat de correlatiecoëfficiënt uitgaat van een lineair verband tussen X en Y is hij een slechte indicator voor niet-lineaire verbanden zoals in de twee grafieken midden-onder. Om niet-lineaire verbanden tussen variabelen te ontdekken is het daarom zinvol om niet alleen correlatiecoëfficiënten te bepalen maar daarnaast ook spreidingsdiagrammen te maken.
- Een correlatie tussen twee factoren hoeft niet te betekenen dat er inderdaad een oorzakelijk verband tussen die factoren bestaat.
⊕ Correlatiecoëfficiënt bepalen
Hoe je de correlatiecoëfficiënt ρ wiskundig berekent wordt o.a. uitgelegd in het Wikipedia-artikel Correlatiecoëfficiënt. Deze berekening valt echter buiten de stof van het vak Systeemmodellering 1. Voor nu is het voldoende dat je weet wat correlatie is en hoe je de waarde van ρ kunt interpreteren. Wel is het handig te weten dat in Excel de functie CORREL(celbereik voor X, celbereik voor Y) de correlatiecoëfficiënt voor twee variabelen X en Y berekent.