Oefeningen:Beschrijvende statistiek: verschil tussen versies

Uit Systeemmodellering
Naar navigatie springen Naar zoeken springen
(Nieuwe pagina aangemaakt met 'Met de '''beschrijvende statistieken''' worden getallen bedoeld die een (grote) gegevensverzameling karakteriseren. Deze getallen vormen een maat voor de ''groo...')
 
 
(Een tussenliggende versie door dezelfde gebruiker niet weergegeven)
Regel 1: Regel 1:
Met de '''beschrijvende statistieken''' worden getallen bedoeld die een (grote) [[gegevensverzameling]] karakteriseren. Deze getallen vormen een maat voor de ''grootte'', het ''centrum'', en de ''spreiding'' van de verzameling. Door alleen naar deze getallen te kijken kun je snel zien of gegevens die je hebt verzameld over twee variabelen op elkaar lijken of juist verschillen.
+
[[Special:AllPages/Oefeningen:|Oefeningen]] bij het artikel [[Beschrijvende statistiek]]
  
=== Grootte ===
+
==Herhalingsvragen==
De '''grootte''' van een gegevensverzameling wordt gemeten als het aantal elementen in die verzameling. Vaak spreekt men van "het aantal waarnemingen". Dit aantal wordt aangegeven met de letter N (van het Engelse ''number'').
+
# Welke vier statistieken zeggen iets over de spreiding van een gegevensverzameling?
 +
# Wat is het verschil tussen de mediaan en de modus?
 +
# Welke statistiek is per definitie gelijk aan het 50<sup>e</sup> percentiel van een gegevensverzameling?
  
=== Centrum ===
+
==Meerkeuzevragen==
Om het '''centrum''' van een gegevensverzameling te bepalen worden drie verschillende indicatoren gebruikt:  
+
<ol>
* Voor numerieke waarden kan het '''gemiddelde''' &mu; worden berekend als de som van alle waarden gedeeld door hun aantal N. Als formule geschreven:
+
<onlyinclude>
:[[Bestand:gemiddelde.png]]
+
<includeonly>
* De '''mediaan''' is de waarde van het middelste element in de gegevensverzameling wanneer deze in oplopende waarde is geordend. Als de gegevensverzameling een even aantal elementen heeft, en er dus geen middelste element is, wordt voor de mediaan het gemiddelde van de elementen ''N/2'' en ''N/2 + 1'' genomen.
+
===[[Beschrijvende statistiek]]===
* De '''modus''' is de waarde die het vaakst voorkomt in de gegevensverzameling.
+
</includeonly>
 +
<li>Welke van de volgende twee uitspraken zijn waar?
 +
:{|
 +
| (i)  || Van de waarnemingenreeks ( 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9 ) is 4 de modus.
 +
|-
 +
| (ii) || Hoe groter de variantie, des te groter de standaardafwijking.
 +
|}
 +
:{|
 +
| class="mcAw" | Alleen (i) is waar.
 +
|-
 +
| class="mcBc" | Alleen (ii) is waar.
 +
|-
 +
| class="mcCw" | Zowel (i) als (ii) is waar.
 +
|-
 +
| class="mcDw" | Noch (i) noch (ii) is waar.
 +
|}
 +
</li>
 +
<li>Wat is de mediaan van de waarnemingsreeks ( 1, 4, 1, 5, 7, 2, 9, 2, 1, 3 )?
 +
:{|
 +
| class="mcAw" | 1
 +
|-
 +
| class="mcBw" | 2
 +
|-
 +
| class="mcCc" | 2,5
 +
|-
 +
| class="mcDw" | 3,5
 +
|}
 +
</li>
 +
<li>Als V<sub>1</sub> en V<sub>2</sub> gegevensverzamelingen zijn met exact hetzelfde gemiddelde &mu;, maar verschillende varianties &sigma;<sub>1</sub> en &sigma;<sub>2</sub>, waarbij &sigma;<sub>1</sub> < &sigma;<sub>2</sub>.<br/>Welke van de volgende twee uitspraken zijn dan zeker waar?
 +
:{|
 +
| (i)  || Het maximum van V<sub>1</sub> is kleiner dan het maximum van V<sub>2</sub> .
 +
|-
 +
| (ii) || V<sub>1</sub> bevat meer elementen dan V<sub>2</sub>.
 +
|}
 +
:{|
 +
| class="mcAw" | Alleen (i) is waar.
 +
|-
 +
| class="mcBw" | Alleen (ii) is waar.
 +
|-
 +
| class="mcCw" | Zowel (i) als (ii) is waar.
 +
|-
 +
| class="mcDc" | Noch (i) noch (ii) is waar.
 +
|}
 +
</li>
 +
</onlyinclude>
 +
</ol>
  
=== Spreiding ===
+
==Oefenopgaven==
De '''spreiding''' van een gegevensverzameling wordt beschreven door vier getallen:
 
* Het '''minimum''' en het '''maximum''', d.w.z. de laagste en de hoogste waarde in de verzameling.
 
* De '''variantie''' &sigma;<sup>2</sup>, berekend als de som (over alle waarden x in de verzameling) van het kwadraat van de afwijking van x t.o.v. het gemiddelde &mu;. Als formule geschreven:
 
:[[Bestand:variantie.png]]
 
* De '''standaarddeviatie''' (of ''standaardafwijking'') &sigma;, gedefinieerd als de vierkantswortel uit de variantie &sigma;<sup>2</sup>. Daarmee heeft &sigma; dezelfde dimensie als de grootheid waarvan de spreiding bepaald wordt, en kan deze bijvoorbeeld in een diagram langs dezelfde as gebruikt worden. Zie hiervoor bijvoorbeeld [https://upload.wikimedia.org/wikipedia/commons/3/32/Normal_Distribution_Sigma.svg deze figuur], waarin de [[Kansverdeling#normale_verdeling|normale verdeling]] gegeven is met gemiddelde &mu; en standaardafwijking &sigma;.
 
 
 
=== Kwartielen en Percentielen ===
 
Om een gegevensverzameling te karakteriseren worden soms ook '''kwartielen''' of '''percentielen''' als indicatoren gebruikt. Als je een gegevensverzameling hebt gesorteerd in oplopende volgorde van waarden is het eerste kwartiel de waarde van het ((N+1)/4)<sup>e</sup> element, het tweede kwartiel de waarde van het ((N+1)/2)<sup>e</sup> element, en het derde kwartiel de waarde van het (3&middot;(N+1)/4)<sup>e</sup> element. Evenzo is het p<sup>e</sup> percentiel de waarde van het (p&middot;N/100)<sup>e</sup> element.
 
 
 
Dus:
 
 
 
* 25<sup>e</sup> percentiel = eerste kwartiel
 
* 50<sup>e</sup> percentiel = tweede kwartiel = mediaan
 
* 75<sup>e</sup> percentiel = derde kwartiel
 
<noinclude>
 
== Zie ook ==
 
* [[Aggregatie]]
 
* [[Oefeningen:Beschrijvende statistiek]]
 
* De kennisclip over het maken van een [[Staafdiagram#Histogram|histogram]] op [http://youtu.be/clu949vwVjU YouTube] en het bijbehorende [[Excel:Histogram|model in Excel]].
 
* De Wikipedia-artikelen over [http://nl.wikipedia.org/wiki/Scheefheid scheefheid] en [http://nl.wikipedia.org/wiki/kurtosis kurtosis]
 
 
 
[[Categorie:Definities]]
 
</noinclude>
 

Huidige versie van 6 nov 2020 om 12:47

Oefeningen bij het artikel Beschrijvende statistiek

Herhalingsvragen

  1. Welke vier statistieken zeggen iets over de spreiding van een gegevensverzameling?
  2. Wat is het verschil tussen de mediaan en de modus?
  3. Welke statistiek is per definitie gelijk aan het 50e percentiel van een gegevensverzameling?

Meerkeuzevragen

  1. Welke van de volgende twee uitspraken zijn waar?
    (i) Van de waarnemingenreeks ( 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9 ) is 4 de modus.
    (ii) Hoe groter de variantie, des te groter de standaardafwijking.
    Alleen (i) is waar.
    Alleen (ii) is waar.
    Zowel (i) als (ii) is waar.
    Noch (i) noch (ii) is waar.
  2. Wat is de mediaan van de waarnemingsreeks ( 1, 4, 1, 5, 7, 2, 9, 2, 1, 3 )?
    1
    2
    2,5
    3,5
  3. Als V1 en V2 gegevensverzamelingen zijn met exact hetzelfde gemiddelde μ, maar verschillende varianties σ1 en σ2, waarbij σ1 < σ2.
    Welke van de volgende twee uitspraken zijn dan zeker waar?
    (i) Het maximum van V1 is kleiner dan het maximum van V2 .
    (ii) V1 bevat meer elementen dan V2.
    Alleen (i) is waar.
    Alleen (ii) is waar.
    Zowel (i) als (ii) is waar.
    Noch (i) noch (ii) is waar.

Oefenopgaven