Kansverdeling: verschil tussen versies

Uit Systeemmodellering
Naar navigatie springen Naar zoeken springen
 
(geen verschil)

Huidige versie van 7 dec 2021 om 09:49

De kansverdeling van een stochast X is een functie die voor een gegeven waarde x aangeeft hoe groot de kans is dat X = x.

Een kans wordt uitgedrukt als een reëel getal op het interval [0, 1], waarbij 0 aangeeft dat X nooit waarde x zal hebben, en 1 aangeeft dat X altijd waarde x zal hebben. In dat laatste geval is X uiteraard geen stochastische variabele meer.

Notatie

Een kansverdeling wordt doorgaans aangegeven met de hoofdletter P (de beginletter van het Engelse woord probability).

Voor stochastische variabelen met een discreet waardebereik kun je de kans op elke discrete waarde aangeven, bijvoorbeeld

P(X = x) = ⅙   (x ∈ {1, ..., 6})

als de stochast X een zuivere zeszijdige dobbelsteen representeert. Zie ook deze videoclip op YouTube.

Voor stochasten met een continu waardebereik kun je de kans aangeven dat de waarde van de stochast op een bepaald interval binnen dat waardebereik ligt, bijvoorbeeld

P(X ≤ x) = (x − 1) / 4   (x ∈ [1,5])

om aan te geven dat de stochast X uniform verdeeld is op het interval [1,5].

Kans en kansdichtheid

Voor een stochast X met een continu domein is de kans dat X exact gelijk is aan één specifieke waarde x ∈ ℝ nul. Daarom wordt voor continue kansverdelingen de kansdichtheid p(x) gedefinieerd als een continue functie p(x): ℝ → ℝ. De kans dat de waarde van de stochast X binnen een bepaald interval [a, b] ligt is dan gelijk aan de integraal op dat interval over de dichtheidsfunctie:

KansverdelingAlsIntegraal.png

Dichtheidsfuncties worden altijd zo gedefinieerd dat de integraal over de dichtheid op interval [-∞, ∞] precies gelijk aan 1 is.

Als je de dichtheid in een lijndiagram weergeeft is de kans P(a ≤ X ≤ b) dus gelijk aan het oppervlak onder de lijn tussen a en b:

KansEnDichtheid.png

Bovenstaande figuur illustreert meteen dat P(a ≤ X ≤ b) (het rode oppervlak) gelijk is aan P(X ≤ b) − P(X ≤ a).

Merk op: Je kunt natuurlijk ook voor een stochast X met een discreet domein de kans dat X ∈ [a, b] berekenen. Die kans is dan gelijk aan de som van de kansen P(X = x) over alle x ∈ [a, b]. De binomiale verdeling is hiervan een mooi voorbeeld.

Veelgebruikte kansverdelingen

De probabilistische modellen die we binnen het vak Systeemmodellering behandelen maken gebruik van zeven gangbare kansverdelingen. Van elk van deze verdelingen laten we een grafiek zien van de dichtheidsfunctie p(x) en de kansverdeling P(X ≤ x). Deze grafieken laten telkens mooi zien dat de kansverdeling de integraal (en bij discrete verdelingen de som) over de dichtheid is.

Uniforme verdeling

De uniforme verdeling op een interval [a, b] wordt genoteerd als U(a, b). Zoals de naam al zegt is bij deze verdeling de kans op elke waarde hetzelfde. Om aan te geven dat stochast X uniform verdeeld is op het interval [0,1], schrijf je X ~ U(0, 1).

Kansdichtheid   Cumulatieve verdeling
UniformeVerdelingDichtheid.png   UniformeVerdeling.png

Driehoeksverdeling

De driehoeksverdeling gebruik je wanneer je te weinig empirische gegevens hebt om de kansverdeling van een stochast X te bepalen, maar toch een idee hebt van de onder- en bovengrens, en je bovendien een educated guess durft te doen wat betreft de meest waarschijnlijke (dus meest voorkomende) waarde van X. Deze drie waarden zijn dan de parameters a, b en c van de verdeling.

Er bestaat geen officiële standaardnotatie voor de driehoeksverdeling, maar vaak wordt de hoofdletter T (van triangular) gebruikt. Om aan te geven dat stochast X een driehoeksverdeling heeft schrijf je X ~ T(a, b, c). In plaats van alleen de letter T wordt ook wel Tri of voluit Triangular geschreven.

De driehoeksverdeling wordt vaak gebruikt om de duur van een handeling te modelleren, bijvoorbeeld de behandeltijd in een wachtrijmodel. Als parameters a, b en c neem je dan respectievelijk de kortst denkbare duur, de langst denkbare duur, en de meest waarschijnlijke duur van een handeling.

Een eenvoudige variant is de symmetrische driehoeksverdeling, waar c midden tussen a en b in ligt. Deze verdeling is vaak bruikbaar als redelijke benadering van de normale verdeling (zie hierna).

Kansdichtheid   Cumulatieve verdeling
DriehoeksverdelingDichtheid.png   Driehoeksverdeling.png

Normale (of standaard-normale) verdeling

Om aan te geven dat stochast X normaal verdeeld is schrijf je X ~ N(μ, σ2). Dit wil zeggen dat bij oneindig veel waarden van X het gemiddelde van die waarden van X gelijk zal zijn aan μ, en de standaarddeviatie van die waarden gelijk zal zijn aan σ (zie Beschrijvende statistiek).

Kansdichtheid   Cumulatieve verdeling
NormaleVerdelingDichtheid.png   NormaleVerdeling.png

Voor modelleerdoeleinden is de normale verdeling vaak minder geschikt, doordat de kans bestaat dat extreme waarden worden gegenereerd, zoals mensen met een lengte van 2,8 m of zelfs -15 cm. Een driehoeksverdeling is in de meeste gevallen een goede benadering.

Negatief-exponentiële verdeling

De negatief-exponentiële verdeling (ook wel exponentiële verdeling genoemd; notatie Exp(λ)) gebruik je typisch bij het modelleren van een aankomstproces in een continuetijdmodel. Bij een aankomstproces wordt de tijd tussen twee opeenvolgende aankomsten (tussenaankomsttijd; Engels: inter-arrival time) door een stochastische variabele weergegeven. Die stochast kan elke continue kansverdeling op het interval [0, ∞) hebben, maar de negatief-exponentiële kansverdeling is het meest gebruikelijk. Met de parameter λ kun je de gemiddelde aankomstfrequentie instellen. De verdeling heeft een lange "staart", wat er voor zorgt dat de volgende aankomst soms ook heel lang op zich laat wachten.

(Verwar Exp(λ) niet met exp(λ), de alternatieve notatie voor eλ; dit is een voorbeeld van een onderscheidend verschil tussen kapitalen en onderkastletters.)

Kansdichtheid   Cumulatieve verdeling
NegExpVerdelingDichtheid.png   NegExpVerdeling.png

Poissonverdeling

De Poissonverdeling gebruik je om discrete fenomenen te modelleren (gebeurtenissen die een heeltallig aantal keer optreden gedurende een gegeven tijdsinterval of in een bepaald gebied), waarbij de kans op zo'n fenomeen constant is. Notatie: Poisson(λ) of Pois(λ). Voorbeelden:

  • het aantal voertuigen op een weg dat in een uur een referentiepunt passeert (zie Verkeersstroommodel)
  • het aantal keren op een dag dat je telefoon gaat
  • het aantal spelfouten dat je op één pagina maakt
  • het aantal lege koffiebekertjes dat je na een pauze in de kantine aantreft
  • het aantal atoomkernen van een radioactieve stof dat in een bepaalde tijd vervalt

Het gemiddelde aantal is dan de enige parameter λ van de Poissonverdeling.

Kansfunctie   Cumulatieve verdeling
PoissonverdelingDichtheid.png   Poissonverdeling.png

Bij een willekeurig aankomstproces is de tussentijd tussen gebeurtenissen (aankomsten) negatief exponentieel verdeeld en beschrijft de Poissonverdeling de kans op een bepaald aantal gebeurtenissen in een tijdsinterval. Ook bij een binomiale verdeling Bin(1, p) met kleine p is de tussentijd tussen de gebeurtenissen negatief exponentieel verdeeld. Deze verdeling kan dus ook gebruikt worden bij een willekeurig aankomstproces. De voorwaarde is dat p klein genoeg is, zodat de kans op meer dan één gebeurtenis per tijdstap verwaarloosbaar is.

Binomiale verdeling

De Binomiale verdeling de geeft de kansverdeling weer van het aantal "successen" X in een reeks van n onafhankelijke experimenten waarbij elk experiment precies twee mogelijke uitkomsten heeft (1 = succes, 0 = mislukking) en de kans op succes voor elk experiment gelijk is aan p. Omdat het domein van de stochast X gelijk is aan {0, 1, ..., n} is de binomiale verdeling een discrete kansverdeling. Om aan te geven dat een stochast X binomiaal verdeeld is schrijf je X ~ B(np) of X ~ Bin(np). De onderstaande reeks grafieken, voor p = ½, laat zien hoe als n toeneemt de vorm van de binominale verdeling steeds meer op die van de normale verdeling gaat lijken.

Binominaleverdelingen.png

Empirische verdeling

Een empirische verdeling gebruik je wanneer je veel empirische gegevens hebt over een stochast, maar deze gegevens niet goed passen bij een theoretische kansverdeling (zoals de hiervóór beschreven kansverdelingen). In plaats van zo'n theoretische kansverdeling gebruik je dan een "trapfunctie" die je bepaalt op basis van je gegevensverzameling met waarden {w1, ..., wN} volgens deze formule:

EmpirischeVerdeling.png

N.B. Hierin betekent #{ i | wix} het aantal waarden in de gegevensverzameling dat kleiner of gelijk is aan x.

Voorbeeld

Stel dat je gedurende vier weken het aantal mails dat je per dag ontvangt hebt geteld en dat je gegevensverzameling er zo uit ziet:

{3, 0, 7, 13, 8, 5, 11, 5, 15, 14, 2, 0, 19, 6, 6, 14, 13, 5, 11, 1, 4, 1, 19, 16, 3, 12, 13, 5}

Het histogram van deze gegevensverzameling laat geen patroon zien dat duidelijk overeenkomt met een bekende verdeling:

HistogramAantalMails.png

Als je het aantal mails per dag toch als een stochast M wilt modelleren, dan zou je deze empirische verdeling kunnen gebruiken:

EmpirischeVerdeling.png   EmpirischeVerdelingAantalMails.png

Onderstaande tabellen plus histogram beschrijven een verzameling van 1000 toevalsgetallen die uit deze empirische verdeling zijn getrokken:

TabelAantalMailsSimulatie.png HistogramAantalMailsSimulatie.png

Merk op:

  1. De waarden 9, 10, 17, 18, 20 en 21 komen niet voor in de empirische gegevensverzameling, en daarom ook niet in de verzameling toevalsgetallen.
  2. De vorm van de verdeling in het tweede histogram komt redelijk overeen met die in het eerste.
  3. Niettemin is het mogelijk dat het model waarin je deze empirische verdeling gebruikt niet valide is omdat de gegevensverzameling waar deze verdeling op is gebaseerd erg klein is (N = 28). Als je nog een paar weken langer het aantal mails per dag zou tellen zouden de "gaten" tussen 8 en 11 en tussen 16 en 19 waarschijnlijk ook gevuld worden. Je zou dan misschien ook een betere "fit" vinden met bijvoorbeeld een Poissonverdeling.

Toevalsgetallen genereren in Excel

Wanneer je in een operationeel model een of meer stochastische variabelen gebruikt moet je voor die variabelen aangeven welke kansverdeling er bij hoort. Wanneer je dat model vervolgens wilt omzetten in een computationeel model zul je moeten aangeven hoe de waarden van de stochasten als toevalsgetallen uit hun verdelingen getrokken moeten worden. Hieronder leggen we uit hoe je dat in Excel kunt doen.

 De bijbehorende Excel-functies zijn de vinden op Excel:Kansverdelingen.

De enige verdeling waaruit je in Excel met één functie een toevalsgetal kunt trekken is de standaard uniforme verdeling U(0, 1). Die functie is RAND(). Telkens wanneer je de functie RAND() aanroept krijg je dus een toevalsgetal tussen 0 en 1.

Voor alle andere kansverdelingen heb je de inverse functie van de kansverdeling P nodig. Zoals hiervóór is uitgelegd geeft de kansverdeling P(X = x) voor ieder getal x de kans dat stochast X de waarde x heeft als een getal tussen 0 en 1. Nu gaan we dit omdraaien: stel dat je een toevalsgetal y tussen 0 en 1 hebt getrokken, welk getal x hoort daarbij zodanig dat P(X = x) = y? Die waarde wordt berekend door de inverse van P (notatie: P-1).

De inverse functie van de negatief exponentiële verdeling is eenvoudig, waardoor je een stochast met deze verdeling in Excel kunt genereren met de LN-functie.

Voor de binomiale verdeling gebruik je de ingebouwde inverse verdeling van Excel.

Voor een Poisson-verdeling kun je een wiskundige truc toepassen. Bij grote aantallen trekkingen en kleine kansen (n → ∞ en p → 0) lijkt de binomiale verdeling namelijk heel sterk op de Poisson-verdeling. Dit kun je gebruiken om een Poisson-verdeling na te bootsen.

De symmetrische driehoeksverdeling kan worden gegenereerd met twee uniform verdeelde getallen. Je begint bij het midden van het interval, telt daar een uniform verdeeld toevalsgetal tussen 0 en de halve breedte van de verdeling bij op, en trekt er een uniform verdeeld toevalsgetal tussen 0 en de halve breedte van de verdeling van af.

Hoe je een stochast met een empirische kansverdeling in Excel implementeert wordt uitgelegd in deze uitwerking van de empirische verdeling.

Als je model stochasten bevat, zul je ook je experimenteel ontwerp hierop moeten afstemmen.


Zie ook