Gegevensverzameling

Uit Systeemmodellering
Naar navigatie springen Naar zoeken springen

Een gegevensverzameling (Engels: data set) is een verzameling waarvan de elementen waarden zijn van een variabele.

Deze waarden kunnen empirische waarnemingen zijn (dus gemeten in de werkelijkheid), maar ook het resultaat van modelberekeningen.

Gegevensverzamelingen kunnen de waarden bevatten van één of meer variabelen, en die variabelen kunnen verschillende eenheden hebben, en zelfs een niet-numeriek waardebereik hebben. De gegevensverzameling in onderstaande tabel (een hele kleine deelverzameling van de vluchtgegevens die dagelijks door de luchthaven Schiphol worden verzameld) laat dit zien.

Schema Herkomst Vluchtnr Maatschappij Aankomst Toesteltype Terminal Bagageband
09:00 London Heathrow GA 9080 Garuda Indonesia 08:42 Boeing 737-900 2 11
09:00 London Heathrow KQ 1000 Kenya Airways 08:42 Boeing 737-900 2 11
09:00 London Heathrow KL 1000 KLM Royal Dutch Airlines 08:42 Boeing 737-900 2 11
09:00 Bucharest DL 9598 Delta Air Lines 08:51 Boeing 737-800 2 9
09:05 London Stansted EZY 3001 easyJet 08:56 Airbus A320-200 4 20
09:05 Milan Malpensa EZY 2723 easyJet 08:56 Airbus A320-200 4 21
09:05 Los Angeles DL 9379 Delta Air Lines 09:18 Boeing 747-400 3 16
09:05 Los Angeles KL 0602 KLM Royal Dutch Airlines 09:18 Boeing 747-400 3 16
09:10 Brussels JU 8265 JAT Airways 08:50 Fokker F70 2 8
09:10 Brussels MH 9300 Malaysia Airlines 08:50 Fokker F70 2 8
09:10 Brussels DL 9425 Delta Air Lines 08:50 Fokker F70 2 8

Merk op:

  • Je kunt deze gegevensverzameling zien als een deelverzameling van het Cartesisch product T×L×V×M×T×TT×ℕ×ℕ waarin T de verzameling tijdstipppen, L de verzameling luchthavens, V de verzameling vluchtnummers, M de verzameling luchtvaartmaatschappijen, en TT de verzameling vliegtuigtypen. De elementen van deze gegevensverzameling zijn dan 7-tupels (tS, l, v, m, tA, tt, n, b).
  • Deze verzameling geeft administratieve vluchtgegevens weer. Daarin kan dezelfde fysieke vlucht meer dan eens voorkomen omdat verschillende maatschapijen dezelfde vlucht onder een ander vluchtnummer administreren. Je zou deze dataset dus moeten "opschonen" door al dit soort dubbelingen te verwijderen voordat je de gegevens zou kunnen gebruiken om de vraag "Hoe druk is het op schiphol?" of "Wat is de tussenaankomsttijd van vliegtuiglandingen op Schiphol?" te beantwoorden.

Zie ook