Gegevensverzameling
Versie door PieterBots (overleg | bijdragen) op 4 nov 2020 om 17:46 (Nieuwe pagina aangemaakt met 'Een '''gegevensverzameling''' (Engels: ''data set'') is een verzameling waarvan de elementen waarden zijn van een variabele. Deze waarden kunnen Empirisc...')
Een gegevensverzameling (Engels: data set) is een verzameling waarvan de elementen waarden zijn van een variabele.
Deze waarden kunnen empirische waarnemingen zijn (dus gemeten in de werkelijkheid), maar ook het resultaat van modelberekeningen.
Gegevensverzamelingen kunnen de waarden bevatten van één of meer variabelen, en die variabelen kunnen verschillende eenheden hebben, en zelfs een niet-numeriek waardebereik hebben. De gegevensverzameling in onderstaande tabel (een hele kleine deelverzameling van de vluchtgegevens die dagelijks door de luchthaven Schiphol worden verzameld) laat dit zien.
Schema | Herkomst | Vluchtnr | Maatschappij | Aankomst | Toesteltype | Terminal | Bagageband |
---|---|---|---|---|---|---|---|
09:00 | London Heathrow | GA 9080 | Garuda Indonesia | 08:42 | Boeing 737-900 | 2 | 11 |
09:00 | London Heathrow | KQ 1000 | Kenya Airways | 08:42 | Boeing 737-900 | 2 | 11 |
09:00 | London Heathrow | KL 1000 | KLM Royal Dutch Airlines | 08:42 | Boeing 737-900 | 2 | 11 |
09:00 | Bucharest | DL 9598 | Delta Air Lines | 08:51 | Boeing 737-800 | 2 | 9 |
09:05 | London Stansted | EZY 3001 | easyJet | 08:56 | Airbus A320-200 | 4 | 20 |
09:05 | Milan Malpensa | EZY 2723 | easyJet | 08:56 | Airbus A320-200 | 4 | 21 |
09:05 | Los Angeles | DL 9379 | Delta Air Lines | 09:18 | Boeing 747-400 | 3 | 16 |
09:05 | Los Angeles | KL 0602 | KLM Royal Dutch Airlines | 09:18 | Boeing 747-400 | 3 | 16 |
09:10 | Brussels | JU 8265 | JAT Airways | 08:50 | Fokker F70 | 2 | 8 |
09:10 | Brussels | MH 9300 | Malaysia Airlines | 08:50 | Fokker F70 | 2 | 8 |
09:10 | Brussels | DL 9425 | Delta Air Lines | 08:50 | Fokker F70 | 2 | 8 |
Merk op:
- Je kunt deze gegevensverzameling zien als een deelverzameling van het Cartesisch product T×L×V×M×T×TT×ℕ×ℕ waarin T de verzameling tijdstipppen, L de verzameling luchthavens, V de verzameling vluchtnummers, M de verzameling luchtvaartmaatschappijen, en TT de verzameling vliegtuigtypen. De elementen van deze gegevensverzameling zijn dan 7-tupels (tS, l, v, m, tA, tt, n, b).
- Deze verzameling geeft administratieve vluchtgegevens weer. Daarin kan dezelfde fysieke vlucht meer dan eens voorkomen omdat verschillende maatschapijen dezelfde vlucht onder een ander vluchtnummer administreren. Je zou deze dataset dus moeten "opschonen" door al dit soort dubbelingen te verwijderen voordat je de gegevens zou kunnen gebruiken om de vraag "Hoe druk is het op schiphol?" of "Wat is de tussenaankomsttijd van vliegtuiglandingen op Schiphol?" te beantwoorden.