Een open vraag over…
datasets en databronnen
Een open vraag over…
datasets en databronnen
Bij het Leer- en Expertisepunt Open Overheid komen regelmatig vragen binnen over uiteenlopende onderwerpen die te maken hebben met Open Overheid. We hebben daarbij vaak de rol van kennismakelaar: wij hebben lang niet alle antwoorden, maar betrekken degenen die ze wel hebben. Omdat de vragen en antwoorden ook voor anderen nuttig kunnen zijn, delen we deze in de rubriek ‘Een open vraag over…’.
De vraag
Het is 26 oktober 2016, een snelle blik op data.overheid.nl leert dat we vandaag de dag 8.959 datasets beschikbaar hebben. Een respectabel aantal! En een flinke groei in de afgelopen jaren. Maar wat is dat nou eigenlijk, een dataset?
Het antwoord
Een dataset is een verwijzing in data.overheid.nl naar data van een overheidsorganisatie. Een overheidsorganisatie kan een account aanmaken op data.overheid.nl en via dit account een dataset aanmaken. In deze dataset zit een beschrijving van de data, de metadata. Die metadata is belangrijk om de data goed te kunnen vinden en goed te kunnen gebruiken. Zo wordt in de metadata opgenomen wie de eigenaar is van de data, wat de geldigheidstermijn van de data is en wat de gebruiksvoorwaarden zijn. Welke metadata moet worden verzameld bij het aanmelden van een dataset vind je hier. Een onderdeel van de metadata is een link naar de eigenlijke data, de databron.
Databron
Een mooi voorbeeld van hoe een databron eruit zou kunnen zien is bijgaand overzicht van lantaarnpalen (lichtmasten): een bestand met daarin de gegevens geordend in kolommen en rijen.
(voorbeeld van Openbare straatverlichting via data.overheid.nl, 54.525 lichtmasten in de gemeente Utrecht)
Data ontstaat op allerlei manieren – via metingen, processen en onderzoeken – op allerlei manieren wordt data verzameld en bij elkaar gebracht. Op het moment dat deze data bij elkaar komt en in een verzamelplaats wordt samengebracht, spreken we van een databron. Een databron is dus een samengestelde en gestructureerde verzameling van data.
API’s en webservices
Een databron is een elementaire vorm van open data. Gebruikers kunnen een databron downloaden en daar allerlei toepassingen van maken. Het kan voorkomen dat het beschikbaar stellen als databron ingewikkeld is. Zo kan een heel groot bestand met een hoge update frequentie lastig zijn om als databron beschikbaar te stellen. Het kentekenregister kent bijvoorbeeld ongeveer 50.000 mutaties en is van een grote omvang. Het iedere keer beschikbaar stellen van een nieuwe versie van deze databron wordt dan lastig. Er zijn dan ook andere instrumenten nodig om deze data beschikbaar te stellen, bijvoorbeeld via API’s (Applicatie Programmeer Interface). Met API’s kunnen gebruikers databronnen op een eenvoudige manier bevragen. Het is wel zo dat deze bevraging beperkingen kan opleveren. Zo kan er net een andere subset uit de databron nodig zijn dan de API kan leveren. In die gevallen is het verstandig om open data gebruikers, naast de API, ook een volledige download mogelijkheid aan te bieden.
Metadata
Met alleen de dataset zelf ben je er nog niet. Het is belangrijk om uit te leggen wat er in de kolommen en rijen staat en metadata toe te voegen. Kortom: je beschrijft de dataset. Het beschrijven van een dataset doe je om meerdere redenen. Iemand die de data gaat gebruiken moet weten wat er in de kolommen staat om er een goede toepassing mee te kunnen maken. Maar je kunt in de metadata ook aangeven wat een gebruiker mag verwachten van de data. Bijvoorbeeld, hoe oud is de data of hoe nauwkeurig de data is. Ook hiermee help je de gebruiker van de data om betere toepassingen te maken.
De metadata is ook van belang voor het beperken van je aansprakelijkheid. Het kan zomaar zijn dat iemand iets maakt met de data waar de data helemaal niet voor geschikt is. Dat kun je niet tegenhouden, want de data is vrij beschikbaar. Je kunt wel aangeven dat de data geschikt is voor het doel waarvoor deze is verzameld en dat je zodra je er iets anders mee gaat doen, je niet klakkeloos kan aannemen dat dat dan ook goed is. Dit laatste aspect is onderzocht in het rapport “van Erik Engerd naar J.J. de Bom”. Een onderzoek naar Aansprakelijkheid en Open Data door Marc de Vries in opdracht van het Forum Standaardisatie. Om de data goed van metadata te kunnen voorzien, zijn door data.overheid.nl richtlijnen opgesteld.
Open Standaarden
Databronnen worden beschikbaar gesteld voor de ontwikkeling van andere toepassingen. Het is dan natuurlijk handig voor gebruikers van deze databronnen dat ze de data zo eenvoudig mogelijk in kunnen zetten voor andere toepassingen. Dit wordt zo laagdrempelig mogelijk door het beschikbaar stellen van de data in een open standaard. Open standaarden zijn door het forum standaardisatie vastgelegd in de ‘pas toe of leg uit lijst’.
Vragen of opmerkingen?
Laat het vooral weten! Mail paul@open-overheid.nl
Meer weten over Open Data? Kom dan ook naar het Hoe Open? Festival op 12 december in TivoliVredenburg in Utrecht.
Andere open vragen over…
Agenda
-
Webinars Direct Duidelijk Tour
21 januari - 18 maart -
Gebruiker Centraal winter pubquiz
2 februari | 19:00 - 21:00 -
EU Open Source Policy Summit
5 februari | 14:00 - 18:00 -
Festival van het Bestuur
11 februari -
Lancering Actieplan Open Overheid 2020-2022
16 februari | 10:00 - 11:30
Meld bijeenkomst aan
Ook in onze agenda verschijnen?
Meld dan hier de bijeenkomst aan.