Data

Het data onderzoek werd getrokken door de Dienst Data & Informatie van Stad Gent, met als doel in kaart te brengen hoe we objectdata aan open stadsdata kunnen linken om toeleidingen mogelijk te maken.

Doel

Waar in technologie vooral de focus ligt op het de hardware en interfaces van dit project, gaan we in werkpakket 4 verder in op het data-gegeven binnen dit project. De zogenaamde recommendation engine vormt een niet te onderschatten belang binnen Museum of Things for People. Wanneer we de bewegingspatronen van museumbezoekers zouden tracken zonder een duidelijke doel, bestaat de kans dat de bezoekers geen meerwaarde zouden zien in het dragen van de tracker. Door het aanmaken van een recommendation engine wordt er een duidelijke incentive gegeven aan de deelnemende bezoekers.

Deze recommendation engine moet natuurlijk ‘gevoed’ worden door interne en externe databronnen. Daar de stad Gent een actief open data beleid hanteert, zowel intern als extern, heeft de dienst Data & Informatie de taak op zich genomen om te waken over het gebruik van de juiste gegevensformaten, syntaxen en semantieken om zo een grotere schaalbaarheid van dit project te garanderen.

Dit data-onderdeel is tweeledig opgesteld. In het eerste deel gaan we dieper in op de datasets die gebruikt zijn in de testopstelling in het Design Museum. Dit zijn dus de datasets die effectief werden gebruikt door de recommendation engine van Crunch Analytics in de testopstelling in het Design Museum Gent. Zie het data analyse rapport voor meer detail.

Het tweede deel gaat over mogelijke (nieuwe) databronnen die mogelijks ook kunnen gebruikt worden in een dergelijke recommendation engine. Aan de hand van een ‘data-finding workshop’, georganiseerd binnen het kader van het data onderzoek, kwamen we tot een duidelijk beeld van (nieuwe) potentiële databronnen en hun mogelijkheden. Niet onbelangrijk hierbij was dat we eveneens keken naar de haalbaarheid, beschikbaarheid en eigenaarschap van deze nieuwe databronnen.

Resultaten

Analyse en gebruikte data voor de recommendation engine

Overzicht gebruikte datasets

In eerste instantie hebben we geprobeerd om een oplijsting te maken bij elke partner individueel van welke datasets er in aanmerking komen voor gebruik in de recommendation engine. Om dit te verzamelen werd er gebruik gemaakt van een excel bestand (zie screenshot) waarin de partners zélf de datasets en hun metadata konden invoeren.

Al snel werd duidelijk dat het voor de betrokken partijen allesbehalve een evidentie was om deze tabel in te vullen. In de meeste gevallen waren de mensen die betrokken waren in dit project zelf geen eigenaar van de data (en moesten ze op zoek naar de bevoegde mensen/dienst). Over andere datasets heerste er dan op zijn beurt onduidelijkheid over de licentie, metadatering enzovoort.

Uiteindelijk werd er gekozen om te focussen op een selectie van bestaande en ontsloten datasets, namelijk:

  • Uit In Vlaanderen Databank

  • Onroerend Erfgoed Databank Vlaanderen

  • Collectiestukken van de andere musea

  • De bib databank van Cultuurconnect

Tekortkomingen met de beoogde datasets

Door Crunch Analytics zijn uiteindelijk enkele datasets gekozen waarnaar kon worden toegeleid op basis van haalbaarheid op vlak van integratie. In het rapport van Crunch staat dit uitvoerig beschreven, maar we geven graag een korte samenvatting mee van de gekozen datasets en de tekortkomingen of uitdagingen die ermee verbonden waren.

  • Uit In Vlaanderen databank: deze dataset leek een beloftevolle databron te zijn voor het project. Echter waren er te weinig details (in de metadata) om deze data te kunnen koppelen aan de bezoekersprofielen. Zo was ‘tentoonstelling’ een vaak gebruikt label binnen de Uit In Vlaanderen databank, een label dat te vaag was om gericht en op een persoonlijk niveau toe te leiden.

  • De Onroerend Erfgoed databank zou eveneens een zeer mooie toeleiding bron kunnen geweest zijn. Het werd echter al snel duidelijk dat er een mismatch was tussen de begrippen/labels die het Designmuseum hanteerde en de labels in de databank. (Bv. ‘postmodernisme’)

Mede hierdoor werd gekozen om te focussen op de dataset van de bibliotheek (De Krook) & om werk te maken van zélf gecureerde aanbevelingen.

Potentiële (nieuwe) databronnen

Naast de analyse van de gebruikte datasets is het uiteraard zeer interessant om verder te durven kijken. Sommige databronnen hebben we links moeten laten liggen (wegens gebrek aan kwaliteit, problemen met eigenaarschap, …), wat niet wil zeggen dat deze niet relevant kunnen zijn in de toekomst voor gelijkaardige projecten.

Hiernaast moeten we soms ook durven dromen. Wat met nog-niet-bestaande datasets? Of wat met datasets die bestaan, maar waarbij het eigenaarschap niet bij een overheidsinstelling ligt? Een overzicht van mogelijks interessante nieuwe databronnen vormt niet alleen een interessante bevinding voor dit project, maar ook voor de datawerking van de Stad Gent.

Data-Finding workshop

De ideale manier om tot nieuwe ideeën en inzichten te komen rond datasets, is door het organiseren van een workshop. We verzamelden 13 ‘data-minded’ mensen in een zaaltje om samen na te denken over het (potentiële) data verhaal van dit project. Deze profielen kwamen van volgende organisaties en diensten:

Doel workshop

De centrale vraag die we ons stelden tijdens deze workshop was: ‘over welke data beschikken we en welke hebben we nodig om aan culturele toeleiding te doen in Gent?’. De vraag bestaat dus uit twee delen. We willen dus te weten komen welke data er vandaag voor handen is (en nog niet gebruikt wordt binnen dit project) én welke potentiële databronnen een verrijking zouden kunnen betekenen voor dit project.

Verloop en resultaten van de workshop

De workshop startte met een simpele opwarmer. Stel dat we iemand naar De Krook willen leiden om zijn/haar culturele ervaring te versterken, waarom zouden we deze persoon naar De Krook leiden?

Om de discussie op gang te trekken hadden we op voorhand zelf al 20 redenen bedacht waarom we dit zouden willen doen. Om een boek te lezen, om een studiedag/conferentie te volgen, om een boekvoorstelling bij te wonen, … Door deze oefening werd het al snel duidelijk dat er héél veel redenen zijn om ervoor te zorgen dat we museumbezoekers kunnen toeleiden naar extra culturele belevingen.

Vervolgens lieten we alle deelnemers individueel toeleidingspunten bedenken. Naar wat willen de deelnemers toegeleid worden en waarom? En naar wat zouden andere mensen willen toegeleid worden? Eenmaal iedereen er ongeveer 5 voorstellen had, werden deze in 4 categorieën verdeeld, namelijk plek, object, ervaring/activiteit en gebeurtenis.

Toeleidingen zijn echter niet gelijk aan datasets. Aan de deelnemers (die verdeeld waren in verschillende tafels) werd gevraagd om een bepaalde bovenstaande categorie te kiezen en de gevonden toeleidingsplekken mee te pakken naar hun tafel. Vervolgens moesten ze datasets koppelen aan deze toeleidingsplekken.

Dit leidde tot 36 potentiële datasets. Belangrijk hierbij is dat het (nog) niet van belang was of de dataset al bestaande is of dat de dataset open/gesloten is.

Vervolgens was het de bedoeling om deze datasets verder in detail te beschrijven, aan de hand van datafiches. Wegens praktische redenen zijn we er niet toe gekomen om alle datasets te behandelen. De niet behandelde datasets zijn doorstreept in bovenstaande tabel. Deze zullen hierna niet meer vermeld worden.

Per dataset werden de volgende vragen gesteld:

  • Bestaat de dataset al?

  • Wie is de eigenaar van de data?

  • Is de dataset open? Indien niet, zou ze open moeten zijn?

  • Is de data statisch of real-time.

  • Is er een complexiteit verbonden aan deze data die ontsluiting lastiger maakt?

  • Huidig dataformaat / gewenst formaat.

  • Bron van de data?

  • Welke labels moeten er zeker in de dataset staan? (Metadatering)

  • Welke licentie is nodig?

  • Welke output verwachten we van deze dataset?

  • Hoe moet de data worden ontsloten? Kan dit automatisch?

  • Wie zijn potentiële hergebruikers?

Voor 29 datasets werden zo veel mogelijk van deze vragen beantwoord. Vervolgens werd gevraagd aan de deelnemers om aan te duiden welke datasets volgens hun prioriteit moeten krijgen om verder te onderzoeken en/of te ontsluiten. Deze datasets staan aangeduid in onderstaande tabel in het geel.

Inventaris Onroerend Erfgoed

Deze dataset, beheerd door agentschap Erfgoed Vlaanderen, staat op dit moment open beschikbaar als linked open data. Zoals eerder al aan bod kwam in dit eindverslag is deze dataset ook grondig onderzocht door Crunch Analytics en het Design Museum met als conclusie dat de labeling die het Design museum hanteert niet altijd even goed overeenkwam met de labeling gebruikt in deze data. Dit wordt ook meer in detail omschreven in het rapport van Crunch Analytics. Desalniettemin is deze dataset zeker relevant te noemen en kan dit in de toekomst zeker verder nog bekeken worden.

Beeldbank Gent

De beeldbank van de Stad Gent is momenteel publiekelijk toegankelijk voor iedereen. Echter is het niet evident om deze data te gebruiken, daar de beelden zelf zeer zwaar zijn, de zoekfunctie niet altijd even goed werkt en de metadatering van foto’s vaak onvolledig of foutief is. Een van de conclusies rond deze dataset is dan ook dat de stad intern moet kijken of een verbetering van de beeldbank mogelijk is, met oog op eenvoudigere ontsluiting.

Gratis in… (Vlaanderen/Gent)

Deze, voorheen open gestelde, dataset bleek eveneens een interessante databron te kunnen zijn volgens de deelnemers. Echter wordt al direct de complexiteit van deze data aangehaald en blijft de hoeveelheid van aanbieders (organisatoren) een uitdaging voor deze data te kunnen onderhouden. Hiernaast is het ook niet duidelijk wie er eigenaar van deze data moet zijn.

Local Secrets

De inspiratie voor deze dataset werd gehaald van het Instagram account ‘local guides’. Interessant hierbij is dat het zou kunnen gaan (want de dataset bestaat nog niet) over een gecrowdsourcete dataset, waarbij het beheer bij Visit Gent/Stad Gent zou kunnen liggen. In deze data zou men dan de locatie, een beschrijving, de toegankelijkheid en eventueel een foto moeten kunnen vinden.

Street Art Belgium

Net zoals de vorige dataset zou het hier gaan over een gecrowdsourcete dataset die idealiter door de dienst cultuur van de Stad Gent zou worden bijgehouden. Op dit moment is er voor Gent een Street Art website en kaart beschikbaar als open data, echter blijft het ook bij Gent op dit moment. Een mogelijke problematiek bij deze data is dat het gaat over een dynamisch gegeven, daar streetart soms een tijdelijk karakter heeft (bv. Graffiti die verdwijnt of wordt overschilderd).

Na het beschrijven van de verschillende datasets werd de haalbaarheid van de verschillende datasets ingeschat. We vroegen de deelnemers om de datasets op een tijdslijn te zetten, startende van 2019 tot 2040. Binnen deze tijdlijn maakte we ook nog een onderscheid in:

  • Data die al wordt bijgehouden en open is.

  • Data die al wordt bijgehouden maar nog niet open is.

  • Data die nog niet bestaat, maar wél haalbaar is

  • Data die nog niet bestaat en zeer complex is om open te zetten.

Een opvallend resultaat van deze oefening was dat veel datasets op korte termijn haalbaar zouden moeten zijn om te ontsluiten of om te gebruiken, mits de nodige stappen worden genomen (zijnde de metadatering in orde stellen, ontsluiten, aanpassen formaat, …), . De datasets die meer naar rechts geplaatst werden zijn vooral datasets waarbij lokale handelaars en externe partijen bij betrokken zijn, zoals de giftshop databases, de retail API en de menukaarten API.

4.2. Gedeelde semantiek (adhv een voorbeeld)

Zoals hierboven al kort werd aangehaald vormt de gedeelde semantiek, of een gebrek aan, een uitdaging om gebruik te kunnen maken van de verschillende externe databronnen.

Om het belang van de gedeelde semantiek aan te tonen, nemen we een concreet voorbeeld uit het Design Museum. In bijlage 15 van dit eindrapport staat voor de Object Stories collectie de labeling voor elk collectiestuk uitgeschreven. Als voorbeeld nemen we de Pianobank, vervaardigd door Henry van de Velde.

Henry Van De Velde heeft in Gent nog andere werken, objecten en gebouwen vervaardigd en zou dus een ideaal aanknopingspunt kunnen vormen voor culturele toeleidingen in Gent.

Voor deze semantische oefening maakte we vooral gebruik van de opbouw en labeling van de dataset van Object Stories zelf, zie bijlage 15 en hoe deze kan doorverwijzen naar andere bestaande databases zoals https://www.erfgoedinzicht.be/ of Arthub Flanders https://arthub.vlaamsekunstcollectie.be/.

Een best practice willen we aantonen via een voorbeeld. Zo heeft Design Museum best wat stukken van Henry van de Velde zoals zijn pianobank in Object Stories, onze proefopstelling. Dit zouden we automatisch moeten kunnen koppelen aan andere hits in Erfgoed in Zicht die op het Gentse grondgebied terug te vinden zijn zoals bv.: https://www.erfgoedinzicht.be/collecties/detail/f02c1835-48a5-5cc7-86d3-755748ac4910/media/7d414d63-f520-a22b-4e94-a10cf94f92ef?mode=detail&view=horizontal&q=Henry%20van%20de%20velde&rows=1&page=2&fq%5B%5D=search_s_institution:%22Design%20Museum%20Gent%22

Dit kan dan inzicht geven in stukken die bv. niet in de publieke ruimte te bekijken zijn, zoals items binnen de depots van de Gentse musea en legt de nadruk op label van de ‘vervaardiger’.

We kunnen ook linken aan dit kunstwerk in de Arthub Database van MSK Gent.

https://arthub.vlaamsekunstcollectie.be/nl/catalog/kmska:2690

Een schilderij van Theo Van Rysselberghe die toepasselijk ook de vrouw van Henry Van de Velde toont aan te piano, waarvoor hij ook niet toevallig het desbetreffende pianobankje heeft gebouwd. Dit is al complexer gezien er geen aparte label is dat zij de vrouw van Henry Van de Velde is. Dit zou het systeem moeten kunnen halen uit de titel en/of de beschrijving.

Een logische link is om te verwijzen naar de boekentoren als deel van de Gentse POI (Point-of-interest) dataset

https://data.stad.gent/dataset/757, maar ook dit vergt dat de architect steeds meegenomen wordt bij elke POI.

Conclusies en volgende stappen

Deze oefening bleek zeker waardevol te zijn voor de projectpartners. Niet alleen werden we bewust gemaakt van sommige potentiële (ongebruikte) datasets, zoals bijvoorbeeld de muntenroute of de street art dataset, een aantal problemen met de bestaande data werden op deze manier ook blootgelegd.

Binnen werkpakket 4 kunnen we dan ook enkele conclusies en vervolgstappen definiëren.

We moeten kijken naar de bestaande databronnen die bruikbaar zijn op korte termijn en analyseren waar de uitdagingen juist zitten. We zien vaak dat er een mismatch was tussen de labeling/metadata tussen de verschillende datasets. (Zie ook in het rapport van Crunch Analytics!). Hiernaast moeten we zoeken naar oplossingen om deze mismatch op korte termijn te kunnen overbruggen zodat we geen datasets ‘links laten liggen’.

Wat met ‘niet relevante’ data? Zoals bleek uit de workshop zijn sommige datasets die in het begin irrelevant leken, toch waardevol genoeg om mee te nemen binnen het project. Een belangrijke les hier is dan ook om de mogelijke eindgebruikers en de data-experts eerder te bevragen naar hun ‘data-behoeften’.

Tot slot is het duidelijk geworden dat we actief werk moeten maken van het faciliteren van de ontsluiting van museum data naar linked open data. De museumdata vormt binnen het project eigenlijk de basisbron waar alle toeleidingen mee moeten kunnen verbonden worden. Een goede metadatering en de ontsluiting als linked open data zijn dan ook essentiële vereisten indien men soortgelijke projecten wil opzetten.

Bijlage 14: Data rapport bevat de opzet van de recommendation engine en user-interface die opgezet werd door Crunch Analytics.

Bijlage 15: Selectie collectiestukken Object Stories voor MOTFP aanbevelingen

Last updated