Data Science: Hoe stel ik een vraag?

Data Science: Hoe stel ik een vraag?

Los van welke predictive tool dan ook bestaat elke analyse grofweg uit een aantal kernactiviteiten, waarvan ik er hier één wil uitlichten. Het stellen van een goede onderzoeksvraag.

Het is natuurlijk belangrijk te weten waar je antwoord op wilt hebben en om aan dat antwoord te komen zal je onderzoeksvraag aan een aantal randvoorwaarden moeten voldoen. Een goede onderzoeksvraag moet namelijk interessant, plausibel en beantwoordbaar zijn. Onderstaande case over hypotheken zal gebruikt worden om uiteindelijk tot een concrete en meetbare vraagstelling te komen.

Vraagstuk

We beginnen met een initieel vraagstuk.

Welke huishoudens hebben de grootste kans om naar een nieuwe wijk te verhuizen, zodat een hypotheekverstrekker gericht kan adverteren voor hypotheken.

Als eerste is het belangrijk dat er nagegaan wordt wat er precies onderzocht dient te gaan worden en waarom. Als we kijken naar het verstrekken van hypotheken en het adverteren hiervoor is het doel om door gericht te adverteren de advertentiekosten zo laag mogelijk te houden en de hypotheekopbrengsten te maximaliseren. In een ideale wereld zou een hypotheekverstrekker precies weten wie er op een bepaald moment overweegt te verhuizen om zo heel precies zijn advertenties te richten op deze mensen.

Helaas is de wereld niet ideaal en zullen er bepaalde variabelen moeten worden gebruikt waarlangs er zal worden gemeten. Hierdoor is het nodig om de vraag zo concreet en precies mogelijk te formuleren en de variabelen in kaart te brengen die relevant zijn voor dit vraagstuk.

Identificeren van variabelen

Als eerste stellen we dat dit model zich richt op potentiële geïnteresseerden van huizen in een nieuwe wijk. Een nieuwe wijk zorgt namelijk voor een relatief groot aantal nieuwe nog reeds onbewoonde huizen die op de markt terecht komen. Het feit dat het om onbewoonde woningen gaat zorgt ervoor dat er met redelijke zekerheid kan worden gezegd dat hier mensen gaan wonen en dus met een hypotheekverstrekker in aanmerking zullen komen. Hieruit volgt dus een direct verband tussen de ontwikkeling van een nieuwe wijk en een toenemende vraag naar hypotheken.

Vervolgens is het belangrijk om te onderzoeken welke potentiële huishoudens interesse zouden kunnen hebben in een dergelijke nieuwe woning om zo het adverteren te kunnen focussen. Hiervoor zullen er verschillende factoren in kaart moeten worden gebracht. Ten eerste moet er gekeken worden om wat voor huizen het in de nieuwbouwwijk gaat. Zijn het allemaal dezelfde type woningen? Gaat het om appartementen of juist om vrijstaande villa’s? Wat is de prijsklasse? Wat is de ligging? Heeft de bouwer/makelaar al een bepaalde doelgroep in het oog, dit is misschien al kenbaar gemaakt in de brochure. Een nieuwe wijk zal dus geclassificeerd moeten worden aan de hand van woning type, prijsklasse en beoogde doelgroep. Dit zijn gegevens die bijvoorbeeld beschikbaar zouden kunnen zijn bij de presentatie van een nieuwbouwproject.

Als bovenstaande variabelen zijn bepaald is de volgende stap om te identificeren welke huishoudens te matchen zijn met deze variabelen. Voor wat betreft de prijs van een huis is het belangrijk dat een huishouden zich het huis kan veroorloven, maar daarnaast zal er ook rekening gehouden moeten worden met het feit dat de kans klein is dat een multimiljonair een huis van 2 ton koopt. Hier zal dus een bepaalde bandbreedte moeten worden gehanteerd met als maximumbedrag wat een huishouden als hypotheek kan krijgen plus eventueel spaargeld en tevens een minimumbedrag. Dit minimumbedrag zou kunnen worden berekend aan de hand van historische hypotheekverstrekkingen. De data voor het maximale hypotheekbedrag en eventueel spaargeld zullen misschien alleen beschikbaar zijn als een dergelijk huishouden zijn rekeningen heeft bij de hypotheek verstrekker. De beschikbaarheid van dergelijke financiële gegevens zal het model een stuk robuuster maken.

Naast bovenstaande financiële variabelen zullen ook sociale variabelen belangrijk zijn bij het vormen van interesse in een nieuw huis. Zo zullen huishoudens die net een nieuw huis hebben gekocht minder geïnteresseerd zijn om weer te verhuizen dan huishoudens die al langere tijd ergens wonen of een huis huren. Daarnaast zal ook de gezinssamenstelling bepalend zijn voor de keuze van een bepaald type huis. Een jong stel met een eerste baby die in een 3 kamer appartement wonen zullen eerder geneigd zijn om groter te gaan wonen dan een ouder paar waarvan de kinderen al het huis uit zijn. Hier moet dus in kaart worden gebracht wat de levensfase van een huishouden is, welke vervolgens gematcht zal moeten worden met de beoogde doelgroep van het nieuwbouwproject.

Zo zullen de variabelen van het nieuwbouwproject (woning type, prijsklasse en beoogde doelgroep) naast de variabelen van potentiële klanten (financiële mogelijkheden, gezinssamenstelling en woonsituatie/historie) moeten worden gelegd.

Aan de hand van alle financiële variabelen van zowel potentiële geïnteresseerde als het project kan worden bepaald of een huishouden in aanmerking zou komen. Wanneer ze binnen de vooraf gestelde financiële bandbreedte vallen kan gesteld worden of ze financieel gezien tot potentiële hypotheekklanten behoren.

Vervolgens zal er gerekend moeten worden met de sociale variabelen. Hier zal de overgebleven subset na de financiële analyse met alle attributen zoals leeftijd, samenstelling, huidige woonsituatie en lengte van wonen op hun huidige plek tegen de type aangeboden woningen moeten worden gehouden. Zo kan de subset van potentiële nieuwe klanten verder worden uitgedund.

Andere factoren die ook in ogenschouw genomen moet worden zijn macro economische. Zo zal de huidige rentestand en de gezondheid van de woningmarkt ook moeten worden meegenomen. Lagere rentes zullen voor een impuls in de woningmarkt dienen, mensen zullen dus eerder geneigd zijn om een hypotheek af te sluiten. Ook zal een opbloeiende woningmarkt, waar huizenprijzen stijgen ervoor zorgen dat huishoudens eerder geneigd zijn om hun huidige woning te verkopen en opzoek gaan naar een nieuwe woning, waardoor de vraag naar hypotheken in zijn geheel zal toenemen.

Nadat, aan de hand van bovengenoemde variabele, de dataset is ingeperkt, zullen de overgebleven huishoudens uit het datamodel eerst goed moeten worden bekeken. Gaat het hier inderdaad om een redelijk uniforme groep mensen. Het lijkt namelijk plausibel dat in een nieuwe straat met soortgelijke huizen ook soortgelijke mensen gaan wonen, die ongeveer in een vergelijkbare levensfase zitten. Uiteraard zullen hier uitschieters in zitten, maar de verwachting is dat er in de resultaten een globale lijn te ontdekken zou moeten zijn.

Verfijnen van de vraag

Als we alle bovenstaande factoren bekijken, hoe komen we dan tot een goede vraag? Alle factoren geven in ieder geval aan dat er logische verbanden liggen tussen een nieuw te bouwen wijk en de verkoop van hypotheken, maar om een goede vraag te stellen moet deze zo concreet mogelijk zijn. Het doel van het onderzoek moet zijn dat wanneer er een nieuwe woonwijk wordt gebouwd er in kaart kan worden gebracht welke huishoudens hierin geïnteresseerd zouden kunnen zijn en een nieuwe hypotheek nodig hebben.

Wat allereerst in kaart zal moeten worden gebracht is welk type onderzoek er gedaan gaat worden. Van de type onderzoeksvragen licht er ik twee uit voor dit specifieke vraagstuk:  beschrijvend en relationeel.

Beschrijvend onderzoek richt zich op het beschrijven van gemeten variabelen en dan specifiek het kwantificeren van deze variabelen. Een onderzoeksvraag zou hier kunnen zijn: Hoeveel jonge gezinnen zouden geïnteresseerd zijn in de bouw van een nieuwbouwhuis met rijtjeshuizen? Een beschrijvend onderzoek richt zich op een beperkt aantal doelgroepen en variabelen en vaak zelfs op slecht 1 doelgroep en 1 variabele. Daarnaast wordt er vooral gekeken naar hoe vaak iets voorkomt of wat het percentage van doelgroep Y is dat variabele X overschrijdt.

Zoals hierboven te lezen is zijn er voor ons specifieke onderzoek veel factoren die van belang zijn, van zowel de nieuw te bouwen wijk, de potentiële kopers tot macro-economische. Als we al deze variabelen zouden willen gebruiken in het onderzoek en zouden willen kijken wat de invloeden op elkaar zijn zou, in plaats van een beschrijvend onderzoek, een relationeel onderzoek meer van toepassing zijn.  Wat we namelijk willen weten is, van welke huishoudens wordt de behoefte aan een nieuw huis (lees: een nieuwe hypotheek) beïnvloed door de komst van een nieuwe wijk. Dit is alleen niet concreet genoeg. Als eerste moet ‘huishoudens’ specifieker gedefinieerd worden. Welke huishoudens willen we onderzoeken? Alleenstaanden? Jonge tweeverdieners? Oudere paren? Daarnaast zal ook een nieuwe wijk concreter gemaakt moeten worden. Gaat het om appartementen, eengezinswoningen of villa’s? Als we logisch beredeneren zou het aannemelijk lijken dat er relatief meer ‘jonge’ tweeverdieners geïnteresseerd zullen zijn in een eengezinswoning dan oudere paren. Hierdoor zou een concrete onderzoeksvraag kunnen zijn: Welke tweeverdieners tussen de 25 en 35 jaar zouden geïnteresseerd kunnen in een nieuwgebouwde eengezinswoning? of Wat is de relatie tussen de nieuwbouw van eengezinswoningen en de aanvraag van een nieuwe hypotheek onder tweeverdieners tussen de 25 en 35 jaar? Bij een dergelijke vraag zou dus de relatie tussen een hypotheek aanvraag en nieuwgebouwde eengezinswoningen in de groep van samenwonende tweeverdieners van tussen de 25 en 35 jaar moeten worden onderzocht.

Conclusies

Als we naar de bovenstaand geformuleerde vraag kijken kunnen we aan de hand van de in het begin genoemde pijlers concluderen dat het om een goede onderzoeksvraag gaat. De vraag is namelijk interessant voor hypotheekverstrekkers, zij willen weten welke huishoudens potentiële klanten kunnen worden om zo hun marketing budget op een effectieve manier in te zetten. Daarnaast is de vraag plausibel. Nieuwe eengezinswoningen wekken nu eenmaal interesse van mensen, met of zonder eigen woning. De vraag is ook beantwoordbaar, veel van de hierboven genoemde data is algemeen beschikbaar. En tot slot gaat is het een specifieke vraag, hij richt zich op een concrete groep mensen en een bepaald type woning.

Het doel bij elk vraagstuk is tot een kader te komen waarbinnen het onderzoek zich afspeelt en aspecten te identificeren die van belang lijken voor het resultaat. Bovenstaande exercitie is bedoeld om te helpen bij het creëren van het besef dat er bij het opstellen van een goede onderzoeksvraag veel komt kijken. Een vraagstelling is de start van een onderzoek en hoe concreter en duidelijker deze wordt opgesteld, des te groter de kans is om uiteindelijk tot resultaten te komen waar ook daadwerkelijk iets mee kan worden gedaan.

Bas Visser