Methodologie — Callejear Data Engine

Hoe Callejear.nl de straatdossiers opbouwt: bronnen, pipeline, scoring, rol van AI, en bekende grenzen.

1. Het Callejear Data Engine systeem

Callejear Data Engine is het propriëtaire systeem dat officiële Nederlandse open data combineert met een eigen scoringmodel en een door mensen gesuperviseerd narratief. Het draait dagelijks vier Europese markten (ES, NL, FR, BE) en publiceert ongeveer 1,4 miljoen straatdossiers in totaal.

2. Bronnen

Bron	Inhoud	Licentie	Frequentie
BAG (Kadaster)	Officiële gebouwen, adressen, bouwjaar, oppervlakte	CC0	Maandelijks
CBS	Demografie, inkomen, huishoudsamenstelling, WOZ-waarderingen	CC BY 4.0	Jaarlijks
KvK	Actieve ondernemingen (Handelsregister)	Open data NL	Wekelijks
OpenStreetMap	POIs, voorzieningen, parken, fietsinfrastructuur	ODbL	Maandelijks
OVapi / NDOV	Openbaar vervoer haltes, lijnen en frequenties (GTFS)	Open data NL	Wekelijks
RIVM Luchtkwaliteit	Luchtkwaliteitsindex en geluidbelasting (Lden)	Open data NL	Maandelijks
PDOK	Geolocatie en overstromingsrisicozones	Open data NL	Maandelijks

3. Pipeline in vijf fases

Extractie — downloaden van officiële bronnen via Python-scripts.
Normalisatie — slug-generatie, naam-deduplicatie, koppeling op BAG-identificatie.
Kruising — joins op BAG openbare_ruimte_id + postcode + buurt-code.
Scoring — berekening van leefbaarheidsscore en zes deel-scores per straat.
Begeleide narratief en publicatie — rule-based tekst per straat, redactionele review voor gemeente-dossiers en artikelen.

4. Het scoring systeem

score_livability = 0.20·voorzieningen + 0.15·OV + 0.15·lucht + 0.15·geluid + 0.15·overstroming + 0.10·fietsbaar + 0.10·groen

Elke deel-score is 0-100 en wordt berekend uit specifieke OSM/OVapi/RIVM/PDOK-bronnen. Voorzieningen gebruikt OSM-amenities binnen 500 m; OV gebruikt GTFS-haltes binnen 500 m gewogen door frequentie; lucht gebruikt RIVM-luchtkwaliteit; geluid gebruikt RIVM Lden-kaarten; overstroming gebruikt PDOK-overstromingskaarten; fietsbaar combineert OSM fietsinfrastructuur en bestemmingen; groen gebruikt afstand tot het dichtstbijzijnde park ≥ 1 ha.

Wanneer minder dan ongeveer 50% van de componenten van de leefbaarheidsscore onderbouwd is met gemeten data, tonen we de score helemaal niet meer. Zo voorkomen we dat een straat met grote datalacunes automatisch een opgeblazen cijfer krijgt.

5. De rol van AI

Wij verklaren expliciet: AI is een hulpmiddel, geen auteur. AI helpt ons bij anomalie-detectie, taalclassificatie en het opstellen van conceptteksten die de redacteur nakijkt. Redactionele beslissingen, factchecking en bronkeuze zijn altijd menselijk. Elk redactioneel artikel is gesigneerd, gedateerd en herzien door Yoel Castaño Peón.

6. Erkende grenzen

Brongegevens worden elke 3-6 maanden ververst.
Onze scores zijn geen taxaties van afzonderlijke panden.
In zeer kleine gemeenten of dunbevolkte buurten zijn sommige gegevens onvolledig.
De sociale dimensie van een buurt wordt niet volledig gevangen door de scores.

7. Versionering

Wijzigingen aan het scoringmodel worden gepubliceerd in de wijzigingslogboek. Huidige versie: v1.0 (2026-04).

Juridische disclaimer. De informatie op Callejear.nl is informatief en vormt geen financieel, juridisch of vastgoedadvies dat is afgestemd op een individuele situatie. Raadpleeg een gekwalificeerde professional voor beslissingen rond aankoop, verkoop of investering.