Methodologie — Callejear Data Engine
Hoe Callejear.nl de straatdossiers opbouwt: bronnen, pipeline, scoring, rol van AI, en bekende grenzen.
1. Het Callejear Data Engine systeem
Callejear Data Engine is het propriëtaire systeem dat officiële Nederlandse open data combineert met een eigen scoringmodel en een door mensen gesuperviseerd narratief. Het draait dagelijks vier Europese markten (ES, NL, FR, BE) en publiceert ongeveer 1,4 miljoen straatdossiers in totaal.
2. Bronnen
| Bron | Inhoud | Licentie | Frequentie |
|---|---|---|---|
| BAG (Kadaster) | Officiële gebouwen, adressen, bouwjaar, oppervlakte | CC0 | Maandelijks |
| CBS | Demografie, inkomen, huishoudsamenstelling, WOZ-waarderingen | CC BY 4.0 | Jaarlijks |
| KvK | Actieve ondernemingen (Handelsregister) | Open data NL | Wekelijks |
| OpenStreetMap | POIs, voorzieningen, parken, fietsinfrastructuur | ODbL | Maandelijks |
| OVapi / NDOV | Openbaar vervoer haltes, lijnen en frequenties (GTFS) | Open data NL | Wekelijks |
| RIVM Luchtkwaliteit | Luchtkwaliteitsindex en geluidbelasting (Lden) | Open data NL | Maandelijks |
| PDOK | Geolocatie en overstromingsrisicozones | Open data NL | Maandelijks |
3. Pipeline in vijf fases
- Extractie — downloaden van officiële bronnen via Python-scripts.
- Normalisatie — slug-generatie, naam-deduplicatie, koppeling op BAG-identificatie.
- Kruising — joins op BAG
openbare_ruimte_id+ postcode + buurt-code. - Scoring — berekening van leefbaarheidsscore en zes deel-scores per straat.
- Begeleide narratief en publicatie — rule-based tekst per straat, redactionele review voor gemeente-dossiers en artikelen.
4. Het scoring systeem
Elke deel-score is 0-100 en wordt berekend uit specifieke OSM/OVapi/RIVM/PDOK-bronnen. Voorzieningen gebruikt OSM-amenities binnen 500 m; OV gebruikt GTFS-haltes binnen 500 m gewogen door frequentie; lucht gebruikt RIVM-luchtkwaliteit; geluid gebruikt RIVM Lden-kaarten; overstroming gebruikt PDOK-overstromingskaarten; fietsbaar combineert OSM fietsinfrastructuur en bestemmingen; groen gebruikt afstand tot het dichtstbijzijnde park ≥ 1 ha.
Wanneer minder dan ongeveer 50% van de componenten van de leefbaarheidsscore onderbouwd is met gemeten data, tonen we de score helemaal niet meer. Zo voorkomen we dat een straat met grote datalacunes automatisch een opgeblazen cijfer krijgt.
5. De rol van AI
Wij verklaren expliciet: AI is een hulpmiddel, geen auteur. AI helpt ons bij anomalie-detectie, taalclassificatie en het opstellen van conceptteksten die de redacteur nakijkt. Redactionele beslissingen, factchecking en bronkeuze zijn altijd menselijk. Elk redactioneel artikel is gesigneerd, gedateerd en herzien door Yoel Castaño Peón.
6. Erkende grenzen
- Brongegevens worden elke 3-6 maanden ververst.
- Onze scores zijn geen taxaties van afzonderlijke panden.
- In zeer kleine gemeenten of dunbevolkte buurten zijn sommige gegevens onvolledig.
- De sociale dimensie van een buurt wordt niet volledig gevangen door de scores.
7. Versionering
Wijzigingen aan het scoringmodel worden gepubliceerd in de wijzigingslogboek. Huidige versie: v1.0 (2026-04).