Methodologie — Callejear Data Engine

Hoe Callejear.nl de straatdossiers opbouwt: bronnen, pipeline, scoring, rol van AI, en bekende grenzen.

1. Het Callejear Data Engine systeem

Callejear Data Engine is het propriëtaire systeem dat officiële Nederlandse open data combineert met een eigen scoringmodel en een door mensen gesuperviseerd narratief. Het draait dagelijks vier Europese markten (ES, NL, FR, BE) en publiceert ongeveer 1,4 miljoen straatdossiers in totaal.

2. Bronnen

BronInhoudLicentieFrequentie
BAG (Kadaster)Officiële gebouwen, adressen, bouwjaar, oppervlakteCC0Maandelijks
CBSDemografie, inkomen, huishoudsamenstelling, WOZ-waarderingenCC BY 4.0Jaarlijks
KvKActieve ondernemingen (Handelsregister)Open data NLWekelijks
OpenStreetMapPOIs, voorzieningen, parken, fietsinfrastructuurODbLMaandelijks
OVapi / NDOVOpenbaar vervoer haltes, lijnen en frequenties (GTFS)Open data NLWekelijks
RIVM LuchtkwaliteitLuchtkwaliteitsindex en geluidbelasting (Lden)Open data NLMaandelijks
PDOKGeolocatie en overstromingsrisicozonesOpen data NLMaandelijks

3. Pipeline in vijf fases

  1. Extractie — downloaden van officiële bronnen via Python-scripts.
  2. Normalisatie — slug-generatie, naam-deduplicatie, koppeling op BAG-identificatie.
  3. Kruising — joins op BAG openbare_ruimte_id + postcode + buurt-code.
  4. Scoring — berekening van leefbaarheidsscore en zes deel-scores per straat.
  5. Begeleide narratief en publicatie — rule-based tekst per straat, redactionele review voor gemeente-dossiers en artikelen.

4. Het scoring systeem

score_livability = 0.20·voorzieningen + 0.15·OV + 0.15·lucht + 0.15·geluid + 0.15·overstroming + 0.10·fietsbaar + 0.10·groen

Elke deel-score is 0-100 en wordt berekend uit specifieke OSM/OVapi/RIVM/PDOK-bronnen. Voorzieningen gebruikt OSM-amenities binnen 500 m; OV gebruikt GTFS-haltes binnen 500 m gewogen door frequentie; lucht gebruikt RIVM-luchtkwaliteit; geluid gebruikt RIVM Lden-kaarten; overstroming gebruikt PDOK-overstromingskaarten; fietsbaar combineert OSM fietsinfrastructuur en bestemmingen; groen gebruikt afstand tot het dichtstbijzijnde park ≥ 1 ha.

Wanneer minder dan ongeveer 50% van de componenten van de leefbaarheidsscore onderbouwd is met gemeten data, tonen we de score helemaal niet meer. Zo voorkomen we dat een straat met grote datalacunes automatisch een opgeblazen cijfer krijgt.

5. De rol van AI

Wij verklaren expliciet: AI is een hulpmiddel, geen auteur. AI helpt ons bij anomalie-detectie, taalclassificatie en het opstellen van conceptteksten die de redacteur nakijkt. Redactionele beslissingen, factchecking en bronkeuze zijn altijd menselijk. Elk redactioneel artikel is gesigneerd, gedateerd en herzien door Yoel Castaño Peón.

6. Erkende grenzen

  • Brongegevens worden elke 3-6 maanden ververst.
  • Onze scores zijn geen taxaties van afzonderlijke panden.
  • In zeer kleine gemeenten of dunbevolkte buurten zijn sommige gegevens onvolledig.
  • De sociale dimensie van een buurt wordt niet volledig gevangen door de scores.

7. Versionering

Wijzigingen aan het scoringmodel worden gepubliceerd in de wijzigingslogboek. Huidige versie: v1.0 (2026-04).

Juridische disclaimer. De informatie op Callejear.nl is informatief en vormt geen financieel, juridisch of vastgoedadvies dat is afgestemd op een individuele situatie. Raadpleeg een gekwalificeerde professional voor beslissingen rond aankoop, verkoop of investering.