BAN, INSEE, IRIS, Filosofi : qui fait quoi ?
Je vois souvent la confusion entre ces quatre noms. On me parle « données d’adresses officielles » et, dans la même phrase, BAN, INSEE, IRIS et Filosofi finissent mélangés comme s’ils faisaient la même chose. En vingt-cinq ans de data quality, c’est sans doute le quiproquo qui revient le plus.
Pourtant chacun a un rôle bien à lui. Voilà comment je me les représente, et comment je les enchaîne dans TrustyData.
BAN — Base Adresse Nationale
Pour moi, c’est le référentiel des adresses : numéro, voie, commune, et leurs coordonnées géographiques. C’est ce que j’interroge pour géocoder (transformer une adresse en point) et pour vérifier qu’une adresse existe bien. Quand TrustyData confirme ou corrige une adresse, c’est à la BAN que je la confronte.
→ La question à laquelle la BAN répond : « Cette adresse existe-t-elle, et où est-elle ? »
INSEE — le Code officiel géographique (COG)
L’INSEE tient le référentiel des communes : leur code commune (le fameux code INSEE, à ne pas confondre avec le code postal), leur nom officiel, les fusions et créations de communes nouvelles, année par année. C’est la colonne vertébrale sur laquelle je m’appuie pour rattacher une adresse à la bonne commune de façon stable dans le temps.
→ La question : « À quelle commune (officielle, à jour) cette adresse appartient-elle ? »
IRIS — le découpage infra-communal**
IRIS est un découpage de l’INSEE à l’intérieur des communes (les grandes communes sont divisées en plusieurs IRIS d’environ 2 000 habitants). C’est la maille de référence quand on veut des statistiques locales fines, plus précises que le simple niveau communal.
→ La question : « Dans quel quartier statistique se situe cette adresse ? »
Filosofi — les données socio-fiscales localisées
Filosofi (INSEE) fournit des données de revenus et de population localisées, notamment sous forme de carreaux de 200 m. C’est ce qui me permet d’attacher à un point un contexte statistique : structure par âge, niveau de vie du voisinage immédiat…
→ La question : « À quoi ressemble, statistiquement, le voisinage de ce point ? »
La nuance sur laquelle j’insiste toujours: une donnée Filosofi décrit le carreau de 200 m autour de l’adresse, pas les occupants du logement exact. C’est une photographie du voisinage, jamais une information sur une personne précise. Je préfère le redire une fois de trop qu’une fois de pas assez.
Comment je les enchaîne dans TrustyData
adresse libre
→ décomposition + normalisation
→ rapprochement BAN (l'adresse existe-t-elle ? coordonnées ?)
→ rattachement INSEE/COG (quelle commune officielle ?)
→ enrichissement IRIS (quel quartier statistique ?)
→ contexte Filosofi (carreau 200 m — selon le plan)
Chaque source reste citée (BAN / INSEE) : ce sont des données qui font autorité, et je tiens à ce qu’un résultat vide signifie « pas de correspondance », jamais une valeur inventée. C’est une règle que je ne négocie pas.
À vous
J’aimerais bien savoir comment vous vous en servez de votre côté :
- Vous utilisez laquelle de ces sources au quotidien — et pour quoi faire ?
- Il y a une source officielle française que vous aimeriez voir intégrée et dont je n’ai pas parlé ici ? Citez-la en réponse, je lis tout.