Les 7 pièges classiques des adresses françaises (et comment les repérer)

En 25 ans à fiabiliser des bases d’adresses, j’ai vu les mêmes pièges revenir encore et encore. Une adresse française a l’air simple (un numéro, une voie, un code postal, une ville), et c’est pourtant l’un des champs les plus sales qui soit.

Je vous les mets noir sur blanc, avec à chaque fois ce qui se passe et comment le repérer dans vos propres données. Dites-moi en réponse lequel vous pourrit le plus la vie.

Une chose vaut pour les sept : le problème, c’est qu’on compare du texte brut alors qu’il faudrait comparer du sens. Tout le reste en découle.

1. Les abréviations de type de voie

`Av.`, `Bd`, `Pl.`, `St`, `Ste`, `Fg`, `Imp.`… Une même voie s’écrit de dix façons selon qui a saisi. « Avenue du Général de Gaulle » devient « Av Gal de Gaulle », « St-Étienne » remplace « Saint-Étienne ». Tant qu’on compare des chaînes brutes, ces variantes ne se rejoignent jamais. Pour voir l’ampleur du problème chez vous, comptez les valeurs distinctes du premier mot de vos voies : si `AV`, `AVE`, `AVENUE` et `AV.` cohabitent, vous y êtes.

2. Les accents et la casse

`SAINT-CYR`, `Saint-Cyr`, `saint cyr`, `St-Cyr`, et les mêmes sans accents (`Etienne` au lieu d’`Étienne`). Un import qui passe par un système fâché avec l’UTF-8 décape les accents en route, et vous vous retrouvez avec deux versions d’une même commune impossibles à rapprocher. Mettez tout en minuscules sans accents et regardez combien de doublons apparaissent d’un coup : ça mesure le dégât.

3. Les communes nouvelles et les fusions

Le découpage communal bouge tous les ans (Code officiel géographique de l’INSEE). Des communes fusionnent, changent de nom, de code. Une adresse saisie il y a cinq ans peut désigner une commune qui « n’existe plus » sous ce nom, sans être fausse pour autant. Quand vous rapprochez vos communes du COG de l’année en cours, celles qui ne tombent pas juste sont souvent des fusions ou des renommages, pas des fautes.

4. Code postal n’est pas code commune

C’est le piège le plus contre-intuitif : un code postal n’identifie pas une commune. Un même CP peut couvrir plusieurs communes, et une grande ville peut en avoir plusieurs. Déduire la commune du seul code postal produit régulièrement des erreurs ; l’identifiant stable, c’est le code INSEE. Le test qui ne trompe pas : comptez le nombre de communes distinctes derrière chaque code postal. Dès qu’un CP en couvre plusieurs, vous ne pouvez plus en déduire la commune sans risque.

5. Les adresses sans numéro et les lieux-dits

En zone rurale, beaucoup d’adresses n’ont pas de numéro : un lieu-dit, un hameau, parfois juste « le bourg ». Les algorithmes qui exigent un numéro échouent, ou pire, inventent un rapprochement. Filtrez les lignes sans numéro de voie : si la part est sérieuse, votre traitement doit les accueillir comme un cas normal, pas comme une anomalie à rejeter.

6. Les typos et variantes de voie

« Rue de la République », « Rue de la Republic », « Rue de la Republique » : une lettre en trop, une inversion, un mot tronqué. Sur un fichier saisi à la main, c’est inévitable. Le rapprochement doit tolérer une petite distance sans pour autant confondre deux voies réellement différentes. Un truc tout bête pour les débusquer : triez vos voies par ordre alphabétique et faites défiler, les quasi-doublons se retrouvent voisins et sautent aux yeux.

7. CEDEX, boîtes postales et mentions de complément

`CEDEX`, `BP 42`, « chez M. X », « bâtiment C escalier 2 »… Ces mentions ne sont pas des éléments géographiques, et elles parasitent le rapprochement si on ne les met pas de côté. Cherchez `CEDEX`, `BP`, `CS`, `TSA` dans vos champs de voie : s’ils y traînent, c’est qu’ils n’ont pas été isolés en amont.

La parade, en une phrase

Ces sept pièges ont la même racine, donc la même parade. Décomposer l’adresse, normaliser chaque morceau, puis le rapprocher au référentiel officiel (la Base Adresse Nationale) plutôt qu’à une autre chaîne aussi sale que la première. Le parsing rend l’adresse exploitable ; c’est le rapprochement qui la rend fiable.
C’est toute la logique de TrustyData : une adresse libre en entrée, des éléments structurés et rapprochés en sortie, source par source.

À vous

Lequel de ces sept vous coûte le plus cher dans vos données ? Et vous en voyez un huitième que j’aurais oublié ? Postez vos exemples (anonymisés) en réponse, les cas réels sont les plus instructifs.