Correcteur grammatical d'Office 2003 et adresses

Un utilisateur d’Office 2003 posait tout récemment une question concernant le nouveau correcteur grammatical français sur le forum de Word. Il s’étonnait de voir le mot « rue » souligné en vert dans l’adresse suivante qu’il utilisait dans son publipostage :

32 rue de l'église.

« Pourquoi mon correcteur veut-il absolument que le mot « rue » prenne un s ? », se plaignait-il.

Cet utilisateur avait évidemment raison : dans le cas présent, il s’agit d’une « fausse alerte » (ce que les linguistes appellent en anglais des « false flags » ou encore des « false positives », c’est-à-dire que le correcteur attire inutilement l’attention sur ce qu’il croit être une erreur et qui n’en est donc pas une). Tout l’art du développement d’un correcteur grammatical est de trouver le juste équilibre entre les vraies erreurs qu’il s’agit de repérer et les fausses alertes, qu’il s’agit de minimiser. Le nouveau correcteur grammatical d’Office 2003 est très précis, c’est-à-dire qu’il ne repèrera pas toutes les erreurs possibles et imaginables, mais il présente un très faible taux de fausses alertes (pour ne pas déranger inutilement l'utilisateur). Cela dit, puisque nous avons ci-dessus une fausse alerte, il n’est peut-être pas inutile de nous pencher sur la raison pour laquelle le correcteur souligne le mot « rue » dans le cas présent.

Le correcteur grammatical a une certaine notion de ce qu’est une adresse. Dans l’exemple cité ici, il souligne effectivement rue et proposes « rues » parce qu’il s’attend à ce que des majuscules soient utilisées, soit pour « rue », soit pour « église ». Examinons les différentes possibilités :

32 rue de l’église

32, rue de l’église

32 Rue de l’église

32 Rue de l’Eglise

32 rue de l’Eglise

En fait, le mot « rue » n’est souligné que dans le premier exemple. Dans tous les autres cas, l’analyseur devine très bien qu’il s’agit d’une adresse, ne considère donc pas 32 comme un déterminant numéral et ne souligne donc rien. Ouf !

Certains ont fait remarquer que la virgule n’est normalement pas acceptée par la poste française. C’est vrai, mais comme beaucoup de gens l’utilisent, elle peut être utilisée par le correcteur grammatical comme un indice signalant la présence d’une adresse. Dans les autres exemples, les majuscules sont utilisées par l’analyseur syntaxique du correcteur pour détecter la présence d’une adresse. On notera que le mot « rue » ne DOIT pas obligatoirement être écrit en majuscules (on le considère traditionnellement comme un nom commun). Mais l'ordinateur a besoin d'un indice pour lever le doute.

Quand on y réfléchit, il est normal d’utiliser une majuscule pour le mot « Eglise ». Il s’agit ici d’un nom propre (on désigne une église bien précise). On ferait de même avec « rue du Parc », « boulevard de la Constitution », etc… Une recherche rapide sur l’Internet montre que la toute grande majorité des adresses suivent ce format en utilisant des majuscules. Je serais donc tenté de dire que le fait d’avoir souligné « rue » attire l’attention de notre utilisateur sur la rareté de ce format. S’il n’y a aucun indice prouvant que l’auteur a voulu écrire une adresse, la règle par défaut va s’appliquer (un chiffre > 1 suivi d’un nom commun -> pluriel).

Il est difficile d’intégrer de la sémantique pure dans un correcteur grammatical. Si l’on a une liste telle que la suivante, personne ne contestera que les noms doivent être mis au pluriel (c’est pourquoi le correcteur souligne en vert les noms dans ces exemples – on se croirait chez Prévert J):

25 personne

12 rue

23 ordinateur

16 image

12 boulevard

La formalisation des adresses est loin d’être simple et il est difficile d’imiter notre
cerveau. Les études de corpus montrent que les majuscules sont plus souvent
utilisées et qu’elles peuvent être exploitées pour reconnaître les adresses.
Dans les autres cas, on a de réelles ambigüités. Mais, finalement, quand on considère les exemples ci-dessus, le correcteur ne s'en tire pas si mal...

Passionnant, n’est-il pas ?

Thierry Fontenelle

Microsoft Speech & Natural Language