Correcteur grammatical, précision et fausses alertes

Les habitués des forums de discussions et autres newsgroups sont traditionnellement critiques vis-à-vis des outils informatiques. Les utilisateurs sont souvent très exigeants en matière d’outils de vérification linguistique et les plaintes sont souvent plus fréquentes que les compliments sur ces newsgroups (cela en dit peut-être aussi beaucoup sur la nature humaine). Cette constatation rend d’autant plus sympathique et agréable le compliment que nous faisait il y a quelques jours André, un habitué du forum français de Word, en parlant de notre correcteur grammatical :

On voit de temps en temps ici des remarques sur le correcteur grammatical. Pour une fois, j'en ferai une aussi, mais plutôt élogieuse. Je tapais benoîtement la phrase suivante :

Symétriquement, aucun sondé n'a estimé que 10 EUR était un prix excessif.

lorsqu'à mon grand étonnement, Word me proposa "fût" à la place de "était". Cette proposition d'imparfait du subjonctif en lieu et place de l'indicatif est tout à fait justifiée, mais j'avoue que je ne m'attendais pas à tant de précision...

Comme je l’ai souligné à plusieurs reprises sur ce blog, la technologie a changé en quelques années et le correcteur utilisé dans Word /Office 2003 SP2 et dans Word/Office 2007 n’a plus rien à voir avec l’outil utilisé par exemple dans Word 2000. Une des raisons pour lesquelles nous l’avions remplacé est qu’il se trompait trop souvent et nous avons préféré développer un correcteur plus précis. Le changement avait été opéré sur la base des nombreuses réactions recueillies auprès de nos utilisateurs, qui indiquaient que le correcteur précédent (avant Office XP/2002) considérait dans de trop nombreux cas des phrases exactes comme fautives, ce qui était gênant et peu utile. Nos recherches avaient montré que beaucoup d’utilisateurs débranchaient ce correcteur grammatical à cause de ces « erreurs » qui n'en étaient pas. Notre but, en remplaçant ce produit, était de fournir un outil plus discret et plus fiable quant aux erreurs qu'il repère, et donc moins gênant tout en étant plus utile.

Le reste du fil de ce groupe de discussions est tout aussi intéressant. Réagissant au billet d’André, Anacoluthe, un autre contributeur régulier du forum de Word, confirme que les vérificateurs d'orthographe et de grammaire ont été complètement refondus depuis Word 2000. Il ajoute alors :

En bien heureusement ! La preuve : reprenons dans Word 2000 la phrase d'André
Symétriquement, aucun sondé n'a estimé que 10 EUR était un prix excessif.
Word 2000 accepte sans broncher la forme 'était' comme correcte. Par contre il souligne 'aucun' prétendant qu'il manque une négation ('aucun n'a sondé' ?!?) alors que Word 2003/2007 lui a très bien vu la négation 'aucun ... n'a estimé'.

André donne alors le mot de la fin, que je ne résiste pas à la tentation de citer ici :

En tout cas, en dépit de toutes les critiques que je vois sur les correcteurs grammatical et orthographique, il faut quand même reconnaître que ce sont des outils sacrément performants.

Je ne bouderai pas mon plaisir. Ce petit échange illustre bien l’une des grandes difficultés de la vérification linguistique. L’outil actuel n’est pas en mesure de repérer toutes les fautes possibles et imaginables et il est sûrement facile de le piéger. Il faut être honnête : aucun outil ne peut repérer toutes les fautes. Celui de Word 2000 en repérait peut-être plus, mais il se trompait beaucoup, beaucoup plus souvent dans son jugement et l’exemple ci-dessus l’illustre parfaitement. Les fausses alertes sont généralement mal acceptées par les utilisateurs et nous oscillons toujours entre le désir de privilégier le rappel (repérer le plus grand nombre d’erreurs possibles) tout en gardant une précision élevée (ne pas se tromper en signalant erronément une faute). Il faut aussi garder à l’esprit qu’une précision et un rappel très élevés peuvent s’avérer inutiles si le type d’erreur est peu fréquent. Je crois que nous sommes arrivés à un équilibre qui rend l’outil très utile parce qu’il est très précis (lorsqu’il signale une erreur, la probabilité qu’il se trompe est très réduite) et parce qu’il se base sur une typologie d’erreurs réelles et fréquentes. Il reste encore beaucoup de choses à faire, bien sûr. En attendant, les commentaires tels que ceux que j’ai reproduits ci-dessus sont réconfortants et encourageants. Si vous en avez d’autres, n’hésitez pas à nous en faire part et n’hésitez pas non plus si vous avez des suggestions spécifiques à formuler. Nous ne demandons qu’à mieux vous servir.

Thierry Fontenelle

Microsoft Natural Language Group