Français québécois, trait d’union et correcteur orthographique


 


J’étais il y a quelques jours au congrès de l’ACFAS à Montréal, où je participais au symposium sur la description linguistique pour le traitement automatique du français. J’avais été invité à y parler des outils de vérification linguistique de Microsoft Office. En me promenant dans les rues de Montréal, j’ai été frappé par une différence très importante entre le français européen et le français tel qu’il est utilisé au Québec. Je veux parler ici des traits d’union, bien plus fréquents en français québécois. Je ne parle pas du trait d’union que l’on trouve dans les clitiques tels que « cette maison-là » ou « ce livre-ci » ou dans les séquences verbe-complément telles que « lisez-moi ce passage » ou « regarde-les ». Je ne parle pas non plus des traits d’union présents dans les mots composés tels que grand-mère, tire-lait ou taille-crayon. Il n’y a pas de différence particulière entre le français « européen » et le français québécois en ce qui concerne ces tournures ou ces mots composés. Par contre, dès qu’il s’agit de nommer les lieux géographiques, on s’aperçoit que le Québécois fait un usage plus important des traits d’union : on ne compte plus les occurrences de ce caractère sur les panneaux de signalisation, qu’il s’agisse du Vieux-Port, du centre-ville, du Vieux-Centre, de la station de métro Université-de-Montréal, du parc Jean-Drapeau, du parc René-Lévesque, du Plateau-Mont-Royal, de l’arrondissement de Ville-Marie, et j’en passe…


 


J’ai parlé il y a quelque temps des problèmes que les linguistes-informaticiens rencontrent lorsqu’ils doivent d’abord déterminer les frontières des mots. Ce processus, connu en anglais sous le nom de tokenization ou de word-breaking, permet de séparer un point ou une virgule du mot auquel ces signes de ponctuation sont collés, par exemple. Il est nécessaire de déterminer pour une application donnée si l’apostrophe et le trait d’union sont des caractères « séparables » (breaking characters) ou « inséparables ». Comme je l’ai montré précédemment, ces questions sont cruciales et pas toujours si simples à résoudre: le lexique d’un correcteur orthographique ne comprend généralement pas des séquences telles que l’école, s’imagine ou d’hier. On a chaque fois affaire à deux mots (l’+école, s’+imagine, d’+hier). De la même façon, dans « les relations employeurs-employés » ou « le match France-Canada », le trait d’union est « séparable », c’est-à-dire qu’il sépare des tokens distincts. L’ancien correcteur orthographique français d’Office considérait toutefois le trait d’union comme un caractère inséparable (ce qui est tout à fait justifié pour des mots tels que porte-avion, tire-lait ou grand-mère). L’inconvénient était que les composés productifs tels que France-Canada, employeurs-employés, etc. étaient soulignés par le correcteur, qui les considérait comme des formes non correctes, tout simplement parce qu’elles n’étaient pas présentes dans le dictionnaire du correcteur. On n’ose imaginer le cauchemar du lexicographe à qui on aurait demandé d’inclure ces formes dans le lexique. On aurait assisté à une croissance exponentielle (non désirée) du lexique (où s’arrêter? Si on ajoute France-Canada, il faut aussi mettre France-Italie, Belgique-Espagne, patrons-ouvriers, etc…). Impossible de tout prévoir, bien sûr. C’est aussi ce qui explique que ce correcteur soulignait à tort bon nombre d’entités géographiques québécoises telles que celles qui sont citées ci-dessus (du moins toutes celles qui n’étaient pas directement reprises dans le lexique).


 


En décidant de modifier la nature du trait d’union dans le séquenceur (word-breaker) qui se trouve à la base du nouveau correcteur orthographique français, nous sommes parvenus à réduire de 73% le nombre de fausses alertes, puisque ces combinaisons productives ne sont plus soulignées en rouge et donc plus considérées comme fautives. Plusieurs collègues québécois m’ont fait part de leur satisfaction quant à cette décision qui représente un changement positif très important pour l’utilisateur de nos outils linguistiques : plus question en effet de souligner le mot composé dans l’expression « métro Université-de-Montréal ». Même si le composé n’est pas présent dans le lexique, le correcteur cassant la chaîne sur le trait d’union vérifie chaque unité de façon distincte. On ne verra donc apparaître les soulignements rouges que s’il y a réellement une faute, par exemple dans « métro Universite-de-montréal » (l’accent manque sur Universite et la majuscule est absente sur montréal, ce qui explique que ces deux mots seront soulignés). Le nouveau correcteur orthographique est donc bien plus utile et fiable et cette amélioration est due à un changement de conception du module reconnaissant les mots, sans qu’il ait été nécessaire d’ajouter des milliers d’entrées au dictionnaire. Si vous écrivez Villepin-Sarkozi, le correcteur vous signalera que Sarkozi s’écrit en fait Sarkozy avec -y, mais vous n’aurez pas l’attention inutilement attirée sur une faute inexistante si vous orthographiez ces noms correctement, même en les unissant par un trait d’union. Je me dois évidemment d’ajouter que nous avons mis en place des procédures spéciales pour souligner des fautes très fréquentes telles que portes-avions ou tires-fesses, où il n’est pas question de couper la chaîne de caractères sur le trait d’union et de considérer le mot comme correctement orthographié sous le prétexte que portes ou tires sont des mots corrects (porte- et tire- sont invariables dans ces contextes).


 


Comme on le voit, un changement apparemment anodin peut avoir des conséquences très importantes pour l’utilisateur. Je suis heureux d’avoir pu constater que ces changements n’étaient pas passés inaperçus auprès des nombreux utilisateurs québécois qui ont téléchargé nos nouveaux outils linguistiques. Je savais qu’ils étaient sensibles à la féminisation des noms de métiers (les professeures, ingénieures et autres auteures que j’ai rencontrées au Canada ne me démentiront pas), de même qu’aux rectifications orthographiques (sait-on que Forum, le journal de l’Université de Montréal est publié en nouvelle orthographe toutes les semaines depuis janvier 2005 et que l’Office québécois de la langue française considère les « nouvelles » graphies comme non fautives?). Le trait d’union est donc une autre facette de ces améliorations linguistiques significatives…


 


Thierry Fontenelle


Microsoft Speech & Natural Language group


 

Comments (6)

  1. Votre analyse est très intéressante (je l’apprécie d’autant plus que j’ai fait une thèse sur les mots à trait d’union !). Les quelques remarques qui suivent ne contredisent en rien les solutions que vous proposez. Simplement, elles suggèrent d’autres pistes, plus précises sans doute, mais aussi plus complexes et plus longues à mettre en œuvre.

    Mettons à part le cas des noms propres ("Vieux-Port", "Université-de-Montréal", "René-Lévesque", etc.) : ils sont relativement faciles à traiter, dans la mesure où ils sont  repérables formellement par l’emploi des majuscules. Il semble donc possible de leur réserver un traitement spécial.

    Les autres difficultés proviennent, pour une bonne part, de deux types de structures : la juxtaposition et la surcomposition.

    Le premier type (N0 N1-N2 : par ex. "relations employeurs-employés") se caractérise par la présence de certains noms en position d’introducteurs (N0). Or ces noms peuvent être recensés, dans la mesure où ils relèvent d’un petit nombre de classes sémantiques aisément identifiables. C’est le cas, par exemple, des termes marquant une communication ("dialogue", "rencontre"), une liaison spatiale ("distance", "trajet"), un groupement ("ensemble", "mélange"), une corrélation, ("équivalence", "parité"), un conflit ("lutte", "match"), etc. Un tel recensement permet la reconnaissance automatique de la structure et la validation éventuelle du trait d’union.

    Une autre difficulté apparaît avec ce que j’appellerai la "surcomposition". Des formes comme "salon-salle à manger", "maréchal des logis-chef", "ex-premier ministre" aboutissent à de faux découpages graphiques ("salon-salle", "logis-chef, "ex-premier"). Ici encore, il est possible de mettre en oeuvre un traitement linguistique, en s’appuyant sur des dictionnaires de locutions ou de mots composés ("salle à manger", "maréchal des logis", "premier ministre" doivent être préalablement identifiés comme des unités).

    Ces deux exemples montrent la possibilité de contrôler plus étroitement les occurrences du trait d’union. Une telle démarche ne permet pas seulement d’améliorer la correction orthographique, mais aussi de faciliter l’ensemble des processus liés au traitement automatique (par exemple la traduction). Cela étant, il faut reconnaître que votre solution a le mérite de la simplicité et de l’efficacité.

    S’agissant des noms à trait d’union, je signale l’accès en ligne à un dictionnaire de 12 000 entrées ouvert récemment sur le site du LLI (www-lli.univ-paris13.fr/ressources/moc/index.php). Vos commentaires seront les bienvenus.

    N. B. Petite remarque amusante : dans votre texte, vons indiquez que "Sarkozi s’écrit en fait Sakozy" (sans "r" ?)…

    Michel Mathieu-Colas

    LLI (Laboratoire de linguistique informatique, CNRS / Université Paris 13)

    mmc@lli.univ-paris13.fr

    Références :

    Les mots à trait d’union. Problèmes de lexicographie informatique, CNRS-INaLF, Didier Erudition, Paris, 1994. Voir plus particulièrement, pour les problèmes de séparabilité :"Syntaxe du trait d’union : Structures complexes", Linguisticæ Investigationes, XIX:1, John Benjamins B.V., Amsterdam, 1995.

  2. Il manque des caractères dans l’adresse URL associée à mon dernier message. Je la corrige ici : www-lli.univ-paris13.fr.

  3. MSDN Archive says:

    Bonjour,

    Merci pour ces commentaires extrêmement intéressants concernant le trait d’union. Vous avez totalement raison en ce qui concerne les contraintes sémantiques relatives à la structure N0 N1-N2 (comme « relations employeurs-employés »): il existe effectivement des classes de mots pouvant être suivis d’une juxtaposition de deux mots unis par un trait d’union. Tout est en fait question de compromis : notre correcteur orthographique ne contient pas d’informations sémantiques et syntaxiques, à l’inverse du correcteur grammatical (ce sont deux outils distincts – j’ai toutefois montré au congrès de TALN 2006 (http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2006/04/24/581833.aspx) que le fossé entre les deux tend petit à petit à se réduire, notamment pour contraindre les suggestions offertes par le correcteur orthographique).

    Tout est question de rapidité et de performance, des éléments essentiels pour un produit opérationnel distinct du prototype tel qu’on le trouve dans les labos universitaires. La correction orthographique doit être extrêmement rapide, alors que l’usager accepte que le correcteur grammatical soit un peu plus lent. Cela dit, même si on injectait cette information sémantique dans le lexique, il n’est pas sûr que cela règle tous les problèmes. Les termes exprimant un conflit, un groupement, une corrélation, etc., ne sont pas toujours faciles à identifier ; de plus, il est tout à fait concevable de trouver la structure  avec trait d’union sans qu’elle soit *précédée* d’un mot appartenant à ces classes sémantiques, notamment dans les titres de chapitres ou de journaux. Exemple : « France-Canada : match remis », ou même sans indicateur explicite correspondant au N0 : « France-Canada : 1-0 » ; « Employeurs-employés : tension perceptible » ou « Employeurs-employés : les syndicats souhaitent le dialogue ». Difficile dans de tels cas de reconnaître automatiquement la structure et de valider le trait d’union.

    Ce sont donc ces considérations qui font que nous avons opté pour la solution décrite ci-dessus, simple et efficace, comme vous le soulignez (je voulais surtout montrer ici le progrès par rapport à la version précédente du correcteur, qui n’essayait pas de régler le problème de France-Canada et soulignait ces structures dans tous les cas; d’autres produits scindent systématiquement les structures avec traits d’union, mais ne voient alors plus les fautes dans « portes-avions » ou « attrapes-mouches », ce qui pose d’autres problèmes). Cela dit, vous avez tout à fait raison de souligner que le lexique doit aussi contenir les entrées avec des traits d’union. Si nous n’avons pas des combinaisons productives comme employeurs-employés ou France-Canada pour toutes les raisons évoquées plus haut, nous avons bien sûr des milliers d’entrées comme porte-avion, tire-fesses, tire-lait, cache-pot… Nous avons d’ailleurs dû procéder à de très nombreuses adaptations pour tenir compte des rectifications orthographiques de l’Académie et permettre les choix d’options décrits ici : http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2005/10/18/482141.aspx ).

    S’agissant des mots composés, nous en avons aussi beaucoup dans nos dictionnaires, mais ils sont surtout utiles pour la correction grammaticale, par exemple pour souligner en vert le mot « jours » dans la phrase suivante et proposer la forme au singulier :

    J’ai installé les mises à jours d’Office 2003.

    A propos, un tout grand merci et félicitations pour votre œil de lynx ! Il y avait bien une faute dans Sakozy, qu’il fallait bien évidemment lire Sarkozy ! Mea culpa ! 🙂 Je l’ai corrigée dans le billet original.

    Encore merci pour vos commentaires très constructifs et bravo pour votre base de données et vos recherches, très utiles ! Et bien le bonjour à votre collaborateur Adrian Toma, que j’ai rencontré à ce congrès à Montréal (http://igm.univ-mlv.fr/~mconstan/events/dltaf06.html) !

    Thierry

    Thierry Fontenelle [MSFT]

    Microsoft Speech & Natural Language Group

  4. Yves La Haye says:

    J’ai installé les mises à jours d’Office 2003 (SP2).

    Pourquoi lors d’une coupure de mot MANUELLE, le correcteur me dit qu’il  y a une erreur.  Lors de la coupure de mot automatique, cette situation ne se produit pas.

    Avant d’installer ce correctif, tout était correct. (Dictionnaire Français-Canada)

  5. Lors de mon passage en Belgique il y a quelques mois, j’ai eu le plaisir de retrouver quelques enseignants

Skip to main content