Accueil / Notes de lecture / Le traitement automatique des langues en question

Le traitement automatique des langues en question

Publié en ligne le 19 mai 2021

Le traitement automatique des langues en question

Des machines qui comprennent le français ?

Marcel Cori

Cassini, 2020, 248 pages, 18 €

Comme plusieurs ouvrages parus récemment chez Cassini, ce livre a pour mérite de rendre accessible un domaine spécialisé de l’enseignement universitaire qui n’est pas forcément connu largement. Il présente en sept chapitres et quelques annexes (une table des matières aurait été utile) une initiation au domaine de la linguistique formelle qui s’est développée en France dans le dernier quart du vingtième siècle, en interaction avec les progrès de la programmation numérique et des algorithmes, avant de reculer un peu devant le développement des sciences cognitives, le traitement des métadonnées ou l’extension du champ de l’information et de la communication. Les principales questions sont abordées dans des termes simples et clairs, parallèlement à une mise en question de la possibilité théorique d’un traitement automatisé du langage humain.

Prenant pour donnée le texte dans sa définition la plus large, Marcel Cori distingue quatre approches différentes dans le traitement automatique des langues (TAL) : la traduction automatique des textes (TA), apparue au milieu du siècle dernier, qui proposa quelques modèles théoriques mais produisit peu de résultats pratiques ; puis les multiples outils informatiques qui servirent au traitement bureautique des textes – mises en forme, correcteurs orthographiques ou stylistiques, dictionnaires numérisés. Avec l’accroissement des mémoires et des réseaux du Web, le TAL développe à la fin du siècle des programmes plus puissants, permettant de fragmenter les textes, de les annoter, d’y appliquer des moteurs de recherche, des programmes statistiques, exécutant des tâches pratiques de résumé, de reconnaissance, d’analyse de contenu, de propriétés linguistiques, d’indexation, de comparaison. Le TAL aborde aussi la question du traitement du sens en termes plus pratiques que théoriques, par des programmes susceptibles de passer d’une expression linguistique à une réponse adéquate, une action, un retour d’information. Pour ce faire, les unités constituant le message linguistique (noms, verbes, adjectifs, mais aussi temps, personne, genre, nombre, modalité…) sont décomposées en unités minimales de sens (traits morphosémantiques) dont la combinaison syntaxique permet de construire le sens complexe des énoncés.

Le sens ainsi calculé peut déclencher un comportement, être stocké en mémoire, trié, comparé, traduit. L’auteur souligne néanmoins que ces « calculs de sens », aussi précis soient-ils, restent loin des nuances et des subtilités présentes dans le moindre énoncé prononcé en situation réelle.

Ces moments correspondent grosso modo aux étapes historiques d’un champ vivant, développé depuis soixante-dix ans sous divers noms dans l’enseignement et la recherche anglo-saxonne et française : Computational Linguistics, Automatic Language Processing, Natural Language Engineering, TA, TAL, TALN (traitement automatisé des langues naturelles), Ingénierie des connaissances, Intelligence artificielle, voire Humanités numériques. Ils témoignent d’une certaine difficulté à s’identifier à un domaine scientifique, évoluant entre les modèles algorithmiques, la linguistique formelle, l’ingénierie informatique, le traitement du signal.

Aussi l’auteur s’attache-t-il à distinguer le TAL théorique et le TAL dit robuste. Le premier s’occupe de l’organisation raisonnée et de l’approfondissement des opérations proprement linguistiques, de la segmentation des textes en unités appropriées, de l’identification des mots, des catégories morphologiques et lexicales. Il s’agit par exemple de regrouper les familles de mots, de décrire les lois qui règlent leurs combinaisons grammaticales et sémantiques dans les diverses langues, bref d’analyser les langues dans leurs spécificités. Le second concerne les tâches techniques visant à obtenir des résultats exploitables, valorisables directement dans des applications ou sur des plates-formes. Cette part technique du TAL s’appuie sur des méthodes stochastiques, parfois élaborées, des automates plus ou moins complexes, ou des étiquetages, permettant d’analyser, de mesurer et de comparer des données linguistiques, en particulier de discours recueillis en corpus structurés.

Les trois derniers chapitres exposent d’une part l’utilisation par le TAL des grammaires formelles, distributionnelles ou arborescentes, modélisations mathématiques élaborées dès les années 1950 par Z. Harris et N. Chomsky, d’autre part l’extension, depuis une trentaine d’années, des travaux d’analyse et de production de connaissances sur de vastes données langagières, sous le nom de « linguistique de corpus », rendue possible par l’accroissement considérable de la mémoire informatique. Il peut alors s’agir de traiter des données sociolinguistiques (variétés sociales d’une même langue), historiques (échantillons prélevés à diverses époques), sociopolitiques (ensemble de discours représentatifs d’idéologies différentes), stylistiques (œuvres d’un ou plusieurs auteurs) permettant d’établir des comparaisons.

Où en est le TAL aujourd’hui ? L’auteur ne cède pas à l’ivresse des grandes données. S’il reconnaît leur capacité à décrire telle propriété, à déclencher tel événement, telle réaction de langage, voire à prédire tel comportement langagier, il reste circonspect sur la capacité théorique à maîtriser dans leur ensemble les mécanismes de construction du sens. Au total, un exposé robuste, illustré par de nombreux exemples, à compléter par des manuels plus détaillés, comme celui de B. Habert, A. Nazarenko et A. Salem (Les linguistiques de corpus, Colin, 1997) et par des articles récents sur les toutes dernières recherches.

Partager cet article

Auteur de la note

Pierre Fiala

Retraité de l’enseignement supérieur et de la recherche, (…)

Plus d'informations

Intelligence Artificielle

L’intelligence artificielle (IA) suscite curiosité, enthousiasme et inquiétude. Elle est présente dans d’innombrables applications, ses prouesses font régulièrement la une des journaux. Dans le même temps, des déclarations médiatisées mettent en garde contre des machines qui pourraient prendre le pouvoir et menacer la place de l’Homme ou, a minima, porter atteinte à certaines de nos libertés. Les performances impressionnantes observées aujourd’hui sont-elles annonciatrices de comportements qui vont vite nous échapper ?