Table des matières

La génération automatique de textes

Définition de la notion

La génération automatique de textes (GAT) est une branche du Traitement Automatique des Langues Naturelles (TALN) et une sous discipline de la linguistique informatique. La GAT vise à exprimer sous une forme textuelle, syntaxiquement et sémantiquement correcte une représentation formelle d’un contenu. Ces systèmes informatiques de génération automatique de textes utilisent « les connaissances du langage et d’un domaine d’application pour produire automatiquement des rapports, des documents, (…) des messages d’aide et tout autre type de texte » (Reiter Ehud et Dale Robert, Building Natural Language Generation Systems). La génération automatique est aujourd’hui utilisée dans une variété de secteurs et pour diverses fins : rapports d’entreprise, données médicales, contenus de sites web, textes calibrés pour les réseaux sociaux, données météorologiques, etc.

Mise en perspective

Historique

Bien que la génération automatique de textes soit en plein essor à l’ère de la technologie et d’Internet, il est faux de penser que le phénomène est tout récent. Le projet de la GAT a été abandonné en 1960, puis repris dans les années 1970 dans le but de créer un programme qui réponde à des questions posées. À l’époque, il fallait trois sortes de générateurs différents pour composer soit des phrases simples, un petit paragraphe ou un texte complet. Les chercheurs des années 1970 pensaient qu’une dizaine d’années suffiraient pour que leurs programmes conçoivent des textes dont la qualité était semblable à un humain. Le perfectionnement aura pris plusieurs années de plus, mais regardez où nous en sommes ! Les générateurs automatique de textes en ligne d’aujourd’hui sont faciles d’accès et nous permettent de choisir d’une à cent lignes de texte aléatoire, sans compter les générateurs de contes, de poèmes, d’histoire, etc.

Théorique

Le processus de génération automatique se déroule en trois étapes : la planification du document (document planning ou macro-planning), la micro planification (macro-planning) et la réalisation linguistique. La première se définit par la détermination du contenu et la structuration du document. La seconde est l’agrégation, la lexicalisation et la génération d’expressions de référence. Puis, la dernière étape se caractérise par la réalisation de la structure et la réalisation de la surface. Autrement dit, cet enchaînement peut s’interpréter sous forme de deux questions : « Quoi dire ? » et « Comment le dire ? ». Techniquement, les systèmes de GAT fonctionnent ainsi : ils reçoivent en entrée (input) des données non linguistiques pour ensuite produire en sortie (output) un texte cohérent. La production de textes se base sur un système de représentations informatisées qui, elles, portent sur un domaine donné (constat d’accident, bulletin météo) et dans un genre donné (récit, manuel, dialogue).

Avantages

La génération automatique de textes comporte de nombreux avantages :

Notions corrélées

Exemples / illustrations / ...

À l’ère de la technologie, les auteurs trouvent toutes sortes de façons de se diversifier. Voici un exemple de génération automatique de textes : http://enneagon.org/phrases. Ce site, accessible à tous, possède une base de références composée principalement de romans du XIXe siècle qui lui permet de générer des textes d’une longueur entre une et cent phrases. Seul hic : le générateur est totalement aléatoire, il ne faut donc pas s’attendre à un texte inspirant et pertinent : « Théorème auquel peut servir de commentaire la phrase que vous m'estimiez, que vous ignoriez ma passion, je vis bien que je verserai son sang, délivrée de ses noires prunelles. »

Source de l'image : http://www.ohmybox.info/petite-histoire-de-la-generation-automatique-de-textes/

Exemples convaincants

Exemples liés mais moins parlants

Références critiques


Références

Rédactrices

Caroline Côté-Blais, Claudie Létourneau