Le Recall-Oriented Understudy for Gisting Evaluation (ROUGE) est une famille de métriques utilisée en traitement automatique du langage naturel (TALN) pour évaluer la qualité des résumés générés automatiquement. Qu’est-ce que Recall-Oriented Understudy for Gisting Evaluation ? Il s’agit d’un ensemble de métriques qui comparent un résumé généré par une machine à un ou plusieurs résumés de référence rédigés par des humains, en se concentrant sur la présence d’éléments importants.
Comment fonctionne Recall-Oriented Understudy for Gisting Evaluation ?
ROUGE calcule le chevauchement entre les unités textuelles (comme les N-grammes, c’est-à-dire les séquences de N mots) du résumé généré et celles des résumés de référence. Différentes variantes de ROUGE existent (ROUGE-N, ROUGE-L, ROUGE-S) et se concentrent sur différents aspects du chevauchement : les correspondances de N-grammes exacts, la plus longue sous-séquence commune ou les skip-bigrammes (paires de mots qui peuvent être séparés par d’autres mots). Imaginez que vous deviez résumer un article de presse. ROUGE compare votre résumé à un résumé idéal fait par un expert. Plus votre résumé contient d’éléments importants présents dans le résumé idéal, meilleur sera votre score ROUGE. L’accent est mis sur le recall, c’est-à-dire sur la capacité du système à retrouver les informations importantes du texte original.
Pourquoi Recall-Oriented Understudy for Gisting Evaluation est-il important ?
ROUGE est un outil essentiel en IA et en prompt engineering car il permet d’évaluer et d’améliorer les performances des modèles de résumé automatique. Il fournit une mesure quantitative de la qualité d’un résumé, permettant ainsi de comparer différentes approches et d’optimiser les prompts pour obtenir des résumés plus précis et complets. Par exemple, en évaluant les résumés générés avec ROUGE, on peut ajuster les instructions données à un modèle pour qu’il se concentre davantage sur les informations clés d’un texte.