BLEU est une métrique automatisée clé en traitement automatique du langage naturel (TALN), utilisée pour évaluer la qualité des traductions automatiques. Qu’est-ce que BLEU ? C’est un score qui mesure la similarité entre un texte traduit par une machine et une ou plusieurs traductions de référence faites par des humains.
Comment fonctionne BLEU ?
BLEU (Bilingual Evaluation Understudy) compare des séquences de mots (n-grammes) de la traduction automatique avec celles des traductions de référence. Imaginez que vous deviez comparer deux puzzles presque identiques : BLEU vérifie combien de pièces du puzzle généré par la machine correspondent aux pièces du puzzle de référence. Plus il y a de correspondances, plus le score BLEU est élevé, indiquant une meilleure qualité de traduction. Le score est compris entre 0 et 1, une valeur proche de 1 étant idéale. BLEU utilise une méthode de précision modifiée pour éviter de surévaluer les traductions courtes qui pourraient avoir un taux de correspondance élevé par hasard, et intègre une pénalité pour les traductions trop courtes.
Pourquoi BLEU est-il important ?
BLEU est un outil essentiel pour les chercheurs et les développeurs en IA. Il permet d’évaluer rapidement et automatiquement les performances des modèles de traduction automatique, facilitant ainsi leur amélioration continue. En fournissant une mesure objective de la qualité, BLEU aide à comparer différentes approches de traduction et à suivre les progrès au fil du temps. Par exemple, si après une modification du code, le score BLEU d’un système de traduction augmente, cela suggère que le changement a amélioré la qualité de la traduction.