Proposition D’un Systeme De Traduction Automatique (anglais-arabe)

2019

Mémoire de Master

ASJP

Informatique

Université Saad Dahleb - Blida

B

Benzeghioua, Rafiq

S

Sifa, Abdelhak

Résumé: La plupart d'entre nous, surtout les jeunes, connaissent la traduction automatique lorsque Google a lancé son célèbre service (Google Translator). Mais ce concept existe depuis le milieu du siècle dernier et constitue l’une des tâches les plus célèbres du traitement automatique de la langue. Lorsque la traduction et la technologie sont mentionnées en même temps, les idées de beaucoup de gens se tournent immédiatement vers la traduction automatique - le processus par lequel le programme informatique traduit le texte d'une langue naturelle à une autre. La traduction automatique existe depuis plus de 50 ans et la qualité de la traduction automatique s'est considérablement améliorée au cours de cette période. Le développement technologique a conduit à l’émergence de nouvelles méthodes de traduction automatique statistique. Paradoxalement, ces modèles statistiques ont été développés pour la première fois dans les années 1980, mais pas assez de données pour l'apprentissage et obtenir des résultats satisfaisants. Notre projet vise à réaliser des expériences sur la traduction automatique, à proposer un modèle statistique de traduction automatique (anglais-arabe) basé sur des phrases, à améliorer la traduction par le biais d'observations expérimentales et à proposer des solutions aux problèmes auxquels nous sommes confrontés. À cet égard, nous proposons l'utilisation de techniques de prétraitement pour la langue arabe en raison de sa complexité morphologique, telle est la segmentation des mots qui vise à séparer les clitiques attachés au mot et séquentiellement la tokenization des mots et des clitiques après la segmentation. Cela a permis de créer un meilleur modèle de langage et de traduction en arabe par rapport à nos expériences précédentes, ce qui a abouti à un modèle avec une traduction relativement bonne. Nous avons également réalisé une amélioration significative de la métrique WER (Word Error Rate) tout en expérimentant l’utilisation de la segmentation des mots dans l’évaluation avec la métrique WER. Mots-clés : Traduction Automatique, Traduction Automatique Statistique, Traitement Automatique de la Langue, Linguistique Informatique. Most of us, especially young people, knew about machine translation when Google introduced its famous service (Google Translator). But the concept has existed since the middle of the last century and its one of the famous tasks in natural language processing. When translation and technology are mentioned at the same time, many people's ideas immediately turn to machine translation - the process by which the computer program translates text from one natural language to another. Machine translation has existed for more than 50 years, and the quality of machine translation output has improved significantly during that period. The technological development has led to the emergence of new ways of statistical machine translation. Paradoxically, these statistical models were developed for the first time in the 1980s, but did not have enough data to train for satisfactory results. Our project aims to perform experiments on machine translation, propose a phrase-based statistical machine translation model (English-Arabic) and try to improve the translation through observations from experiments, and proposing solutions to the problems that we face. In this regard we propose the use of preprocessing techniques for the Arabic language because of its morphological complexity, such, is the word segmentation which aim to separate the clitics attached to the word and sequentially the tokenization of both words and clitics after segmentation. This has helped to create a better Arabic language and translation model compared to our previous experiences, resulting in a model with a relatively good translation. Also we achieved a significant improvement in WER (Word Error Rate) metric while experimenting with the use of word segmentation in the evaluation with WER metric. Keywords: Machine Translation, Statistical Machine Translation, Natural Language Processing, Computational Linguistics, Arabic Morphological Complexity.

Mots-clès:

traduction automatique

traduction automatique statistique

traitement automatique de la langue

linguistique informatique

machine translation

statistical machine translation

natural language processing

computational linguistics

Proposition D’un Systeme De Traduction Automatique (anglais-arabe)

Nos services universitaires et académiques

Aucun fichier associé

Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".

Documents et articles similaires: