Algerian Dialect Text Clustering Based On Emotion Detection
Résumé: Actuellement, les médias sociaux sont considérés comme un grand espace pour exprimer des opinions et partager des pensées, Facebook et Twitter sont une riche source d’information qui joue un rôle important dans la société algérienne. Malgré l’existence de nombreuses études qui se sont concentrées sur la classification supervisée de textes pour la langue arabe. le manque d’intérêt des ensembles de données étiquetés pour le dialecte algérien pose un défi. Le but de notre étude est de construire un modèle de clustering de textes dans le contexte de la détection d’émotions dans un texte arabe. Pour l’objectif de notre approche, les tweets utilisés comme données textuelles ont été extraits de Twitter via l’API Twitter pour la région Algérie. Utilisant une technique de Machine Learning (ML) non supervisé pour le traitement du langage naturel(NLP), ce travail est divisé en deux phases principales, la première est le prétraitement dans lequel le texte brut des données est nettoyé pour alimenter la deuxième phase qui est le traitement, dans ce phase, différents algorithmes de clustering sont appliqués sur le texte nettoyé. A l’issue de ce travail, le résultat obtenu est une dataset classé selon le modèle émotionnel d’Ekman en six (06) catégories (Bonheur, Colère, Peur, Surprise, Tristesse, Dégoût). Cet ensemble de données peut être utile pour créer des modèles entraînés pour la détection d’émotions sur les tweets algériens dialectiques.
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!