Technique De Bio-mining Pour La Représentation, La Gestion Et L'extraction Des Informations Associées Aux Séquences D'adn

2011

Mémoire de Magister

ASJP

Informatique

Université Ahmed Ben Bella - Oran 1

N

Non Identifié

Résumé: Un des problèmes majeurs rencontré par les biologistes, est l'extraction et l'exploitation des données qui les intéressent à travers les multiples ressources disponibles sur le Web. Ce problème n'est pas simple en raison de la multiplicité des ressources, l'hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l'extraction de données particulières apporterait une solution à ce problème. Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas d'application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge d'informations et à faciliter la découverte de connaissances cachées dans les documents. En effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et écrites en langage naturel à partir desquelles il s'agit d'extraire les éléments susceptibles de constituer des connaissances pertinentes de telle sorte qu'un biologiste puisse obtenir des réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une telle extraction : L'approche linguistique basée sur la définition de patrons lexico syntaxiques. L'approche statistique basée sur la découverte des termes-clés. Dans le contexte de notre application qui vise à exploiter les informations en langage naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit quatre ontologies à partir de termes extraits afin de représenter les connaissances associées aux séquences issues des deux champignons modèles Neurospora crassa et Podospora anserina. Enfin, avec l'utilisation du clustering, nous montrons comment les termes des ontologies obtenues peuvent être exploités pour l'évaluation du niveau d'expression des gènes.

Mots-clès:

fouilles de textes

ontologie

corpus de textes

extraction terminologique

champignons modèles

neurospora crassa

podospora anserina

expressed sequence tags (est)

clustering

Publié dans la revue:

Technique De Bio-mining Pour La Représentation, La Gestion Et L'extraction Des Informations Associées Aux Séquences D'adn

Nos services universitaires et académiques

Aucun fichier associé

Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".

Documents et articles similaires: