Département Informatique MASTER WIC

Recherche de l’Information et TextMining

Course ID
UEM 31
Campus
Département Informatique
Level
Master
Semester
Semestre 3
Credit
4
Method
Cours, TP

Objectifs de l’enseignement:

Le cours de Recherche d’Information et textmining porte sur deux axes. Le premier est lié à la représentation du texte. Le second s’intéresse aux systèmes de recherche d’information sur le web. On étudie les spécificités de ces systèmes par rapport aux systèmes de recherche d’information vus dans le premier axe : acquisition des pages web, utilisation de relations entre pages web (approches Hits et Pagerank. A l’issue de ce cours, l’étudiant saura effectuer les opérations de base demandées en recherche de l’information et fouille de textes : représenter des corpus de textes dans un espace vectoriel, comparer des textes deux à deux, appliquer des prétraitements standards (tokenisation, suppression des mots outils, stématisation, etc.). Il sera également en mesure d’appliquer au corpus de texte mis en forme des algorithmes classiques de fouille de données : classification automatique supervisée et  non  supervisée,  analyse factorielle, …

Connaissances préalables recommandées:

Apprentissage automatique et data mining.

Contenu de la matière :

  • Rappels Fouille de données
  • La recherche de l’information
  • Applications en textmining : Extraction des mots clés, Classification de Texte, L’opinion mining, Web mining, Résumé de texte, Question answering,…
  • La représentation du texte : Mots, N-grams, Stemme, Lemmes, Concepts,…
  • Les prétraitements
  • La réduction
  • Algorithmes d’apprentissage automatique pour la fouille de textes
  • Le language Python et les outils open sources pour le textmining

Les TP se feront en utilisant le langage Python et autres Outils de textmining tel que R, Weka, RapidMiner,…

Mode d’évaluation :

60% examen et 40% travail personnel

Références:

Fouille de textes:Méthodes, outils et applications de FideliaIbekwe-SanJuan 2007