Recherche de l’Information et TextMining

Course ID

UEM 31

Campus

Département Informatique

Level

Master

Semester

Semestre 3

Credit

Method

Cours, TP

Objectifs de l’enseignement:

Le cours de Recherche d’Information et textmining porte sur deux axes. Le premier est lié à la représentation du texte. Le second s’intéresse aux systèmes de recherche d’information sur le web. On étudie les spécificités de ces systèmes par rapport aux systèmes de recherche d’information vus dans le premier axe : acquisition des pages web, utilisation de relations entre pages web (approches Hits et Pagerank. A l’issue de ce cours, l’étudiant saura effectuer les opérations de base demandées en recherche de l’information et fouille de textes : représenter des corpus de textes dans un espace vectoriel, comparer des textes deux à deux, appliquer des prétraitements standards (tokenisation, suppression des mots outils, stématisation, etc.). Il sera également en mesure d’appliquer au corpus de texte mis en forme des algorithmes classiques de fouille de données : classification automatique supervisée et non supervisée, analyse factorielle, …

Connaissances préalables recommandées:

Apprentissage automatique et data mining.

Contenu de la matière :

Rappels Fouille de données
La recherche de l’information
Applications en textmining : Extraction des mots clés, Classification de Texte, L’opinion mining, Web mining, Résumé de texte, Question answering,…
La représentation du texte : Mots, N-grams, Stemme, Lemmes, Concepts,…
Les prétraitements
La réduction
Algorithmes d’apprentissage automatique pour la fouille de textes
Le language Python et les outils open sources pour le textmining

Les TP se feront en utilisant le langage Python et autres Outils de textmining tel que R, Weka, RapidMiner,…

Mode d’évaluation :

60% examen et 40% travail personnel

Références:

Fouille de textes:Méthodes, outils et applications de FideliaIbekwe-SanJuan 2007