Le cours de Recherche d’Information et textmining porte sur deux axes. Le premier est lié à la représentation du texte. Le second s’intéresse aux systèmes de recherche d’information sur le web. On étudie les spécificités de ces systèmes par rapport aux systèmes de recherche d’information vus dans le premier axe : acquisition des pages web, utilisation de relations entre pages web (approches Hits et Pagerank. A l’issue de ce cours, l’étudiant saura effectuer les opérations de base demandées en recherche de l’information et fouille de textes : représenter des corpus de textes dans un espace vectoriel, comparer des textes deux à deux, appliquer des prétraitements standards (tokenisation, suppression des mots outils, stématisation, etc.). Il sera également en mesure d’appliquer au corpus de texte mis en forme des algorithmes classiques de fouille de données : classification automatique supervisée et non supervisée, analyse factorielle, …
Apprentissage automatique et data mining.
60% examen et 40% travail personnel
Fouille de textes:Méthodes, outils et applications de FideliaIbekwe-SanJuan 2007