Hervé Cardot

Hervé Cardot Professeur à l’Université de Bourgogne, Institut de Mathématiques de Bourgogne, Dijon, France

Titre: ACP robuste en ligne

Résumé : Avec le développement des capteurs automatiques (smart meters, box internet, capteurs de température, ...) il est en de  plus en plus fréquent d'avoir à analyser en un temps limité de très  grands échantillons de données multidimensionnelles. Les approches récursives, qui sont extrêmement rapides et  permettent par construction une mise à jour automatique des  quantités estimées lorsque les données arrivent en ligne, sont alors de bons candidats dans ce contexte de données massives. Lorsqu’on s’intéresse à des indicateurs de position et de  dispersion, on pense naturellement à utiliser la moyenne et la  matrice de variance covariance. Ces indicateurs peuvent être mis à jour simplement lors les données arrivent de manière séquentielle  (en ligne) et ne nécessitent donc pas de stocker toutes les  observations en mémoire. Leur défaut majeur est qu’ils sont très peu robustes, c’est à dire qu'ils sont très sensibles aux points atypiques (erreur de mesure, de  population échantillonnée, …) et, qu’en grande dimension, la détection de tels points n’est pas facile. Nous proposons dans cet exposé de construire des estimateurs de  position centrale (via la médiane géométrique) et de dispersion multivariée (via la median covariation matrix) qui gardent les mêmes propriétés de récursivité (mise à jour automatique sans  nécessiter de stocker toutes les données en mémoire) tout en étant  robustes. Ces techniques sont comparées avec les approches classiques robustes sur des données simulées et réelles.

Références :

Cardot, H. and Godichon-Baglioni, A. (2017). Fast Estimation of the Median Covariation Matrix with Application to Online Robust  Principal Components Analysis. A paraitre dans TEST.

Cardot, H., Cénac, P., and Zitt, P.-A. (2013). Efficient and fast estimation of the geometric median in Hilbert spaces with an averaged stochastic gradient algorithm. Bernoulli, 19, 18-43.

Biographie : Professeur à l’Université de Bourgogne, Institut de Mathématiques  de Bourgogne, Dijon, a débuté sa carrière comme chargé de recherche à l’INRA, à  Toulouse de 1998 à 2005 puis à Dijon de 2005 à 2007 et a ensuite été recruté comme Professeur à l’Université de Bourgogne en 2007. Ses centres d’intérêt sont la statistique des données  fonctionnelles, les questions de robustesse en grande dimension et  la théorie des sondages.

Top