Statistiques en grande dimension
Niveau M1
"À l'issue de ce module, les étudiants sauront :
- Comprendre les problèmes principaux posés par la grande dimension en statistique ("fléau de la dimensionnalité"), ainsi que les nombreux bienfaits de la grande dimension ("bénédiction de la dimensionnalité").
- Sélectionner des modèles statistiques pertinents en grande dimension : sparsité, structure de type faible rang, choix du type de régularisation.
- Analyser la performance statistique des principaux estimateurs utilisés en grande dimension.
- Implémenter ces méthodes à l'aide de librairies Python, et évaluer la qualité des estimateurs entraînés."

Badr-Eddine Cherief-Abdellatif
1. MLE en grande dimension
- Régression linéaire avec bruit normalement distribué
- Forme vectorielle
- Régression logistique
- Distribution du MLE en régression linéaire avec bruit normal
- Perte euclidienne quadratique du MLE
- Asymptotiques : séquence de problèmes de régression, croissance de p;n
- Que se passe-t-il si p > n ? Unicité et autres phénomènes
2. Réduction et phénomène de Stein : sous-optimalité du MLE
- Modèle de séquence gaussienne
- Estimateur admissible
- MLE dans le modèle de séquence gaussienne
- Exemple : réduction par une constante multiplicative
- Lien avec la régression
- Exemple : k-plus proches voisins
- Exemple : régression Ridge
- Décomposition biais-variance pour les estimateurs linéaires
- Minimisation du risque empirique pour les estimateurs linéaires
- Un sous-modèle fournit-il un meilleur ajustement ? Critère d'information d'Akaike
- Réduction de données pilotée par les données : estimateur de James-Stein
- Intégration gaussienne par parties
- Estimation du risque sans biais de Stein
- Si la dimension est 3 ou plus, le MLE peut être amélioré uniformément pour tous les moyens inconnus
3. Systèmes linéaires sous-déterminés et parcimonie
- Reconstruction sans bruit et systèmes linéaires
- Système sous-déterminé
- Systèmes linéaires aléatoires
- Parcimonie
- Recherche exhaustive
- Poursuite de base (BP)
- Quand BP est-il réussi ? La transition de phase de Donoho-Tanner
- Nombre de mesures et degrés de liberté
4. Systèmes linéaires sous-déterminés et matrices de faible rang
- Exemples
- Recherche exhaustive de faible rang
- Normes de matrices
- Degrés de liberté des matrices de rang r
- Minimisation de la norme nucléaire
- Évasion de Gordon à travers un maillage pour les matrices
- Lemmata techniques
- Norme opérateur attendue des matrices gaussiennes
- Nombre suffisant de mesures gaussiennes pour la récupération de matrices de faible rang
5. Apprentissage supervisé en grande dimension
- M-estimateurs
- M-estimateurs régularisés
- Exemples célèbres
Algèbre linéaire
- Théorème spectral
- Décomposition en valeurs singulières (SVD)
- Pseudo-inverse
Préliminaires en probabilité
- Vecteurs gaussiens
- Matrices de Wishart
- Trace et espérance
- Lemme de Slepian, lemme de Gordon et conséquences
