1. Introduction Générale
La prévision des ventes constitue un enjeu stratégique majeur dans le secteur du retail. Elle permet d'optimiser la gestion des stocks, de minimiser les ruptures et les surstocks, et d'améliorer la planification opérationnelle. Dans un contexte de grande distribution, où des milliers de produits sont vendus quotidiennement dans de multiples points de vente, la capacité à anticiper précisément la demande devient un avantage compétitif déterminant.
Le problème de prévision des ventes s'inscrit dans le domaine des séries temporelles et nécessite de traiter des données transactionnelles caractérisées par une forte saisonnalité, des tendances temporelles, et des comportements non-linéaires complexes. Les données retail présentent également des défis spécifiques : distributions asymétriques, présence de nombreux zéros (produits non vendus certains jours), et hétérogénéité importante entre les produits et les magasins.
Importance de la comparaison de modèles
La comparaison rigoureuse de plusieurs familles de modèles constitue une étape centrale en data science. Elle permet de :
• Établir un baseline de référence pour quantifier l'apport réel du machine learning
• Identifier les compromis entre performance prédictive, complexité et temps de calcul
• Sélectionner le modèle le plus adapté au contexte métier et aux contraintes de production
• Justifier scientifiquement les choix techniques auprès des parties prenantes
Les compétitions Kaggle, et notamment la compétition Corporación Favorita Grocery Sales Forecasting, offrent un cadre standardisé permettant de comparer objectivement différentes approches méthodologiques. Ces compétitions reflètent des problématiques industrielles réelles et ont contribué à établir les meilleures pratiques en matière de forecasting retail. Les solutions gagnantes combinent généralement feature engineering sophistiqué, ensembles de modèles, et métriques d'évaluation adaptées aux spécificités du domaine.
2. Présentation de la Base de Données Finale
La performance d’un modèle de prévision des ventes dépend autant du choix de l’algorithme que de la qualité de la base de données utilisée. Une attention particulière a donc été portée au feature engineering, à la transformation de la variable cible et à l’intégration de variables exogènes pertinentes (calendrier, économie, événements).
Objectif de la construction de la base
Construire une base riche, stable et économiquement interprétable, capable de capturer à la fois :
• les dynamiques temporelles des ventes
• les effets retardés (lags)
• les chocs exogènes (pétrole, jours fériés, promotions)
• l’hétérogénéité produits / magasins
2.1 🎯 Variable Cible (Target)
unit_sales_win — Nombre d’unités vendues
La variable cible représente le nombre d’unités vendues par produit–magasin–jour. Étant fortement asymétrique et sujette à des valeurs extrêmes, elle a subi deux transformations successives.
1️⃣ Winsorisation
Les valeurs extrêmes ont été plafonnées entre le 5e et le 99.5e percentile. Cette opération permet de :
• réduire l’influence disproportionnée des outliers
• stabiliser l’apprentissage des modèles
• préserver l’information globale sans supprimer d’observations
2️⃣ Transformation Logarithmique
La transformation log1p réduit l’asymétrie de la distribution, stabilise la variance et rend la cible plus compatible avec les hypothèses des modèles (en particulier linéaires et boosting).
2.2 📊 Variables Explicatives (Features)
🕒 Variables Temporelles
Issues directement de la date, ces variables permettent de capturer la saisonnalité, les cycles hebdomadaires et les effets calendaires sur la demande.
• day : jour du mois (1–31)
• month : mois de l’année (1–12)
• day_of_week : jour de la semaine (1 = lundi, 7 = dimanche)
• is_weekend : indicateur de week-end
• is_payday : jour de paie (15 ou fin de mois)
• is_holiday_event : indicateur de jour férié ou événement
🛢️ Variables Économiques – Prix du Pétrole
L’économie équatorienne étant fortement dépendante du pétrole, ces variables capturent des effets macroéconomiques indirects sur les coûts logistiques et la consommation.
• dcoilwtico : prix journalier du pétrole brut (WTI)
• oil_smooth_7d : moyenne mobile sur 7 jours (lissage)
• oil_lag_10 : prix du pétrole avec un retard de 10 jours
🎉 Vacances et Événements
Les événements et jours fériés influencent directement les comportements d’achat selon leur portée géographique.
• n_events_total : nombre total d’événements actifs
• n_loc : événements locaux
• n_reg : événements régionaux
• n_states_affected : nombre d’États impactés
• n_cities_affected : nombre de villes impactées
📈 Historique des Ventes (Lags & Fenêtres)
Ces variables capturent la dépendance temporelle des ventes, essentielle pour modéliser l’inertie et la dynamique de la demande.
• sales_lag_16 / 21 / 28 : ventes passées (effet mémoire)
• sales_roll_mean_7 / 28 : tendance récente des ventes
• sales_roll_std_7 : volatilité à court terme
• unit_sales_win : ventes normalisées (stabilisation des extrêmes)
🏷️ Encodage des Variables Catégorielles (Target Encoding)
Les variables catégorielles sont transformées en valeurs numériques via leur niveau moyen historique de ventes, réduisant la dimensionnalité tout en conservant l’information.
• store_nbr_target_enc
• item_nbr_target_enc
• family_target_enc
• city_target_enc
• cluster_target_enc
• type_target_enc
🏪 Informations Produits & Magasins
Ces variables décrivent la structure du produit et du point de vente, ainsi que l’intensité de l’activité commerciale.
• store_nbr : identifiant du magasin
• item_nbr : identifiant du produit
• family : catégorie du produit
• class : classe numérique du produit
• type : type de magasin
• city / state / cluster : localisation géographique
• onpromotion : indicateur de promotion
• perishable : produit périssable
• transactions : volume d’activité du magasin
Résultat Final
La base finale repose sur 41 variables explicatives, combinant signaux temporels, économiques, événementiels, historiques et structurels. Cette architecture assure un excellent équilibre entre richesse informationnelle, robustesse statistique et performance prédictive, parfaitement adaptée à un modèle de type LightGBM en production.
3. Modèles Testés
3.1 Baseline : Moyenne Mobile
Principe théorique
La moyenne mobile à 7 jours calcule la prévision comme la moyenne arithmétique des ventes observées sur les 7 derniers jours. Pour un jour t, la prévision est donnée par :
Rôle fondamental du baseline
Le baseline n'est pas un simple point de départ : il constitue une référence critique qui permet de mesurer objectivement la valeur ajoutée des modèles de machine learning. Un modèle complexe qui ne surpasse pas significativement un baseline simple ne justifie pas son déploiement en production. Dans le contexte retail, la moyenne mobile capture naturellement la tendance récente et constitue une prévision raisonnable en l'absence d'événements exceptionnels.
Avantages
• Simplicité d'implémentation et d'interprétation
• Aucun entraînement nécessaire
• Robustesse aux outliers temporaires
• Latence minimale en production
Limites
• Incapacité à capturer les tendances de long terme
• Absence de prise en compte de la saisonnalité hebdomadaire ou mensuelle
• Pas d'intégration de features exogènes (promotions, jours fériés)
• Performance dégradée lors d'événements exceptionnels
3.2 Modèles Linéaires
Principe théorique général
Les modèles linéaires supposent une relation linéaire entre les features X et la variable cible y. Le modèle s'exprime sous la forme :
où les coefficients β sont estimés en minimisant une fonction de perte, généralement l'erreur quadratique moyenne (MSE).
Régression Linéaire (Ordinary Least Squares)
La régression linéaire classique minimise directement la somme des carrés des résidus sans contrainte sur les coefficients. Elle fournit une solution analytique mais est sensible à la multicolinéarité et au sur-apprentissage lorsque le nombre de features est élevé.
Ridge Regression (Régularisation L2)
Ridge ajoute une pénalité L2 sur la norme des coefficients à la fonction de perte :
Le paramètre λ contrôle l'intensité de la régularisation. Ridge réduit la variance du modèle en "rétrécissant" les coefficients vers zéro sans les annuler complètement, ce qui améliore la généralisation sur des données non vues.
Lasso Regression (Régularisation L1)
Lasso utilise une pénalité L1 :
Contrairement à Ridge, Lasso peut annuler complètement certains coefficients, effectuant ainsi une sélection automatique de features. Cette propriété est particulièrement utile lorsque de nombreuses features sont faiblement corrélées à la cible.
ElasticNet
ElasticNet combine les pénalités L1 et L2 :
Cette combinaison permet de bénéficier à la fois de la sélection de features de Lasso et de la stabilité de Ridge, particulièrement efficace en présence de groupes de features corrélées.
Biais-Variance Tradeoff
La régularisation illustre le compromis fondamental entre biais et variance : en ajoutant du biais (via la contrainte sur les coefficients), on réduit la variance et donc le risque de sur-apprentissage. Le choix de λ détermine ce compromis et doit être optimisé par validation croisée.
Avantages pour le forecasting retail
• Interprétabilité élevée des coefficients
• Entraînement rapide même sur de grands datasets
• Robustesse avec régularisation appropriée
• Gestion efficace de la multicolinéarité
Limites
• Hypothèse de linéarité souvent violée dans les données retail
• Incapacité à capturer les interactions complexes entre features
• Performance limitée face à des patterns non-linéaires (saisonnalité, promotions)
• Nécessite un feature engineering poussé pour compenser les limitations
3.3 Modèles Basés sur les Arbres
Decision Tree (Arbre de Décision)
Un arbre de décision partitionne récursivement l'espace des features en régions homogènes. À chaque nœud, l'algorithme sélectionne la feature et le seuil qui maximisent une mesure de pureté (réduction de variance pour la régression). La prévision pour une observation correspond à la moyenne des valeurs cibles dans la feuille terminale atteinte.
Bien que les arbres individuels capturent naturellement les non-linéarités et les interactions, ils souffrent de forte variance : de petites variations dans les données d'entraînement peuvent produire des arbres très différents. Cette instabilité limite leur utilisation isolée en production.
Random Forest
Random Forest implémente le principe du bagging (Bootstrap Aggregating) appliqué aux arbres de décision. L'algorithme construit un ensemble de B arbres sur des échantillons bootstrap des données d'entraînement, en introduisant une randomisation supplémentaire lors du choix des features à chaque split.
où Tb(x) est la prévision du b-ième arbre.
Réduction de la variance par bagging
Le bagging réduit la variance sans augmenter le biais en moyennant les prévisions de multiples modèles faiblement corrélés. Mathématiquement, si chaque arbre a une variance σ² et que les arbres sont décorrélés, la variance de l'ensemble est σ²/B. En pratique, la corrélation résiduelle limite cette réduction, d'où l'importance de la randomisation des features.
Gestion des non-linéarités
Les modèles à base d'arbres excellent dans la capture de relations non-linéaires complexes et d'interactions d'ordre élevé sans nécessiter de feature engineering explicite. Pour le retail, cela permet de modéliser naturellement des phénomènes tels que l'impact différencié des promotions selon le type de produit, le jour de la semaine ou la saison.
Avantages
• Capture automatique des non-linéarités et interactions
• Robustesse aux outliers et aux features non normalisées
• Peu sensible aux transformations monotones des features
• Fourniture de mesures d'importance des features
Limites
• Temps d'entraînement élevé pour de grands ensembles d'arbres
• Taille importante du modèle en mémoire
• Interprétabilité réduite comparée aux modèles linéaires
• Risque de sur-apprentissage si les arbres ne sont pas suffisamment régularisés
3.4 Gradient Boosting : LightGBM
Principe du Gradient Boosting
Le Gradient Boosting construit séquentiellement un ensemble de modèles faibles (généralement des arbres peu profonds) où chaque nouveau modèle corrige les erreurs des modèles précédents. À l'itération m, le modèle ajusté est :
où hm est un nouvel arbre entraîné sur le gradient négatif de la fonction de perte, et ν est le learning rate qui contrôle la contribution de chaque arbre.
Spécificités de LightGBM
Histogram-based learning : LightGBM discrétise les features continues en histogrammes (bins), réduisant drastiquement la complexité de recherche des meilleurs splits. Cette approche accélère l'entraînement de plusieurs ordres de grandeur tout en préservant la qualité prédictive.
Leaf-wise growth : Contrairement aux approches level-wise (XGBoost), LightGBM croît les arbres en choisissant la feuille qui maximise la réduction de perte, indépendamment du niveau de profondeur. Cette stratégie permet d'obtenir des arbres plus asymétriques mais souvent plus précis avec moins de feuilles.
Gradient-based One-Side Sampling (GOSS) : LightGBM échantillonne de manière non uniforme les observations, en conservant toutes celles avec de grands gradients (erreurs importantes) et en sous-échantillonnant les autres. Cette technique maintient la qualité de l'information tout en réduisant le coût computationnel.
Exclusive Feature Bundling (EFB) : Les features mutuellement exclusives (qui ne prennent jamais de valeurs non-nulles simultanément) sont regroupées pour réduire la dimensionnalité effective, particulièrement efficace avec les encodages one-hot.
Pourquoi LightGBM pour le retail ?
Les datasets retail présentent typiquement des millions d'observations (transactions journalières sur de multiples produits et magasins) et des centaines de features (caractéristiques produits, magasins, calendrier, lags, statistiques roulantes). LightGBM est spécifiquement conçu pour ces situations de haute dimensionnalité :
• Scalabilité : Temps d'entraînement linéaire ou sub-linéaire par rapport au nombre d'observations
• Efficacité mémoire : Consommation RAM réduite grâce aux histogrammes
• Performance : Obtient régulièrement les meilleurs scores sur les compétitions Kaggle retail
• Flexibilité : Support natif de fonctions de perte personnalisées et de features catégorielles
Comparaison avec XGBoost et CatBoost
XGBoost utilise une stratégie level-wise et une recherche exacte ou approximative des splits. Bien qu'historiquement le standard du gradient boosting, il est généralement plus lent que LightGBM sur de grands datasets, bien que parfois légèrement plus précis sur de petits datasets structurés.
CatBoost excelle dans le traitement des features catégorielles via un encodage sophistiqué (ordered target statistics). Il offre également une bonne robustesse aux hyperparamètres par défaut. Cependant, son temps d'entraînement est souvent supérieur à LightGBM, et ses performances prédictives sont comparables dans la plupart des cas.
Pour le forecasting retail à grande échelle, LightGBM représente généralement le meilleur compromis performance/vitesse, expliquant sa popularité dans l'industrie et les compétitions.
Avantages
• Performances prédictives state-of-the-art sur données tabulaires
• Temps d'entraînement et d'inférence très compétitifs
• Gestion native des valeurs manquantes
• Régularisation efficace contre le sur-apprentissage
• Parallélisation optimisée (CPU et GPU)
Limites
• Sensibilité aux hyperparamètres (nécessite tuning soigneux)
• Risque de sur-apprentissage si mal configuré
• Interprétabilité globale limitée (modèles ensemblistes complexes)
• Peut sous-performer sur de très petits datasets
4. Métriques d'Évaluation
4.1 NWRMSLE (Normalized Weighted Root Mean Squared Logarithmic Error)
Formule mathématique
où :
• yi représente les ventes réelles
• ŷi représente les prévisions
• wi sont les poids associés à chaque observation
• log désigne le logarithme naturel
Interprétation économique
La transformation logarithmique rend la métrique sensible aux erreurs relatives plutôt qu'absolues. Une erreur de 10 unités sur une prévision de 20 unités est pénalisée plus sévèrement qu'une erreur de 10 unités sur une prévision de 1000 unités. Cette propriété est cruciale en retail où :
• Les produits à faible volume méritent une attention proportionnelle (rupture coûteuse même pour peu d'unités)
• La comparaison entre produits de volumes très différents devient équitable
• Les performances sur l'ensemble du catalogue sont mieux évaluées
L'ajout de +1 avant le logarithme évite les problèmes mathématiques avec les ventes nulles (log(0) non défini) et atténue l'impact disproportionné des très petites valeurs.
Usage dans Kaggle Favorita
La compétition Favorita utilisait le NWRMSLE avec des poids wi reflétant l'importance stratégique de certains produits ou magasins. Cette métrique encourage les modèles à bien performer sur l'ensemble du portefeuille produits plutôt que de se spécialiser sur les best-sellers, alignant ainsi les objectifs de modélisation avec les impératifs business.
Sensibilité aux faibles volumes
Pour les produits à très faible rotation (ventes proches de zéro), le NWRMSLE peut devenir instable. Des stratégies de traitement spécifiques (seuils minimaux, agrégation temporelle) sont souvent nécessaires pour équilibrer précision et stabilité.
4.2 MAE (Mean Absolute Error)
Formule
Avantages en termes d'interprétation métier
Le MAE est directement interprétable dans l'unité de mesure originale (unités vendues). Une MAE de 15 signifie qu'en moyenne, les prévisions s'écartent de 15 unités des ventes réelles. Cette transparence facilite la communication avec les équipes opérationnelles non techniques.
Contrairement au RMSE (Root Mean Squared Error), le MAE est moins sensible aux outliers car il ne quadratique pas les erreurs. Dans le retail où des pics de demande sporadiques sont fréquents (promotions exceptionnelles, événements locaux), cette robustesse est appréciable.
Limites dans le cas de séries hétérogènes
Le MAE traite toutes les erreurs de manière égale, indépendamment du volume de ventes. Une erreur de 50 unités impacte identiquement le MAE qu'elle concerne un produit vendant 100 unités/jour ou 10 000 unités/jour. Cette indifférence à l'échelle rend le MAE peu adapté à l'évaluation globale sur un catalogue hétérogène.
Pour pallier cette limitation, on peut calculer des MAE par segments (catégories produits, magasins) ou utiliser le MAPE (Mean Absolute Percentage Error), bien que ce dernier souffre de problèmes de division par zéro pour les faibles volumes.
4.3 Temps de Calcul
Importance en production
Le temps de calcul ne se limite pas à l'entraînement : il englobe également l'inférence (génération de prévisions), le feature engineering, et les opérations de maintenance du modèle. En production retail, les prévisions doivent souvent être actualisées quotidiennement pour des milliers de combinaisons produit-magasin.
Un modèle nécessitant 10 heures d'entraînement quotidien peut bloquer les fenêtres de maintenance et retarder la mise à disposition des prévisions aux équipes opérationnelles. L'infrastructure technique (serveurs, coûts cloud) et l'agilité business (capacité à réentraîner rapidement suite à un changement) dépendent directement de cette métrique.
Arbitrage performance prédictive vs coût computationnel
Un modèle complexe améliorant le NWRMSLE de 0.5% mais nécessitant 20 fois plus de temps de calcul n'est généralement pas justifié économiquement. L'analyse coût-bénéfice doit intégrer :
• Le gain business marginal d'une meilleure prévision
• Les coûts d'infrastructure supplémentaires
• La complexité de maintenance et de debugging
• Les risques opérationnels (latence, défaillances)
La courbe de Pareto performance/temps guide typiquement vers des modèles offrant 80-90% de la performance maximale théorique avec une fraction du coût computationnel.
5. Bonnes Pratiques Méthodologiques
5.1 Importance du Baseline
Débuter systématiquement par un baseline simple est une discipline fondamentale en data science. Le baseline remplit trois fonctions critiques :
Ancrage de référence : Il quantifie la difficulté intrinsèque du problème et le niveau de performance "gratuit" accessible sans modélisation complexe.
Validation de la valeur ajoutée : Si un modèle sophistiqué ne surpasse pas significativement le baseline, cela indique soit un problème de modélisation, soit l'absence de signal exploitable dans les données.
Solution de secours : En cas de défaillance du système ML en production, le baseline peut servir de fallback garantissant une continuité de service minimale.
5.2 Validation Temporelle
Les séries temporelles violent l'hypothèse i.i.d. (indépendante et identiquement distribuée) sous-jacente à la validation croisée classique. Une approche time-series split doit être adoptée :
Cette séparation strictement temporelle simule la réalité opérationnelle : le modèle est entraîné sur le passé et doit prédire le futur. Elle prévient le data leakage temporel et fournit une estimation réaliste de la performance en production.
Pour augmenter la robustesse de l'évaluation, une validation croisée temporelle avec fenêtres glissantes (rolling origin) peut être implémentée, testant le modèle sur plusieurs périodes futures successives.
5.3 Risques de Data Leakage
Le data leakage, particulièrement insidieux dans les séries temporelles, peut créer une illusion de performance élevée qui s'effondre en production. Les sources principales sont :
Leakage temporel : Utilisation d'informations futures dans les features (ex : statistiques calculées sur l'ensemble du dataset incluant les périodes de test).
Leakage via la target : Features directement dérivées de la variable cible (ex : ratio calculé avec les ventes du jour à prédire).
Leakage via normalisation globale : Standardisation calculée sur train+test puis appliquée, incorporant des statistiques futures.
Prévention : Toute transformation (imputation, normalisation, feature engineering) doit être ajustée uniquement sur le set d'entraînement puis appliquée aux autres sets. Les pipelines scikit-learn garantissent cette discipline si correctement utilisés.
5.4 Séparation Entraînement / Validation / Test
La séparation tripartite des données est une protection fondamentale contre le sur-apprentissage et la sélection biaisée de modèles :
Set d'entraînement (60-70%) : Utilisé pour l'ajustement des paramètres du modèle (poids, coefficients).
Set de validation (15-20%) : Utilisé pour le tuning des hyperparamètres et la sélection entre modèles concurrents. Ce set guide les décisions méthodologiques.
Set de test (15-20%) : Utilisé une seule fois, après finalisation complète du modèle, pour estimer la performance réelle en conditions opérationnelles. Ce set ne doit JAMAIS influencer les choix de modélisation.
La contamination du test (utilisation répétée pour comparer des variantes) transforme de facto ce set en validation supplémentaire, biaisant à la hausse l'estimation de performance. La discipline de n'évaluer sur le test qu'une fois le modèle totalement figé est absolument critique pour la crédibilité scientifique du projet.
Conclusion
Ce projet de prévision des ventes retail, inspiré de la compétition Kaggle Favorita, illustre une démarche méthodologique rigoureuse de sélection et d'évaluation de modèles de machine learning. La comparaison systématique de multiples approches, du baseline simple (moyenne mobile) aux techniques de gradient boosting avancées (LightGBM), a permis d'identifier le modèle optimal selon un ensemble de critères techniques et business.
Enseignements Clés
1. La supériorité du gradient boosting sur les données tabulaires retail est confirmée, avec LightGBM obtenant les meilleures performances (NWRMSLE: 0.398, MAE: 7.82) tout en restant computationnellement efficient (156s d'entraînement).
2. L'importance du compromis performance-complexité : Un modèle n'est pertinent pour la production que s'il offre un gain prédictif significatif justifiant son coût additionnel en ressources et en maintenance.
3. La nécessité d'une évaluation multicritère : La décision ne peut reposer uniquement sur une métrique prédictive mais doit intégrer temps de calcul, interprétabilité, robustesse, et alignement avec les contraintes opérationnelles.
4. L'indispensabilité des bonnes pratiques : Baseline rigoureux, validation temporelle stricte, prévention du leakage, et séparation train/validation/test constituent les fondations d'un projet ML crédible et reproductible.
Ouvertures et Perspectives
Feature Engineering Avancé : L'amélioration des performances passe souvent davantage par l'ingénierie de features que par le changement de modèle. Des pistes incluent : agrégations temporelles multi-échelles, encodages de cyclicité (Fourier features), interactions explicites entre catégories, embedding de produits similaires, et incorporation de données externes (météo, événements locaux, concurrence).
Modèles Hybrides : L'approche ensembliste combinant les prédictions de plusieurs modèles complémentaires (stacking, blending) peut exploiter les forces respectives des différentes familles. Par exemple, un ensemble LightGBM + CatBoost + Neural Network peut capturer des patterns que chaque modèle individuellement manquerait.
Deep Learning pour le Forecasting : Les architectures récentes (Transformers temporels, N-BEATS, DeepAR) montrent des résultats prometteurs sur certains problèmes de séries temporelles complexes. Bien que gourmandes en données et en calcul, elles méritent exploration pour des datasets de très grande échelle ou lorsque des patterns complexes de long terme sont suspectés.
Prévision Probabiliste : Au-delà des prévisions ponctuelles, les modèles fournissant des intervalles de confiance ou des distributions complètes (quantile regression, modèles bayésiens) apportent une information précieuse pour la gestion du risque et l'optimisation sous incertitude.
AutoML et Optimisation d'Hyperparamètres : Les frameworks d'AutoML (Optuna, Ray Tune, AutoGluon) peuvent automatiser et améliorer le tuning des hyperparamètres, libérant du temps data scientist pour des tâches à plus forte valeur ajoutée.
La prévision des ventes demeure un domaine de recherche et d'innovation actif, où les avancées méthodologiques se traduisent directement en impact business mesurable. L'adoption de LightGBM comme standard industriel reflète l'état de l'art actuel, mais l'évolution continue des techniques et des outils promet des améliorations futures substantielles.
Références
- LightGBM Documentation Officielle
Microsoft Research. "LightGBM: A Highly Efficient Gradient Boosting Decision Tree."
https://lightgbm.readthedocs.io/ - Ke, G., Meng, Q., Finley, T., et al. (2017)
"LightGBM: A Highly Efficient Gradient Boosting Decision Tree."
Advances in Neural Information Processing Systems 30 (NIPS 2017) - Kaggle Competition: Corporación Favorita Grocery Sales Forecasting
"Can you accurately predict sales for a large grocery chain?"
https://www.kaggle.com/c/favorita-grocery-sales-forecasting - Chen, T., & Guestrin, C. (2016)
"XGBoost: A Scalable Tree Boosting System."
Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - Prokhorenkova, L., Gusev, G., Vorobev, A., et al. (2018)
"CatBoost: unbiased boosting with categorical features."
Advances in Neural Information Processing Systems 31 (NeurIPS 2018) - Hastie, T., Tibshirani, R., & Friedman, J. (2009)
"The Elements of Statistical Learning: Data Mining, Inference, and Prediction."
Springer Series in Statistics, 2nd Edition - Hyndman, R.J., & Athanasopoulos, G. (2021)
"Forecasting: Principles and Practice."
OTexts: Melbourne, Australia. 3rd Edition. https://otexts.com/fpp3/ - Brownlee, J. (2020)
"How to Develop a Light Gradient Boosting Machine for Time Series Forecasting."
Machine Learning Mastery. https://machinelearningmastery.com/ - Kaggle Winning Solutions
"1st Place Solution - Corporación Favorita Grocery Sales Forecasting."
Kaggle Discussion Forums - Tofallis, C. (2015)
"A better measure of relative prediction accuracy for model selection and model estimation."
Journal of the Operational Research Society, 66(8), 1352-1362 - Breiman, L. (2001)
"Random Forests."
Machine Learning, 45(1), 5-32 - Tibshirani, R. (1996)
"Regression Shrinkage and Selection via the Lasso."
Journal of the Royal Statistical Society Series B, 58(1), 267-288 - Lundberg, S.M., & Lee, S.I. (2017)
"A Unified Approach to Interpreting Model Predictions."
Advances in Neural Information Processing Systems 30 (NIPS 2017) - Makridakis, S., Spiliotis, E., & Assimakopoulos, V. (2020)
"The M4 Competition: 100,000 time series and 61 forecasting methods."
International Journal of Forecasting, 36(1), 54-74