Série de documents analytiques et techniques sur les comptes et la statistique de l'environnement
Approches statistiques pour l’estimation du prélèvement d’eau à des fins industrielles au Canada

Date de diffusion : le 27 mars 2025

Passer au texte

Début du texte

Résumé

Il est essentiel de pouvoir compter sur des estimations fiables de l’utilisation industrielle de l’eau afin de pouvoir établir des objectifs réalistes en matière de conservation de l’eau dans les industries de la fabrication, de l’extraction minière et de la production thermique d’énergie électrique au Canada. Dans le but d’évaluer l’exactitude prédictive de plusieurs modèles statistiques à l’échelle nationale, la présente étude utilise les données d’enquête pour explorer des techniques de modélisation, y compris le modèle d’amplification du gradient extrême (en anglais « XGBoost »), le modèle de splines à plaques minces (en anglais « thin-plate spline »), l’imputation multiple par équations en séries (MICE), la régression linéaire, la régression par les moindres carrés partiels (MCP) et la régression par moindre contraction absolue et opérateur de sélection (LASSO). On a déterminé que le modèle d’amplification du gradient extrême est le meilleur outil pour prédire l’utilisation de l’eau dans le secteur de la fabrication, tandis que le modèle de régression linéaire offre la plus grande exactitude pour prédire l’utilisation de l’eau dans l’industrie de production thermique d’énergie électrique. Dans les industries de l’extraction minière, la régression par les MCP, le modèle de splines à plaques minces et la régression LASSO donnent de bons résultats pour les secteurs d’extraction du charbon, des minerais métalliques et des minerais non métalliques. Enfin, l’étude permet de prédire l’utilisation industrielle de l’eau pour les années qui n’ont pas été visées par une enquête (2007 à 2021) afin d’améliorer l’uniformité et la qualité des données nationales sur l’utilisation de l’eau, ce qui permettra d’assurer une planification efficace de la gestion de l’eau. Les modèles sélectionnés et les résultats obtenus fournissent des renseignements précieux sur la gestion de l’utilisation industrielle durable de l’eau au Canada, et ils pourraient être utiles à d’autres pays qui font face à des difficultés semblables.

Mots clés : utilisation industrielle de l’eau; régression; Canada

1 Introduction

Les installations industrielles ont besoin d’eau pour leurs processus de production, et elles prélèvent l’eau de deux principales sources : l’eau souterraine (puits et aquifères) et l’eau de surface (lacs et rivières) (Statistique Canada, 2024). Le terme « prélèvement d’eau à des fins industrielles » désigne l’eau utilisée dans les secteurs de la fabrication, de l’extraction minière et de la production d’électricité. Dans les mines et les centrales thermiques d’énergie électrique, l’eau est utilisée pour extraire les matières premières et les combiner à d’autres intrants, ainsi que pour refroidir l’équipement afin de produire de la vapeur pour faire tourner les turbines qui produisent l’électricité. De même, les industries de la fabrication font divers usages de l’eau, y compris le nettoyage, le refroidissement, l’assainissement, l’entretien et le transport d’intrants intermédiaires. L’eau peut aussi être une composante du produit final (Bradley, 2017). Le prélèvement d’eau dans les industries de l’extraction minièreNote comprend l’eau utilisée pour effectuer toutes les activités liées à l’exploitation minière, à l’extraction des ressources, à l’extraction en carrière et au broyage des matières solides, comme le charbon, les minerais métalliques et les minerais non métalliques.

À l’échelle mondiale, le secteur industriel était à l’origine d’environ 19 % du prélèvement d’eau, alors que le secteur agricole et le secteur municipal représentaient respectivement 69 % et 12 % de ce prélèvement (Organisation des Nations unies pour l'alimentation et l'agriculture, s.d.). D’après la ventilation de l’utilisation industrielle de l’eau au Canada, les centrales thermiques d’énergie électrique étaient les plus importants utilisateurs de l’eau à des fins industrielles, représentant en moyenne 84 % (de 2005 à 2021) de l’utilisation industrielle de l’eau, suivies des entreprises manufacturières (14 %) et de l’industrie de l’exploitation minière (2 %).

Toutefois, moins d’attention a été accordée à l’estimation de l’utilisation industrielle de l’eau comparativement à l’utilisation à des fins agricoles et domestiques, potentiellement en raison du manque de collecte de données dans certains pays (Kumar, 2004). Les données sur l’utilisation industrielle de l’eau sont utiles au public, aux dirigeants communautaires, aux décideurs, aux responsables de la gestion de l’eau et à d’autres parties intéressées. De plus, la compilation de données et de renseignements propres aux installations concernant un bon nombre d’enjeux liés à l’eau douce pourrait aider à sensibiliser les gens au sujet de l’état général de l’eau dans les installations industrielles canadiennes.

L’acquisition de données au moyen d’enquêtes peut s’avérer coûteuse. Une autre solution possible serait de modéliser l’utilisation de l’eau à l’aide de données auxiliaires corrélées au prélèvement d’eau. Cependant, les données modélisées sont habituellement de moindre qualité comparativement aux données d’enquête, et elles pourraient occasionner de plus grandes incertitudes (Malla et coll., 2019). Par conséquent, il serait plus économique et efficace de combiner ces deux approches, c’est-à-dire d’utiliser les données tirées d’une enquête biennale et d’appliquer des techniques de modélisation pour les périodes non visées par une enquête afin de combler les lacunes statistiques. Cette méthode hybride permet d’optimiser la compilation des données et de réduire les coûts associés à la collecte de données, tout en veillant à ce que les niveaux d’exactitude demeurent satisfaisants.

L’estimation de l’utilisation de l’eau pendant les périodes non visées par une enquête peut être effectuée à l’aide de diverses techniques de modélisation, y compris : a) des modèles d’extrapolation fondés sur les tendances antérieures d’utilisation de l’eau (p. ex. une régression simple ou une analyse des tendances); b) des modèles à coefficients multiples non économiques qui exercent une fonction mathématique en intégrant des variables auxiliaires, mais en excluant les facteurs économiques (p. ex. le prix de l’eau); c) les modèles économétriques qui permettent d’estimer l’utilisation de l’eau en fonction de divers facteurs, y compris les conditions météorologiques et les facteurs économiques et démographiques; et d) des modèles de comptabilité fondés sur les relations entre les différents types de consommation, de distribution, d’évacuation et de perte d’eau. Toutefois, ces modèles peuvent être complexes et difficiles à interpréter (Templinet al, 1977).

De nombreuses variables, comme la recirculation de l’eau, l’énergie et la main-d’œuvre, peuvent servir de paramètres auxiliaires pour déterminer l’utilisation industrielle de l’eau. Le coût lié au prélèvement d’eau peut également être utilisé en tant que variable explicative dans la modélisation de l’utilisation industrielle de l’eau. Dans la modélisation économétrique de l’utilisation de l’eau, le coût moyen du prélèvement d’eau peut être pris en considération. Cependant, cette approche peut entraîner un biais dans l’équation de régression en raison d’une erreur de mesure ou de la présence d’endogénéité, ce qui signifie qu’un seul facteur pourrait influer à la fois sur le prélèvement d’eau et sur le coût de l’eau. Un exemple de cette situation serait lorsqu’une pénurie d’eau fait grimper les prix de cette ressource (Dupont & Renzetti, 2001).

L’Enquête sur l’eau dans les industries est une ressource essentielle lorsqu’il est question de fournir des données fiables et comparables à l’échelle du Canada. Il s’agit d’un outil précieux pour les responsables des politiques et les décideurs, ainsi que pour la communauté scientifique. En outre, l’obtention de données exactes sur le prélèvement d’eau à l’échelle nationale est très importante pour améliorer la qualité générale de la surveillance des réserves d’eau mondiales. Le principal objectif de cette étude est d’élaborer une méthode d’estimation de l’utilisation de l’eau dans divers secteurs industriels, y compris l’exploitation minière (minerais métalliques, charbon et minerais non métalliques), la production thermique d’énergie électrique et la fabrication, au cours des années où des données d’enquête n’étaient pas accessibles à l’échelle nationale. Donc, cette étude vise à présenter des renseignements exacts et uniformes sur l’utilisation de l’eau dans les industries concernées.

La section 2 du présent document décrit la méthodologie utilisée pour chacune des industries visées, alors que la section 3 présente les résultats. Ces sections sont suivies d’une discussion sur les techniques appliquées et d’une conclusion.

2 Matériel et méthodes

2.1 Données sur l’utilisation industrielle de l’eau

L’Enquête sur l’eau dans les industries, menée par Statistique Canada, était la principale source de données pour cette étude. Cette enquête biennale permet de recueillir des renseignements sur le prélèvement d’eau, les coûts de l’eau et les sources d’eau au moyen de trois questionnaires distincts. Elle a été réalisée auprès d’installations des secteurs de la fabrication, de l’exploitation minière et de la production d’énergie partout au Canada. Depuis 2005, l’enquête est menée à l’échelle nationale et provinciale. Une approche de recensement a été utilisée pour recueillir les données sur le prélèvement d’eau auprès d’environ 100 centrales thermiques d’énergie électrique. Un plan probabiliste a été utilisé pour échantillonner la population de 126 431 installations de fabrication (codes 31 à 33 du Système de classification des industries de l’Amérique du Nord [SCIAN]) et de 871 emplacements d’exploitation minière (codes 2121, 2122 et 2123 du SCIAN, excluant le code 21232).

Les données de l’Enquête sur l’eau dans les industries fournissent de précieux renseignements sur les tendances d’utilisation de l’eau au Canada. Selon une enquête récente, l’utilisation totale de l’eau à des fins industrielles au Canada s’est chiffrée à environ 27,36 milliards de mètres cubes en 2021. Cette utilisation englobait toutes les catégories des industries de la fabrication, de l’extraction minière et de la production thermique d’énergie électrique. Toutefois, l’eau utilisée pour l’extraction de liquides (comme le pétrole brut) et de gaz (comme le gaz naturel) n’a pas été prise en compte dans cette étude.

Le graphique 1 montre les tendances liées au prélèvement d’eau à des fins industrielles dans les trois principales industries, soit l’exploitation minière, la production thermique d’énergie électrique et la fabrication. Les volumes de prélèvement d’eau pour la production thermique d’énergie électrique et d’autres industries se sont stabilisés ou ont diminué au fil des ans, en raison de l’utilisation plus efficace de l’eau liée à l’innovation technologique et aux efforts de recyclage (Conseil national de la recherche, 2002). Bien que le prélèvement d’eau total à des fins industrielles ait augmenté, passant de 27,92 milliards de mètres cubes en 2011 à 29,65 milliards de mètres cubes en 2013, cette hausse considérable dans le prélèvement d’eau total était principalement attribuable à la hausse de 6 % observée dans le secteur de la production thermique d’énergie électrique. La hausse observée au cours de cette période peut être attribuée à la reprise des activités dans les installations de production d’énergie nucléaire en Ontario et au Nouveau-Brunswick. La baisse du volume de prélèvement d’eau observée dans le secteur de la production thermique d’énergie électrique après 2013 s’est inscrite dans le cadre d’une stratégie élargie en Ontario qui visait à éliminer progressivement les centrales alimentées au charbon (graphique 1).

Graphique 1 Prélèvement d’eau à des fins industrielles au Canada

Tableau de données du graphique 1
Tableau de données du graphique 1
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et Production d'énergie thermoélectrique, Fabrication, Extraction minière et exploitation en carrière (sauf l'extraction de pétrole et de gaz) et Total, toutes les industries, calculées selon prélèvement d'eau (millions de mètres cubes) unités de mesure (figurant comme en-tête de colonne).
Année Production d'énergie thermoélectrique Fabrication Extraction minière et exploitation en carrière (sauf l'extraction de pétrole et de gaz) Total, toutes les industries
prélèvement d'eau (millions de mètres cubes)
Source : Tableau 38-10-0067-01 https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=3810006701. Tableau 38-10-0037-01 https://www150.statcan.gc.ca/t1/tbl1/fr/cv.action?pid=3810003701.
2005 27 825,1 5 719,5 456,0 34 000,5
2007 27 834,4 4 573,1 535,8 32 943,3
2009 26 213,6 3 929,8 443,1 30 586,5
2011 23 715,9 3 789,3 418,0 27 923,2
2013 25 145,5 3 967,6 538,0 29 651,1
2015 23 318,3 3 661,9 531,0 27 511,2
2017 23 249,0 3 647,5 585,4 27 481,9
2020 23 041,9 3 752,7 448,3 27 242,9
2021 22 903,3 4 046,3 406,9 27 356,5

Le prélèvement d’eau dans le secteur de la fabrication englobe le prélèvement d’eau au sein de 18 catégories du SCIAN liées à l’industrie de la fabrication. L’enquête a été menée tous les deux ans par Statistique Canada, à compter de 2005. Dans la présente étude, les données disponibles sur l’utilisation industrielle de l’eau de 2007 à 2021 ont été utilisées à l’échelle nationale pour les secteurs de l’exploitation minière et de la production thermique d’énergie électrique, alors que les données de 2005 à 2021 ont été utilisées pour le secteur de la fabrication. Une proportion importante du prélèvement d’eau total dans le secteur de la fabrication était attribuable à quatre principales industries (c.-à-d. la première transformation des métaux, la fabrication du papier, la fabrication d’aliments et la fabrication de produits du pétrole et du charbon), celles-ci affichant une moyenne annuelle d’environ 83 % au cours des années visées par une enquête durant la période de 2007 à 2021. La proportion du prélèvement d’eau total dans ces industries a légèrement fluctué au cours des années. Par exemple, en 2015, la somme des eaux prélevées par ces industries représentait environ 80 % de la quantité totale d’eau utilisée dans le secteur de la fabrication. En 2021, le prélèvement d’eau dans ces quatre industries s’élevait à 3,48 milliards de mètres cubes, soit environ 86 % du volume total des eaux prélevées dans le secteur de la fabrication.

Le taux de réponse de l’Enquête sur l’eau dans les industries, défini comme étant la proportion de l’échantillon total ayant fourni des données utilisables pour l’enquête, était élevé pour les centrales thermiques d’énergie électrique, qui ont affiché un taux de 84 % à 100 % selon l’année. Pour ce qui est du secteur de la fabrication, le taux de réponse était plus faible, allant de 62 % à 84 %, alors que celui des industries de l’extraction minière allait de 65 % à 79 % (Gouvernement du Canada, 2022).

Pour modéliser les estimations du prélèvement d’eau pour les années qui n’ont pas été visées par une enquête, on a utilisé des variables explicatives tirées de différentes enquêtes annuelles en vue d’estimer le volume des eaux prélevées à des fins industrielles au Canada pour les années qui n’ont pas été visées par une enquête au cours de la période de 2007 à 2021. Les statistiques sommaires de toutes les variables explicatives utilisées pour obtenir des estimations pour chaque sous-groupe de l’industrie sont présentées dans le tableau 1. Par souci de simplicité, les valeurs de prélèvement d’eau pour quatre catégories du SCIAN dans le secteur de la fabrication (codes 315, 316, 323 et 337) ont été combinées en une seule catégorie du SCIAN, et l’estimation a été effectuée en fonction de cette combinaison de catégories du SCIAN.

Tableau 1
Statistiques des variables des modèles d'estimation pour chaque secteur d'activité Sommaire du tableau
Les données sont présentées selon L'industrie (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
L'industrie Variable explicative Moyenne Écart-type Minimum Maximum
Note : Les valeurs énumérées dans le tableau correspondent à l’ensemble de données utilisé pour faire la modélisation de chaque secteur de 2005 à 2021. Les données non disponibles ou supprimées pour respecter les normes de confidentialité ou de qualité des données sont exclues des statistiques calculées. Les variables de l’industrie de l’exploitation minière contiennent toutes les variables utilisées pour modéliser les estimations dans les industries d’extraction du charbon, des minerais métalliques et des minerais non métalliques. Des statistiques précises peuvent être obtenues auprès de l’auteur.
Sources : Statistique Canada. Tableau 25-10-0025-01 Industries manufacturières, total annuel de la consommation énergétique de combustibles en gigajoules, 31-33. Tableau 36-10-0434-03 Produit intérieur brut (PIB) aux prix de base, par industries, moyenne annuelle (x 1 000 000) . Tableau 25-10-0030-01 Disponibilité et écoulement d’énergie primaire et secondaire en unités naturelles. Tableau 38-10-0096-01 Compte des flux physiques de l'utilisation de l'énergie (site consulté le 20 décembre 2023),Tableau 38-10-0109-01 Utilisation de l’énergie, selon le secteur. Tableau 25-10-0020-01 L’énergie électrique, production annuelle selon la classe de producteur d’électricité. Tableau 25-10-0018-01 Production d’électricité, combustibles consommés et coût des combustibles par les centrales thermiques de production d’électricité (site consulté le 18 décembre 2022).
Les industries de la fabrication La consommation énergétique (Gigajoules) 104 629 956 165 657 892 145 068 776 211 157
Extraction de charbon Consommation énergétique finale (Kilotonnes) 1 799 392 1 038 2 290
PIB (millions de dollars) 4 560 798 2 569 5 988
Extraction de minerais métalliques Utilisation de l'énergie (Térajoules) 980 503 16 391 70 172 125 049
PIB (millions de dollars) 13 648 1 672 10 571 16 034
Extraction de minerais non métalliques Kérosène approvisionnement net (Mégalitres) 477 187 261 863
Mazouts légers, approvisionnement net (Mégalitres) 2 804 992 1 450 4 531
Centrales thermiques d'énergie électrique Électricité produite (Mégawatt heures) 230 229 055 10 260 128 209 685 459 249 705 324
Coût de combustible (Uranium)(milliers de dollars) 342 577 114 246 167 487 454 750

2.2 Méthodologie

Divers modèles statistiques ont été ajustés en fonction de l’ensemble de données de chaque secteur et de chaque sous-secteur, la sélection du modèle étant déterminée selon la complexité de l’ensemble de données et les caractéristiques précises de chaque industrie. Pour le secteur de la fabrication, qui englobe diverses industries ayant chacune son propre code du SCIAN, la modélisation du prélèvement d’eau s’est avérée difficile en raison de la nature variée des données pour l’ensemble de ces industries. Par conséquent, l’accent a été mis sur le modèle d’imputation multiple par équations en séries et le modèle d’amplification du gradient extrême, un puissant algorithme d’apprentissage automatique, pour modéliser le prélèvement d’eau pour l’ensemble du secteur. Cette approche a été choisie en raison de sa capacité à prendre en charge efficacement des relations non linéaires et des caractéristiques de grande dimension, ce qui est courant dans le secteur de la fabrication.

En ce qui concerne d’autres industries, comme la production thermique d’énergie électrique et l’extraction minière, on a utilisé d’autres approches de modélisation, soit la régression linéaire, la régression LASSO, le modèle de splines à plaques minces et la régression par les MCP. Ces modèles ont été choisis en raison de la structure plus simple des ensembles de données de ces secteurs ainsi que de la nature des relations entre les variables, ce qui convenait mieux à des techniques de modélisation linéaires ou semi-paramétriques.

L’analyse a été menée à l’aide de progiciels statistiques dans R version 3.5.1, et le modèle de splines à plaques minces a été élaboré au moyen de la version 9.4 de SAS. Les prochaines sections fournissent davantage de renseignements sur ces approches de modélisation.

2.2.1 Amplification du gradient extrême

Le modèle d’amplification du gradient extrême est une méthode d’apprentissage automatique qui permet de prédire le prélèvement d’eau dans le secteur de la fabrication en utilisant un cadre d’amplification du gradient avec une méthode d’ensemble axée sur des décisions. Ce modèle repose sur la création d’arbres de régression, ce qui permet de minimiser les erreurs du modèle en raison de la façon dont le nouvel arbre de régression tient compte de l’arbre de régression précédent. La prédiction définitive est calculée par l’intégration du modèle d’ensemble, ce qui est défini comme suit :

y i =ϕ( X i )= (k=1) K f k ( X i ), f (k) F,i=1,...,n MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qadaWfGaqaaiaadMhaaSqabeaacqGHNis2aaGcpaWaaSbaaSqaa8qa caWGPbaapaqabaGcpeGaeyypa0Jaeqy1dyMaaiikaiaadIfapaWaaS baaSqaa8qacaWGPbaapaqabaGcpeGaaiykaiabg2da9maaqahabaGa amOzamaaBaaaleaacaWGRbaabeaaaeaacaGGOaGaam4Aaiabg2da9i aaigdacaGGPaaabaGaam4saaqdcqGHris5aOGaaiikaiaadIfadaWg aaWcbaGaamyAaaqabaGccaGGPaGaaiilaiaadAgapaWaaSbaaSqaa8 qacaGGOaGaam4AaiaacMcaa8aabeaakiabgIGio=qacaWGgbGaaiil aiaadMgacqGH9aqpcaaIXaGaaiilaiaac6cacaGGUaGaaiOlaiaacY cacaWGUbaaaa@5CCE@   (1)

Le modèle d’amplification du gradient extrême améliore la fonction d’optimisation des objectifs en optimisant la fonction de perte et la pénalité liée à la complexité, qui sont désignées i=1 n l( y i , y i ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbiqaaGNbdaaeWa qaaiaadYgacaGGOaGaamyEamaaBaaaleaacaWGPbaabeaaaeaacaWG PbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoakiaacYcadaWfGa qaaiaadMhaaSqabeaacqGHNis2aaGcdaWgaaWcbaGaamyAaaqabaGc caGGPaaaaa@454F@   and k=1 K Ω f k MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbiqaaGNbdaaeWa qaaiabgM6axbWcbaGaam4Aaiabg2da9iaaigdaaeaacaWGlbaaniab ggHiLdGccaWGMbWaaSbaaSqaaiaadUgaaeqaaaaa@3F9A@ , respectivement. (Chen & Guestrin, 2016)

2.2.2 Imputation multiple

L’algorithme d’imputation multiple par équations en séries (MICE) a été appliqué dans de nombreuses études pour imputer à maintes reprises toutes les caractéristiques d’une base de données selon un algorithme de prédiction (Van Buuren, 2007). Cette méthode repose sur le principe qu’il est possible d’améliorer les résultats des modèles de prédiction en enchaînant les variables d’entrée. L’enchaînement est défini comme étant le processus itératif ayant recours aux variables imputées antérieurement pour prédire la prochaine variable pour laquelle il manque des données. Cette technique permet d’améliorer l’exactitude des prédictions et d’obtenir des imputations plus exactes pour toutes les variables dans l’ensemble de données (Hallam et coll., 2022). Ainsi, les prévisions par imputation continuent à changer jusqu’à ce qu’elles convergent vers une solution stable ayant le plus faible biais (Azur et coll., 2011). L’une des exigences de cette technique est que les données doivent être manquantes de façon aléatoire.

2.2.3 Régression par les moindres carrés partiels

La technique de régression par les MCP repose sur un modèle prédictif normalisé utilisé en présence de variables explicatives fortement colinéaires (Geladi & Kowalski, 1986). Selon cette technique, la relation entre une matrice de variables explicatives (X) et la variable de réponse (Y) est expliquée par des variables latentes ou scores X (Ƭ). Les scores X peuvent expliquer la variabilité maximale à la fois dans X et Y (Gelaye et coll., 2023). L’équation est la suivante :

X=τ P ' +ε MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiwaiabg2 da9iabes8a0jaadcfadaahaaWcbeqaaiaacEcaaaGccqGHRaWkcqaH 1oqzaaa@3DDE@   (2)

τ MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqiXdqhaaa@37BB@ et P ' MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaaCa aaleqabaGaai4jaaaaaaa@37A3@ sont la matrice de scores et la matrice de charge, et ε est la matrice des résidus X.

τ MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqiXdqhaaa@37BB@ peut aussi être calculé à l’aide de la matrice de poids des MCP transformés comme ci-dessous :

τ=X W * MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqiXdqNaey ypa0JaamiwaiaadEfadaahaaWcbeqaaiaacQcaaaaaaa@3B56@   (3)

Finalement, la réponse (Y) est calculée à l’aide de la matrice de poids Y (C*) et les résidus connexes (F).

Y=τ C * +F MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamywaiabg2 da9iabes8a0jaadoeadaahaaWcbeqaaiaacQcaaaGccqGHRaWkcaWG gbaaaa@3CFA@   (4)

Le modèle de prélèvement d’eau pour le secteur en question a été construit dans RStudio (version 2022.07.2+576).

2.2.4 Régression par moindre contraction absolue et opérateur de sélection

La technique de régression LASSO est un modèle linéaire pénalisé qui a recours à la contraction de valeurs de données vers un point central, comme une moyenne (régularisation L1). L’équation de la régression LASSO est la suivante :

Somme résiduelle de carrés + λ * (la somme des valeurs absolues de la magnitude des coefficients)

i=1 n ( y i j x (ij) β j ) 2 +λ j=1 P | β j | MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qadaaeWbqaaiaacIcaaSqaaiaadMgacqGH9aqpcaaIXaaabaGaamOB aaqdcqGHris5aOGaamyEamaaBaaaleaacaWGPbaabeaakiabgkHiTm aaqababaGaamiEaaWcbaGaamOAaaqab0GaeyyeIuoak8aadaWgaaWc baWdbiaacIcacaWGPbGaamOAaiaacMcaa8aabeaak8qacqaHYoGypa WaaSbaaSqaa8qacaWGQbaapaqabaGcpeGaaiyka8aadaahaaWcbeqa a8qacaaIYaaaaOGaey4kaSIaeq4UdW2aaabmaeaadaabdaqaaiabek 7aInaaBaaaleaacaWGQbaabeaaaOGaay5bSlaawIa7aaWcbaGaamOA aiabg2da9iaaigdaaeaacaWGqbaaniabggHiLdaaaa@5A0A@   (5)

où λ représente la contraction calculée, tout en minimisant la somme résiduelle de carrés (Owen, 2007).

2.2.5 Modèle multivarié de splines à plaques minces

Un modèle de splines à plaques minces est une régression non paramétrique ayant recours à une méthode des MCP pour faire correspondre un modèle aux données. Pour calculer des estimations à l’aide de cette méthode, il faut sélectionner un point de départ dans le groupe, puis traiter toutes les observations à titre de répliques de ce point de départ. La fonction f, avec estimateur des moindres carrés pénalisés, peut être calculée en minimisant la quantité suivante :

1 n k=1 n ( y k f( x k )) 2 +λJ(f) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaaca aIXaaabaGaamOBaaaadaaeWbqaaiaacIcacaWG5bWaaSbaaSqaaiaa dUgaaeqaaOGaeyOeI0IaamOzaiaacIcacaWG4bWaaSbaaSqaaiaadU gaaeqaaOGaaiykaiaacMcadaahaaWcbeqaaiaaikdaaaaabaGaam4A aiabg2da9iaaigdaaeaacaWGUbaaniabggHiLdGccqGHRaWkcqaH7o aBcaWGkbGaaiikaiaadAgacaGGPaaaaa@4CFC@   (6)

où le premier terme évalue la qualité de l’ajustement et le second terme évalue le degré de lissage de f. Pour obtenir plus de renseignements sur l’algorithme d’ajustement fondé sur les splines à plaques minces, les lecteurs sont invités à consulter l’article de Meinguet (Meinguet, 1979).

2.3 Analyse statistique

Afin d’évaluer le rendement des modèles de prévision dans chaque secteur économique, on a fait appel à la technique de validation croisée avec retrait d’un élément. En utilisant cette technique, il a été possible d’exclure des données de l’échantillon (soit les données d’une année d’enquête pour la période de 2007 à 2021) et d’entraîner le modèle à l’aide des données restantes, après quoi les mesures de rendement du modèle ont été examinées à l’aide des données exclues. Le meilleur modèle a été obtenu à l’aide des méthodes ci-dessus, d’après les valeurs les plus faibles de la somme des erreurs au carré (SEC) et de l’erreur moyenne absolue en pourcentage (EMAP).

MAPE= 1 n t=0 n | A t F t A t | MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamytaiaadg eacaWGqbGaamyraiabg2da9maalaaabaGaaGymaaqaaiaad6gaaaWa aabCaeaadaabdaqaamaalaaabaGaamyqamaaBaaaleaacaWG0baabe aakiabgkHiTiaadAeadaWgaaWcbaGaamiDaaqabaaakeaacaWGbbWa aSbaaSqaaiaadshaaeqaaaaaaOGaay5bSlaawIa7aaWcbaGaamiDai abg2da9iaaicdaaeaacaWGUbaaniabggHiLdaaaa@4BE3@   (7)

SSE= t=0 n ( A t F t ) 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4uaiaado facaWGfbGaeyypa0ZaaabCaeaacaGGOaGaamyqamaaBaaaleaacaWG 0baabeaakiabgkHiTiaadAeadaWgaaWcbaGaamiDaaqabaaabaGaam iDaiabg2da9iaaicdaaeaacaWGUbaaniabggHiLdGccaGGPaWaaWba aSqabeaacaaIYaaaaaaa@4678@   (8)

où :

  • n = nombre de la taille de l’échantillon
  • At = volume des eaux prélevées selon les enquêtes
  • Ft = volume des eaux prélevées selon les prédictions

3 Résultats et discussion

3.1 Secteur de la fabrication

L’analyse a permis de comparer plusieurs méthodes, y compris l’imputation multiple et la technique d’amplification du gradient, dans 18 catégories du SCIAN en lien avec le secteur de la fabrication. À l’aide d’une approche de validation croisée avec retrait d’un élément pour la période de 2007 à 2021, on a constaté que le modèle d’amplification du gradient extrême a systématiquement donné de meilleurs résultats que les autres modèles d’imputation multiple. Le tableau 2 résume les erreurs de prédiction (EMAP et SEC) pour les catégories du SCIAN liées à l’industrie de la fabrication pour les années de validation de 2007 à 2021.

Tableau 2
Comparaison de l’EMAP en pourcentage des modèles pour les années 2007 à 2021, secteur de la fabrication Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et Amplification du gradient extrême, Imputation multiple, SEC, EMAP, SEC et EMAP, calculées selon mètres cubes carrés, pourcentage, mètres cubes carrés et pourcentage unités de mesure (figurant comme en-tête de colonne).
Année Amplification du gradient extrême Imputation multiple
SEC EMAP SEC EMAP
(MMC)2 pourcentage (MMC)2 pourcentage
Note : *SEC : somme des erreurs au carré; EMAP : erreur moyenne absolue en pourcentage; (MMC)2, millions de mètres cubes au carré.
Source : Calculs des auteurs.
2007 33 256 31 280 534 51
2009 14 711 98 289 803 109
2011 15 038 85 235 659 98
2013 16 830 46 265 753 55
2015 61 210 28 239 300 69
2017 47 161 48 236 936 56
2020 40 295 71 151 492 167
2021 167 268 59 243 809 138

La moyenne de l’EMAP du modèle d’amplification du gradient extrême pour l’ensemble des années à l’étude s’établissait à 58 %, comparativement à 93 % pour la méthode d’imputation multiple. De plus, la méthode d’amplification du gradient extrême a aussi obtenu un rendement supérieur en ce qui a trait à l’exactitude du modèle, car elle a obtenu la SEC totale la plus faible pour l’ensemble des années à l’étude. La SEC pour cette méthode était systématiquement plus faible que celle de la méthode d’imputation multiple, ce qui indique qu’elle est bien ajustée aux données.

Dans les deux approches, les industries de la première transformation des métaux (code 331 du SCIAN) et de la fabrication du papier (code 322 du SCIAN) étaient les plus importantes contributrices à la valeur totale de la SEC. Dans le modèle d’amplification du gradient extrême, les industries du code 331 du SCIAN étaient à l’origine de 69 % de la valeur totale de la SEC, et celles du code 322, de 16 %. Dans l’analyse d’imputations multiples, 25 % et 68 % de la valeur totale de la SEC étaient attribuables aux industries des codes 331 et 322 du SCIAN, respectivement. Ces constatations indiquent que ces deux industries contribuent grandement à la variabilité des données sur le prélèvement d’eau. Cela souligne aussi le besoin de mener une analyse plus approfondie pour mieux comprendre les répercussions de ces industries sur les résultats de la modélisation.

3.2 Industrie de la production thermique d’énergie électrique

Lors de l’analyse de l’industrie de la production thermique d’énergie électrique, on a élaboré des modèles qui comprenaient deux variables explicatives, soit l’électricité produite et le coût du combustible (uranium) consommé par les centrales thermiques d’énergie électriqueNote .

Pour chaque modèle (splines à plaques minces, MCP, LASSO et régression linéaire), les valeurs de l’EMAP montrent une tendance générale où le taux d’erreur était plus faible dans les premières années à l’étude (de 2005 à 2009), mais plus élevé pour certaines des dernières années à l’étude, comme 2011 et 2013 (graphique 2). Toutefois, les résultats indiquent que le modèle de splines à plaques minces affichait des valeurs de la SEC très élevées (jusqu’à 4,1 millions de mètres cubes au carré (MMC)2) en 2011, 2013 et 2015. En revanche, la régression LASSO présentait des valeurs modérées pour la SEC, sans qu’il y ait présence d’erreurs extrêmes comme c’était le cas pour les modèles de splines à plaques minces et de régression par les MCP (voir la graphique 3). Selon l’analyse de l’EMAP et de la SEC, le modèle ayant produit les meilleurs résultats était la régression linéaire. Cette méthode a affiché le taux moyen le plus faible d’EMAP (2,00 %) et la SEC totale la plus faible de 2005 à 2021, ce qui indique qu’elle a un haut niveau d’exactitude et est bien ajustée aux données.

Graphique 2 Valeur de l’erreur moyenne absolue en pourcentage pour différents modèles de prédiction du  prélèvement d’eau des centrales thermiques d’énergie électrique

Tableau de données du graphique 2
Tableau de données du graphique 2
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et LASSO, Splines à plaques minces , La régression linéaire et MCP, calculées selon EMAP (pourcentage) unités de mesure (figurant comme en-tête de colonne).
Année LASSO Splines à plaques minces La régression linéaire MCP
EMAP (pourcentage)
Source : Calculs des auteurs
2005 0,54 0,07 0,09 0,26
2007 2,39 1,53 0,13 1,72
2009 0,02 0,47 1,31 0,42
2011 6,38 5,87 2,75 5,11
2013 7,38 8,06 7,09 6,59
2015 4,03 3,60 4,20 3,59
2017 0,09 0,32 0,69 0,01
2019 1,52 0,06 0,86 1,73
2021 1,04 0,65 1,43 0,07

Graphique 3 Valeurs de la somme des erreurs au carré pour  les différents modèles de prédiction du prélèvement d’eau des centrales  thermiques d’énergie électrique

Tableau de données du graphique 3
Tableau de données du graphique 3
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et LASSO, Splines à plaques minces , La régression linéaire et MCP, calculées selon SEC (millions de mètres cubes carré) unités de mesure (figurant comme en-tête de colonne).
Année LASSO Splines à plaques minces La régression linéaire MCP
SEC (millions de mètres cubes carré)
Source : Calculs des auteurs.
2005 22 615,6 429,2 685,4 5 188,0
2007 440 706,3 180 424,0 1 268,1 227 911,6
2009 34,4 15 050,0 118 287,8 12 170,4
2011 2 287 735,3 1 939 880,3 426 709,4 1 470 160,8
2013 3 444 392,6 4 105 724,3 3 176 593,3 2 746 140,6
2015 882 592,7 704 652,2 957 892,8 699 476,9
2017 407,4 5 638,0 25 904,9 1,7
2019 122 518,2 203,9 39 569,2 158 413,3
2021 57 064,3 21 835,3 107 151,5 235,1

3.3 Industries de l’extraction minière

Dans le but d’estimer le prélèvement d’eau dans les industries de l’extraction minière, y compris l’extraction du charbon, des minerais métalliques et des minerais non métalliques, les variables explicatives présentées dans le tableau 1 ont été appliquées à différentes approches, y compris la régression linéaire, la régression par les MCP, le modèle de splines à plaques minces et la régression LASSO.

Lors de la modélisation pour l’industrie d’extraction du charbon, les résultats montrent que le modèle de splines à plaques minces a obtenu les valeurs de la SEC les plus élevées pour plusieurs années, surtout en 2011 et en 2017, ce qui pourrait être attribuable à un surajustement ou à l’ajout d’une quantité de bruit statistique supérieure à ce qui était nécessaire pendant ces périodes. Cependant, la régression LASSO a affiché une hausse importante des valeurs de la SEC au fil des années, surtout pour les dernières années à l’étude. Par exemple, en 2021, la valeur de la SEC s’est chiffrée à 1 104,8 (MMC)2. La régression linéaire a également obtenu de mauvais résultats lorsqu’il y avait de solides effets non linéaires ou que les relations changeaient au fil du temps. En revanche, la régression par les MCP a affiché des résultats plus stables et des valeurs modérées de la SEC pour les années sans fluctuations extrêmes (graphique 4).

Dans le secteur d’extraction de minerais métalliques, le modèle de splines à plaques minces a généralement fourni des prédictions plus fiables, même si son rendement variait d’une année à l’autre. Cette méthode a obtenu de meilleurs résultats que les autres en ce qui a trait à la somme totale des valeurs de la SEC et à la moyenne de l’EMAP obtenues au fil des ans. Quant à la régression linéaire, son rendement avait tendance à varier. Plus précisément, cette méthode n’a pas affiché de bons résultats pour les premières années à l’étude (2005, 2007 et 2009), enregistrant des valeurs élevées de la SEC. Toutefois, ses résultats se sont beaucoup améliorés pour les dernières années à l’étude (2011, 2013, 2015, 2020 et 2021), enregistrant des valeurs de la SEC nettement plus faibles, et même parfaites dans le cas de certaines années, comme en 2013. La régression LASSO a affiché des valeurs de la SEC modérées ou élevées pour les premières années à l’étude (2005, 2007 et 2009), mais a obtenu de mauvais résultats et un rendement incohérent pour les dernières années à l’étude (2017, 2020 et 2021). La régression par les MCP a obtenu de bons résultats pour certaines années, comme 2007 et 2009, mais son rendement était inférieur pour d’autres années, et tout particulièrement en 2017, lorsqu’elle a affiché la valeur la plus élevée de la SEC, soit 28 937 (MMC)2 (voir le graphique 5). La moyenne de l’EMAP pour les trois méthodes (régression LASSO, régression linéaire et régression par les MCP) était semblable pour les années 2007 à 2021, s’établissant à environ 24 %.

Pour l’industrie d’extraction de minerais non métalliques, les résultats ont indiqué que la régression LASSO avait obtenu un bon rendement par rapport aux autres méthodes, affichant les plus faibles valeurs totales de la SEC, soit 2 224,20 (MMC)2, ainsi qu’une moyenne d’EMAP de 5 % pour l’ensemble des années (graphique 6). À l’inverse, le modèle de splines à plaques minces a affiché d’importantes fluctuations dans les valeurs d’EMAP (24 %) et a obtenu la valeur totale de la SEC la plus élevée pour l’ensemble des années (10 959,78 (MMC)2). Le rendement de la régression linéaire était variable, affichant un taux relativement faible d’EMAP pour certaines années (p. ex. 69 % en 2005), mais un taux plus élevé pour d’autres années. Même si la SEC indique que ce modèle compte moins d’erreurs importantes que le modèle de splines à plaques minces ou la régression par les MCP, le rendement de la régression linéaire était tout de même inférieur à celui de la régression LASSO.

Graphique 4 Valeurs de la  somme des erreurs au carré pour les différents modèles de prédiction du  prélèvement d’eau dans les industries de l’extraction minière (extraction de  charbon )

Tableau de données du graphique 4
Tableau de données du graphique 4
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et LASSO, Splines à plaques minces , La régression linéaire et MCP, calculées selon SEC (millions de mètres cubes carré) unités de mesure (figurant comme en-tête de colonne).
Année LASSO Splines à plaques minces La régression linéaire MCP
SEC (millions de mètres cubes carré)
Source : Calculs des auteurs.
2005 648,58 3,93 2 169,52 1 231,68
2007 1,95 48,65 53,48 191,98
2009 841,90 133,92 454,17 2,09
2011 1 708,91 4 071,43 7,60 70,01
2013 2 611,01 1 846,28 2 842,39 1 429,78
2015 272,44 386,20 296,12 37,88
2017 145,38 2 735,27 34,92 79,86
2020 365,50 1 837,72 1 464,61 1 105,92
2021 1 104,79 1 076,68 2 522,97 1 602,59

Graphique 5 Valeurs de la somme des erreurs au carré pour  les différents modèles de prédiction du prélèvement d’eau dans les industries  de l’extraction minière (extraction de minerais métalliques

Tableau de données du graphique 5
Tableau de données du graphique 5
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et LASSO, Splines à plaques minces , La régression linéaire et MCP, calculées selon SEC (millions de mètres cubes carré) unités de mesure (figurant comme en-tête de colonne).
Année LASSO Splines à plaques minces La régression linéaire MCP
SEC (millions de mètres cubes carré)
Source : Calculs des auteurs.
2005 13 605,1 4 111,2 17 466,4 2 088,9
2007 9 561,7 10 482,1 12 699,0 678,8
2009 2 663,6 872,8 16 650,5 715,2
2011 1 563,0 2 689,9 5 610,4 8 100,2
2013 582,1 1 633,2 0,1 3 291,5
2015 2 642,2 1 004,4 20,9 5 770,4
2017 6 464,3 11 359,4 12 232,6 28 936,9
2020 9 508,2 11 123,3 2 193,4 6 379,4
2021 4 682,3 502,6 3 090,3 7 010,5

Graphique 6  Valeurs de la somme des erreurs au carré pour les différents modèles de  prédiction du prélèvement d’eau dans les industries de l’extraction minière (extraction de minerais non métalliques

Tableau de données du graphique 6
Tableau de données du graphique 6
Sommaire du tableau
Les données sont présentées selon Année (titres de rangée) et LASSO, Splines à plaques minces , La régression linéaire et MCP, calculées selon SEC (millions de mètres cubes carré) unités de mesure (figurant comme en-tête de colonne).
Année LASSO Splines à plaques minces La régression linéaire MCP
SEC (millions de mètres cubes carré)
Source : Calculs des auteurs.
2005 18,3 1 227,0 0,3 0,0
2007 103,1 62,8 2,2 275,5
2009 407,1 5 972,4 1 615,2 994,2
2011 227,1 169,2 458,9 1 031,6
2013 187,9 35,8 99,1 143,9
2015 0,1 86,9 228,2 17,6
2017 830,3 530,9 530,2 1 596,9
2020 342,0 1 485,1 563,2 484,2
2021 108,2 1 389,7 206,0 319,2

4 Conclusion

Le présent document a permis d’analyser l’exactitude de plusieurs modèles statistiques lorsqu’il est question de prédire l’utilisation nationale de l’eau dans divers secteurs industriels au Canada. Les résultats indiquent que la méthode d’amplification du gradient extrême s’est avérée le modèle le plus précis pour prédire le prélèvement d’eau dans le secteur de la fabrication. Le secteur de la première transformation des métaux et le secteur de la fabrication du papier ont grandement contribué au total de la SEC dans le modèle d’amplification du gradient extrême et le modèle d’imputation multiple, ce qui souligne la grande influence de ces industries sur la variabilité des données liées au prélèvement d’eau. Les valeurs élevées de la SEC associées à ces secteurs laissent supposer que des facteurs ou des complexités propres à l’industrie liées à l’utilisation de l’eau pourraient entraîner des répercussions sur l’exactitude du modèle. Le fait de résoudre les problèmes liés à ces sources de variabilité pourrait améliorer l’exactitude des modèles de prédiction. D’autres recherches axées sur les caractéristiques propres à ces industries seraient essentielles pour affiner les prédictions de l’utilisation de l’eau et améliorer la fiabilité des modèles.

Pour ce qui est de l’industrie de la production thermique d’énergie électrique, on a constaté que la régression linéaire permet d’obtenir des résultats uniformes et de faibles valeurs de la SEC et d’EMAP. Donc, ce modèle fournit des résultats stables et une bonne exactitude pour l’ensemble des années, sans qu’il y ait présence d’une variabilité extrême comme dans les autres modèles. Même si ce modèle suppose qu’il y ait une relation linéaire, sa simplicité et son efficacité en font un choix fiable. De son côté, la régression LASSO a affiché un taux d’EMAP légèrement supérieur à celui de la régression linéaire, mais elle obtient de bons résultats lorsque les données sont de grande dimension et évite le surajustement attribuable à la régularisation. Ce modèle serait le meilleur choix lorsqu’il faut traiter des ensembles de données ayant diverses caractéristiques, ou dans les cas où la sélection des caractéristiques est importante. Le modèle de régression par les MPC et le modèle de splines à plaques minces peuvent être utiles pour les données non linéaires ou les problèmes de grande dimension, mais ces deux modèles ont affiché une plus forte variabilité et de plus grandes erreurs pour certaines années, ce qui en fait des modèles moins uniformes et moins fiables en général.

Par ailleurs, pour les industries de l’extraction minière, y compris l’extraction du charbon, des minerais métalliques et des minerais non métalliques, la régression par les MCP, le modèle de splines à plaques minces et la régression LASSO ont obtenu des résultats supérieurs à ceux des autres modèles, respectivement.

Même si l’apprentissage automatique a montré un haut niveau d’exactitude dans la prédiction de l’utilisation industrielle de l’eau, d’autres recherches seront nécessaires pour valider cette approche à des résolutions temporelles et spatiales plus précises (p. ex. sur une base mensuelle, à l’échelle provinciale ou municipale). De plus, le fait de connaître l’utilisation mensuelle de l’eau à l’échelle régionale permettrait de cerner les tendances et les variations liées à l’utilisation de l’eau à des niveaux plus précis et d’améliorer la gestion des données concernant cette ressource naturelle essentielle. En outre, il pourrait être nécessaire d’appliquer différentes techniques, comme des approches économétriques, pour comparer les modèles et examiner de manière plus approfondie la structure de l’utilisation industrielle de l’eau. Les études ultérieures pourraient s’intéresser à l’incidence de différents facteurs, comme la sensibilité au prix de l’eau et l’innovation technologique au fil du temps, car de tels facteurs pourraient exercer une influence graduelle sur les résultats de la modélisation.

Remerciements : Nous remercions sincèrement Ibrahima Aida Ousmane, Daniel Hurtubise et Martin Hamel pour leurs contributions inestimables. Nous remercions tout particulièrement Jenny Watt et Avani Babooram pour leur révision et leurs commentaires, qui ont permis d’améliorer grandement la qualité de cet article. Nous sommes profondément reconnaissants envers Michael Schimpf, qui a défini le projet et a offert son soutien durant tout le processus.

References

Azur, M. J., Stuart, E. A., Frangakis, C., & Leaf, P. J. (2011). Multiple imputation by chained equations: What is it and how does it work? International Journal of Methods in Psychiatric Research, 20(1), 40–49.

Bradley, M. W. (2017). Guidelines for preparation of state water-use estimates for 2015. US Department of the Interior, US Geological Survey.

Chen, T., & Guestrin, C. (2016). (2016). Xgboost: A scalable tree boosting system. Paper presented at the Proceedings of the 22nd Acm Sigkdd International Conference on Knowledge Discovery and Data Mining, 785–794.

Dupont, D. P., & Renzetti, S. (2001). The role of water in manufacturing. Environmental and Resource Economics, 18, 411–432.

Geladi, P., & Kowalski, B. R. (1986). Régression partielle par les moindres carrés : A tutorial. Analytica Chimica Acta, 185, 1–17.

Gelaye, K. K., Zehetner, F., Stumpp, C., Dagnew, E. G., & Klik, A. (2023). Application of artificial neural networks and partial least squares regression to predict irrigated land soil salinity in the rift valley region, ethiopia. Journal of Hydrology: Regional Studies, 46, 101354. https://doi.org/10.1016/j.ejrh.2023.101354

Gouvernement du Canada. (2022). Utilisation de l'eau douce de surface dans le secteur manufacturier du Canada, 2017. https://www150.statcan.gc.ca/n1/pub/16-508-x/16-508-x2022001-fra.htm

Hallam, A., Mukherjee, D., & Chassagne, R. (2022). Imputation multivariable par équations chaînées pour l'imputation et la prédiction de journaux de puits élastiques. Applied Computing and Geosciences, 14, 100083.

Kumar, M. D. (2004). Roof water harvesting for domestic water security: Who gains and who loses? Water International, 29(1), 43–53.

Malla, R., Sapkota, A., & Prajapati, P. (2019). Estimation of water use coefficient for assessing industrial water demand of various industries of kathmandu valley. Journal of Environment Science, 5, 21–26.

Meinguet, J. (1979). Multivariate interpolation at arbitrary points made simple. Zeitschrift Für Angewandte Mathematik Und Physik ZAMP, 30(2), 292–304.

National Research Council. (2002). Estimating water use in the United States: A new paradigm for the national water-use information program. National Academies Press.

Organisation des Nations Unies pour l’alimentation et l’agriculture. (s.d.). Méthodologie de l’utilisation de l’eau. Récupéré le 29 septembre 2024, de https://www.fao.org/aquastat/fr/overview/methodology/water-use

Owen, A. B. (2007). A robust hybrid of lasso and ridge regression. Contemporary Mathematics, 443(7), 59–72.

Statistique Canada. (2024). Enquête sur l'eau dans les industries, 2021. https://www150.statcan.gc.ca/n1/daily-quotidien/240318/dq240318d-fra.htm. (site consulté le 20 septembre 2024).

Templin, W. E., Herbert, R. A., Stainaker, C. B., Horn, M., & Solley, W. B. (1977). National handbook of recommended methods for water-data acquisition. U.S. Government Printing Office. Geological Survey (U.S.). Office of Water Data Coordination.

Van Buuren, S. (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research, 16(3), 219–242.


Date de modification :