De la manière dont les technologies numériques enrichissent la recherche économique moderne - un compte rendu d’atelier

Des photos aériennes à haute résolution peuvent être utilisées afin de créer des indicateurs de réussite pour les projets de construction en Suisse. Jusqu'à présent, il n'était pas possible de mesurer si les projets de construction prévus avaient été réalisés ou non. Les premiers résultats d'un projet pilote du KOF indiquent que de nombreux projets de construction sont restés inachevés, surtout après l'initiative sur les résidences secondaires de 2012.

La complexité et le volume croissants de données disponibles modifient les méthodes de la science économique et le besoin de méthodes de calcul plus élaborées. La recherche en économie s'appuie de plus en plus sur des méthodes d'apprentissage automatique, tant pour générer des données que pour l'évaluation de grands ensembles de données. On peut distinguer deux grandes tendances : les méthodes de programmation neuro-linguistique (PNL), c'est-à-dire les données issues de textes, et la vision par ordinateur, c'est-à-dire les données issues d'images.

Le texte en tant que source de données jouit depuis un certain temps déjà d'une grande popularité. Par exemple, dans le domaine financier, les textes issus des actualités financières, des médias sociaux et des rapports d'entreprise sont utilisés pour prédire l'évolution des prix des actifs et étudier les effets causaux de nouvelles informations. Les textes sont également utilisés comme sources de données en macroéconomie, par exemple pour prédire les fluctuations de l'inflation et du chômage, pour évaluer les effets de l'incertitude politique et pour mieux comprendre les décisions de politique monétaire (Baker, Bloom et Davis, 2016 ; Tetlock, 2007 ; Anderes, Rathke, Streicher et Sturm, 2021).

Les images comme source de données - un potentiel sous-estimé

En revanche, l'utilisation d'images comme base de données n'est pas encore très répandue dans la recherche. Cela est probablement dû au fait qu’il est difficile d’accéder à des images dont la qualité est homogène et que leur accès est souvent limité. On trouve des exceptions à cette règle, notamment dans le domaine de l'économie du développement. On étudie par exemple dans ce domaine de recherche le développement des bidonvilles en observant les matériaux de construction des toits ou en analysant la qualité des plages et des eaux à l'aide d'images destinées au tourisme (Faber et Gaubert, 2019). Les structures et les inégalités urbaines peuvent également être étudiées à l'aide d'images, avec par exemple la luminosité nocturne peut être utilisée à cette fin (Galimberti, Pleninger et Pichler, 2021).

Le KOF a identifié le potentiel des images et les utilise pour un nouveau projet pilote. Des images à haute résolution mises à disposition à des fins de recherche par l'Office fédéral de topographie (Swisstopo), constituent cette base de données (cf. G 6). Ces images doivent permettre de déterminer si les permis de construire ont été mis œuvre en Suisse. Un « compte rendu d'atelier » concernant cet indicateur de succès de construction est présenté ci-dessous.

L'élaboration de l'indicateur de réussite de la construction

L'idée de base de l'indicateur de réussite de la construction est simple : des parties d'images représentant des projets de construction à différents moments sont utilisés. Si la différence entre une partie de l'image et l’image suivante est grande, de sorte que l'on y voit par exemple un bâtiment modifié, un signal est alors émis. Si ce n'est pas le cas, le signal n'est pas émis. Dans l'image ci-dessous (G 7), un signal pour une nouvelle construction devrait donc être émis (6e image en partant de la gauche).

Bien que l'idée de base soit simple, le projet pose quelques problèmes. D'une part, la création de séries d'images est une vaste tâche et nécessite un processus qui dépend des coordonnées respectives d'un permis de construire. Le graphique 1 illustre le processus. Étape par étape, un agrandissement est créé pour chaque observation.

D'autre part, les méthodes statistiques classiques ne sont pas adaptées à l'analyse des modifications d'images - chaque pixel des couleurs rouge, jaune et vert détermine un paramètre d'entrée, ce qui correspond à plus de 150.000 variables par image. Il est donc indispensable de réduire la quantité de données et, dans un deuxième temps, de construire sur cette base, un modèle qui permette de réaliser des progrès significatifs dans la classification avec moins de données d'entraînement. Ce processus est appelé apprentissage par transfert.

L'apprentissage par transfert utilise des modèles dont les paramètres ont déjà été définis à partir de données marquées, mais qui ont peu de rapport avec les images de télédétection et peuvent se rapporter à différentes sous-catégories (par exemple, animaux, meubles et autres objets). Néanmoins, ces modèles, basés sur les réseaux neuronaux convolutifs (CNN)1 , peuvent extraire des contours, des combinaisons de couleurs et des composantes principales des images. Cela se fait sur plusieurs couches (cf. G 8). Les couches dites « convolutionnelles » regroupent les matrices de pixels comme des filtres en vecteurs (représentés à l'étape (1.)). Avant que ceux-ci ne puissent être utilisés pour classifier un objet, le réseau est interrompu (représenté à l'étape (2.)). Les vecteurs obtenus sont maintenant une version très réduite d'une image.

Par la suite, les vecteurs décrits sont à nouveau représentés dans la représentation G 9 : « Classification pour la réussite de la construction ». Les vecteurs sont soustraits les uns des autres et constituent l'entrée d'un nouveau modèle (représenté à l'étape (4.)). Le modèle sélectionné (4.) peut désormais travailler avec nettement moins de paramètres d'entrée (X1, X2, X3) et l’on obtient par exemple avec nos données, un taux de réussite de plus de 85%. Compte tenu du fait que de nombreux chantiers sont difficilement distinguables des nouveaux bâtiments vus du ciel, ces résultats sont extrêmement bons.

Les résultats de l'indicateur de construction

Le graphique G 10 montre les résultats de la procédure décrite et l'indicateur final de réussite de la construction. L'axe des ordonnées indique le taux de réalisation moyen agrégé, c'est-à-dire si la demande de permis de construire a été classée par l'algorithme comme réussie (+1) ou non réussie (-1). Les données ont été normalisées de manière à ce que la moyenne soit égale à zéro et que la variance soit égale à un. Afin de tester la pertinence du taux de réussite généré, l'accent est mis sur l'initiative sur les résidences secondaires, entrée en vigueur le 11 mars 2012, laquelle prévoit l'interdiction de nouvelles résidences secondaires dès que la part de celles-ci dépasse 20% dans une commune. La barre grise du graphique représente la période allant de l'entrée en vigueur de l'initiative au 31 décembre 2012. L'hypothèse est qu'en raison de l'initiative, moins de projets de construction ont abouti.  

Enlarged view: G 10: Indicateur de réussite du pion

Le graphique montre une nette baisse de l'indicateur de réussite de la construction à partir de l'entrée en vigueur de l'initiative, avec un point bas à l'automne 2013. Cela s'explique sans doute par le fait que le résultat surprenant de la votation a entraîné un afflux de demandes, déposées de manière disproportionnée par les personnes qui espéraient encore voir leur projet de construction se concrétiser avant l'entrée en vigueur de l'initiative. Ces demandes ont probablement été moins bien planifiées ou sont tombées sous le coup de l'interdiction. Le taux de réalisation qui en résulte est donc nettement plus faible durant cette période et on retrouve ainsi cette tendance sur le graphique. Une analyse plus détaillée du taux de réussite de la construction est encore nécessaire afin d'exclure les facteurs externes, de sorte que des conclusions causales puissent être tirées de ce projet pilote.

Enfin, l'utilisation de ces algorithmes et de ces données d'images représente une énorme opportunité pour les sciences économiques, d'autant plus que de plus en plus de pétaoctets d'images satellites sont disponibles publiquement et que des capacités de calcul modernes basées sur le cloud sont à disposition. En particulier, avec l'importance croissante des thèmes environnementaux, cet attrait devrait également croître pour les sciences sociales et l’on peut s'attendre à l’avenir à ce que les images aériennes soient de plus en plus utilisées dans ce domaine de recherche.

-----------------------------------

1 Les CNN sont - en simplifiant grossièrement - des réseaux neuronaux à plusieurs niveaux qui sont surtout utilisés dans le traitement des images.

Bibliographie

Anderes, Mark, Alexander Rathke, Sina Streicher, and Jan-Egbert Sturm (2021): external page The role of ECB communication in guiding markets. Public Choice 186:3-4, 351-383.

Baker, Scott R., Nicholas Bloom, and Steven J. Davis (2016): Measuring economic policy uncertainty. The Quarterly Journal of Economics 131:4, 1593-1636,
https://doi.org/10.1093/qje/qjw024

Faber, Benjamin, and Cecile Gaubert (2019): Tourism and economic development: Evidence from Mexico's coastline. American Economic Review 109:6, 2245-93, https://doi.org/10.1257/aer.20161434

Galimberti, Jaqueson K., Stefan Pichler, and Regina Pleninger (2021): Measuring inequality using geospatial data. No. 493. KOF Working Papers, 2021,
https://doi.org/10.3929/ethz-b-000473903

Tetlock, Paul C. (2007): Giving content to investor sentiment: The role of media in the stock market. The Journal of Finance 62:3, 1139-1168,
https://doi.org/10.1111/j.1540-6261.2007.01232.x
 

Contact

Tim Reinicke
  • LEE G 207
  • +41 44 632 32 53

KOF FB Konjunktur
Leonhardstrasse 21
8092 Zürich
Switzerland

JavaScript has been disabled in your browser