Interface simplifiée pour les prédictions de données de séries chronologiques

Un outil pour prédire l'avenir

Les chercheurs du MIT ont créé un outil qui permet aux gens de faire des prédictions très précises à l’aide de plusieurs données de séries chronologiques en quelques frappes. Le puissant algorithme au cœur de leur outil peut transformer plusieurs séries chronologiques en un tenseur, qui est un tableau multidimensionnel de nombres (photo). Crédit : Figure reproduite avec l’aimable autorisation des chercheurs et éditée par MIT News

Que quelqu’un essaie de prédire la météo de demain, de prévoir les cours futurs des actions, d’identifier les opportunités manquées de vente dans le commerce de détail ou d’estimer le risque qu’un patient développe une maladie, il devra probablement interpréter des données de séries chronologiques, qui sont un ensemble d’observations enregistrées heures supplémentaires.

Faire des prédictions à l’aide de données de séries chronologiques nécessite généralement plusieurs étapes de traitement des données et l’utilisation d’algorithmes complexes d’apprentissage automatique, qui ont une courbe d’apprentissage si abrupte qu’ils ne sont pas facilement accessibles aux non-experts.

Pour rendre ces outils puissants plus conviviaux, les chercheurs du MIT ont développé un système qui intègre directement la fonctionnalité de prédiction en plus d’une base de données de séries chronologiques existante. Leur interface simplifiée, qu’ils appellent tspDB (base de données de prédiction de séries chronologiques), effectue toute la modélisation complexe dans les coulisses afin qu’un non-expert puisse facilement générer une prédiction en quelques secondes seulement.

Le nouveau système est plus précis et plus efficace que les méthodes d’apprentissage en profondeur de pointe lors de l’exécution de deux tâches : prédire les valeurs futures et remplir les points de données manquants.

L’une des raisons du succès de tspDB est qu’il intègre un nouvel algorithme de prédiction de séries chronologiques, explique Abdullah Alomar, étudiant diplômé en génie électrique et informatique (EECS), auteur d’un récent article de recherche dans lequel lui et ses co-auteurs décrivent le algorithme. Cet algorithme est particulièrement efficace pour faire des prédictions sur des données de séries chronologiques multivariées, qui sont des données qui ont plus d’une variable dépendante du temps. Dans une base de données météo, par exemple, la température, le point de rosée et la couverture nuageuse dépendent chacun de leurs valeurs passées.

L’algorithme estime également la volatilité d’une série chronologique multivariée pour fournir à l’utilisateur un niveau de confiance pour ses prédictions.

“Même si les données de séries chronologiques deviennent de plus en plus complexes, cet algorithme peut capturer efficacement n’importe quelle structure de séries chronologiques. Il semble que nous ayons trouvé le bon objectif pour examiner la complexité du modèle des données de séries chronologiques”, déclare auteur principal Devavrat Shah, professeur Andrew et Erna Viterbi à l’EECS et membre de l’Institut des données, des systèmes et de la société et du Laboratoire des systèmes d’information et de décision.

Rejoindre Alomar et Shah sur l’article est l’auteur principal Anish Agrawal, un ancien étudiant diplômé de l’EECS qui est actuellement postdoctoral au Simons Institute de l’Université de Californie à Berkeley. La recherche sera présentée à la conférence ACM SIGMETRICS.

Adapter un nouvel algorithme

Shah et ses collaborateurs travaillent depuis des années sur le problème de l’interprétation des données de séries chronologiques, en adaptant différents algorithmes et en les intégrant dans tspDB lors de la construction de l’interface.

Il y a environ quatre ans, ils ont découvert un algorithme classique particulièrement puissant, appelé analyse de spectre singulier (SSA), qui impute et prévoit des séries temporelles uniques. L’imputation est le processus de remplacement des valeurs manquantes ou de correction des valeurs passées. Alors que cet algorithme nécessitait une sélection manuelle des paramètres, les chercheurs soupçonnaient qu’il pourrait permettre à leur interface de faire des prédictions efficaces à l’aide de données de séries chronologiques. Dans des travaux antérieurs, ils ont supprimé ce besoin d’intervenir manuellement pour la mise en œuvre algorithmique.

L’algorithme pour les séries chronologiques uniques l’a transformé en une matrice et a utilisé des procédures d’estimation matricielle. Le principal défi intellectuel était de savoir comment l’adapter pour utiliser plusieurs séries chronologiques. Après quelques années de lutte, ils ont réalisé que la réponse était quelque chose de très simple : “Empilez” les matrices pour chaque série temporelle individuelle, traitez-la comme une seule grande matrice, puis appliquez-y l’algorithme de série temporelle unique.

Cela utilise naturellement des informations sur plusieurs séries chronologiques, à la fois sur la série chronologique et dans le temps, qu’ils décrivent dans leur nouvel article.

Cette publication récente traite également d’alternatives intéressantes, où au lieu de transformer la série temporelle multivariée en une grande matrice, elle est considérée comme un tenseur tridimensionnel. Un tenseur est un tableau multidimensionnel, ou grille, de nombres. Cela a établi une connexion prometteuse entre le domaine classique de l’analyse des séries chronologiques et le domaine croissant de l’estimation du tenseur, dit Alomar.

“La variante de mSSA que nous avons introduite capture en fait tout cela à merveille. Ainsi, non seulement elle fournit l’estimation la plus probable, mais également un intervalle de confiance variant dans le temps”, déclare Shah.

Plus c’est simple, mieux c’est

Ils ont testé le mSSA adapté par rapport à d’autres algorithmes de pointe, y compris des méthodes d’apprentissage en profondeur, sur des ensembles de données de séries chronologiques du monde réel avec des entrées tirées du réseau électrique, des modèles de trafic et des marchés financiers.

Leur algorithme a surpassé tous les autres en matière d’imputation et il a surpassé tous les autres algorithmes sauf un lorsqu’il s’agissait de prévoir les valeurs futures. Les chercheurs ont également démontré que leur version modifiée de mSSA peut être appliquée à tout type de données de séries chronologiques.

“L’une des raisons pour lesquelles je pense que cela fonctionne si bien est que le modèle capture de nombreuses dynamiques de séries chronologiques, mais en fin de compte, il s’agit toujours d’un modèle simple. Lorsque vous travaillez avec quelque chose de simple comme celui-ci, au lieu d’un neurone réseau qui peut facilement surcharger les données, vous pouvez en fait être plus performant », déclare Alomar.

Les performances impressionnantes de mSSA sont ce qui rend tspDB si efficace, explique Shah. Désormais, leur objectif est de rendre cet algorithme accessible à tous.

Une fois qu’un utilisateur installe tspDB au-dessus d’une base de données existante, il peut exécuter une requête de prédiction avec seulement quelques frappes en 0,9 milliseconde environ, contre 0,5 milliseconde pour une requête de recherche standard. Les intervalles de confiance sont également conçus pour aider les non-experts à prendre une décision plus éclairée en intégrant le degré d’incertitude des prévisions dans leur prise de décision.

Par exemple, le système pourrait permettre à un non-expert de prédire les cours boursiers futurs avec une grande précision en quelques minutes seulement, même si l’ensemble de données de la série chronologique contient des valeurs manquantes.

Maintenant que les chercheurs ont montré pourquoi mSSA fonctionne si bien, ils ciblent de nouveaux algorithmes pouvant être intégrés à tspDB. L’un de ces algorithmes utilise le même modèle pour activer automatiquement la détection des points de changement, donc si l’utilisateur pense que sa série chronologique changera son comportement à un moment donné, le système détectera automatiquement ce changement et l’intégrera dans ses prévisions.

Ils souhaitent également continuer à recueillir les commentaires des utilisateurs actuels de tspDB pour voir comment ils peuvent améliorer la fonctionnalité et la convivialité du système, a déclaré Shah.

“Notre intérêt au plus haut niveau est de faire de tspDB un succès sous la forme d’un système open source largement utilisable. Les données de séries chronologiques sont très importantes, et c’est un beau concept de construire des fonctionnalités de prédiction directement dans la base de données. Cela n’a jamais été fait auparavant, et nous voulons donc nous assurer que le monde l’utilise », dit-il.

“Ce travail est très intéressant pour un certain nombre de raisons. Il fournit une variante pratique de mSSA qui ne nécessite aucun réglage manuel, ils fournissent la première analyse connue de mSSA, et les auteurs démontrent la valeur réelle de leur algorithme en étant compétitif avec ou surpassant plusieurs algorithmes connus pour les imputations et les prédictions dans des séries chronologiques (multivariées) pour plusieurs ensembles de données du monde réel », explique Vishal Misra, professeur d’informatique à l’Université de Columbia qui n’a pas participé à cette recherche. “Au cœur de tout cela se trouve le magnifique travail de modélisation dans lequel ils exploitent intelligemment les corrélations dans le temps (au sein d’une série chronologique) et dans l’espace (à travers les séries chronologiques) pour créer une représentation factorielle spatio-temporelle de rang inférieur d’une série chronologique multivariée. Il est important de noter que ce modèle relie le domaine de l’analyse des séries chronologiques à celui du sujet en évolution rapide de l’achèvement des tenseurs, et je m’attends à beaucoup de recherches de suivi stimulées par cet article.”


Utiliser l’intelligence artificielle pour trouver des anomalies cachées dans des ensembles de données massifs


Plus d’information:
Anish Agarwal, Abdullah Alomar, Devavrat Shah, Sur l’analyse du spectre singulier multivarié et ses variantes. arXiv:2006.13448v3 [cs.LG]arxiv.org/abs/2006.13448

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Interface simplifiée pour les prédictions de données de séries chronologiques (2022, 28 mars) récupérée le 28 mars 2022 sur https://techxplore.com/news/2022-03-interface-time-series.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.