Une équipe de recherche formalise un nouveau concept de traitement de flux de données

ORNL, Google et Snowflake formalisent un nouveau concept de traitement de flux de données

Les filigranes, considérés comme le mécanisme le plus efficace pour suivre l’intégralité du traitement des données en continu, permettent de traiter de nouvelles tâches immédiatement après l’achèvement des tâches précédentes. Crédit : Nathan Armistead, ORNL

Une équipe de collaborateurs du laboratoire national d’Oak Ridge du département américain de l’Énergie, de Google Inc., de Snowflake Inc. et de Ververica GmbH a testé un concept informatique qui pourrait aider à accélérer le traitement en temps réel des données diffusées sur les appareils mobiles et autres appareils électroniques.

Le concept explore la fonction des filigranes, considérés comme le mécanisme le plus efficace pour suivre l’intégralité du traitement des données en continu. Les filigranes permettent de traiter de nouvelles tâches immédiatement après la fin des tâches précédentes.

Pour mieux comprendre l’utilité des filigranes, les chercheurs ont étudié le calcul de flux de données sur deux systèmes de traitement de flux de données différents. Ils ont présenté les résultats lors de la 47e Conférence internationale sur les très grandes bases de données, qui s’est tenue en août à Copenhague, au Danemark, et virtuellement. L’article qu’ils ont présenté est l’un des premiers à tester et à examiner formellement les filigranes dans un cadre de recherche fondamentale.

« Il n’y a pas eu de mécanisme clair et efficace pour suivre les phénomènes d’intérêt dans un flux de données au fil du temps et à travers différents pipelines de traitement de données », a déclaré Edmon Begoli, chef de la section AI Systems à la Direction des sciences de la sécurité nationale de l’ORNL. « Le filigrane est un concept en devenir qui fait progresser l’état de l’art dans les cadres de traitement de flux. »

Les informaticiens recherchent en permanence des moyens d’étudier les données en temps réel afin de mieux anticiper les besoins des consommateurs, d’estimer l’offre et la demande et de fournir des informations plus précises aux consommateurs. Mais au cours des 10 dernières années, la gestion des données est devenue de plus en plus difficile. Ce défi est en partie dû à l’essor de l’informatique en temps réel et des interactions sur les sites de médias sociaux, dans les plateformes autonomes comme les voitures autonomes et sur les appareils mobiles.

Pour déterminer comment différentes plates-formes pourraient traiter efficacement les données en temps réel, l’équipe a comparé les filigranes sur les deux qui permettent actuellement la mise en œuvre la plus avancée d’entre elles : Apache Flink, un framework open source de traitement par flux et par lots, et Google Cloud Dataflow, un service d’analyse en continu. Cloud Dataflow est une plate-forme tolérante aux pannes, optimisée pour le traitement parallèle des données en streaming à l’échelle mondiale. Flink, quant à lui, est conçu pour traiter les flux de données rapidement et efficacement, offrant des performances élevées par rapport à Cloud Dataflow.

« Nous voulions voir comment ceux-ci fonctionnent sur deux implémentations différentes et voir comment ils pourraient être utiles pour différents types de services de streaming », a déclaré Begoli.

Les chercheurs ont découvert que la propagation des filigranes de Cloud Dataflow a tendance à avoir des latences plus élevées (des retards dans le transfert de données) et que la latence de Flink augmente de manière non linéaire à mesure que la profondeur du pipeline et le nombre de nœuds de calcul augmentent. Cependant, les deux systèmes open source, qui ont été construits par la même communauté, offrent une expérience utilisateur similaire.

Begoli a déclaré que les filigranes offrent finalement plus de flexibilité que les méthodes précédentes de traitement de flux. Dans le contexte des recherches du DOE et de l’ORNL, ils seront utiles pour analyser des cyber-événements complexes ainsi que pour collecter des données à partir de sources multiples et à différentes échelles de temps, telles que des capteurs qui mesurent les statistiques de santé, les comportements et mouvements humains ou les interactions environnementales.

« Souvent, il y a trop de choses complexes que nous voulons suivre », a déclaré Begoli. « Si vous voulez capturer toutes les manifestations qui vous intéressent et savoir quand un événement commence et se termine à travers toutes les sources, un concept comme le filigrane est très important. »

À l’avenir, l’équipe cherchera à généraliser les filigranes sur différentes sources de données en streaming et à formaliser les compromis de performances émanant de différents styles de mise en œuvre, tels que ceux représentés par les styles architecturaux Flink par rapport aux styles architecturaux Cloud Dataflow.

Cette recherche a tiré parti des ressources internes de l’ORNL.


Protéger la propriété intellectuelle de l’IA avec le filigrane


Plus d’information:
Le document est disponible au format PDF sur vldb.org/pvldb/vol14/p3135-begoli.pdf

Fourni par le Laboratoire national d’Oak Ridge

Citation: Une équipe de recherche formalise un nouveau concept de traitement de flux de données (2021, 16 novembre) récupéré le 16 novembre 2021 à partir de https://techxplore.com/news/2021-11-team-formalizes-stream-concept.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.