Nouvelle méthode de réglage pour les applications Spark SQL

Des chercheurs proposent une nouvelle méthode de réglage pour les applications Spark SQL

Un aperçu de LOCAT. 1 crédit

Spark SQL est un module Spark pour le traitement de données structurées. Il a été largement déployé dans l’industrie, mais il est difficile d’ajuster ses performances.

Les méthodes de réglage d’apprentissage automatique existantes sont difficiles à appliquer en pratique en raison du coût élevé en temps et de l’incapacité à s’adapter aux changements dans la quantité de données à traiter.

Pour résoudre ces problèmes, une équipe de recherche dirigée par le professeur Yu Zhibin du Shenzhen Institute of Advanced Technology (SIAT) de l’Académie chinoise des sciences a proposé une méthode d’optimisation de configuration automatique à faible coût en temps appelée Low-Overhead Online Configuration Auto-Tuning (LOCAT), ce qui pourrait réduire le temps d’optimisation et améliorer les performances de Spark SQL.

Les résultats ont été publiés à SIGMOD 2022, un forum international pour les chercheurs, les praticiens, les développeurs et les utilisateurs de bases de données. Le document associé se trouve dans Actes de la Conférence internationale 2022 sur la gestion des données.

Les chercheurs ont d’abord conçu des techniques d’analyse de la sensibilité des requêtes et des paramètres de configuration pour LOCAT. Les requêtes insensibles aux paramètres de configuration ont été identifiées et supprimées d’une charge de travail donnée lors de la collecte d’échantillons d’apprentissage.

“Pour les requêtes restantes, LOCAT a calculé des coefficients de corrélation pour identifier les paramètres de configuration importants”, a déclaré le professeur Yu. “Ensuite, il applique l’analyse des composants principaux du noyau pour réduire la dimension de la recherche des paramètres de configuration.”

Enfin, les chercheurs ont conçu l’optimisation bayésienne pour LOCAT, qui est conscient de la taille de l’ensemble de données pour rechercher la configuration optimale afin que ses performances puissent être automatiquement optimisées en fonction de la taille de l’ensemble de données.

Les résultats expérimentaux sur le cluster ARM (un cluster de serveurs pour le calcul du big data, dans lequel chaque serveur utilise un processeur basé sur l’instruction ARM) ont montré que le LOCAT accélérait les procédures d’optimisation des approches de l’état de l’art d’au moins 4,1x et jusqu’à 9,7x. De plus, le LOCAT a amélioré les performances de l’application d’au moins 1,9x et jusqu’à 2,4x. Sur le cluster x86, LOCAT a montré des résultats similaires à ceux du cluster ARM.


Méthode de conception optimale intégrée de systèmes électromécaniques complexes


Plus d’information:
Jinhan Xin et al, LOCAT : réglage automatique de la configuration en ligne à faible surcharge des applications Spark SQL, Actes de la Conférence internationale 2022 sur la gestion des données (2022). DOI : 10.1145/3514221.3526157

Fourni par l’Académie chinoise des sciences

Citation: Nouvelle méthode de réglage pour les applications Spark SQL (16 juin 2022) récupérée le 16 juin 2022 sur https://techxplore.com/news/2022-06-tuning-method-sql-applications.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.