La recherche peut aider Twitter à fonctionner plus rapidement

Twitter

Crédit: Domaine public Pixabay / CC0

Les recherches de l’Université Carnegie Mellon pourraient bientôt aider Twitter à fonctionner plus rapidement et plus efficacement.

Juncheng Yang, un Ph.D. candidat en informatique, et Rashmi Vinayak, professeur adjoint au département d’informatique, a travaillé avec Yao Yue de Twitter pour développer Segcache afin de mieux utiliser le cache DRAM.

« Nous avons réalisé une étude à grande échelle sur la manière dont les éléments étaient stockés et accédés dans la cache, et sur la base de nos recherches, nous avons développé un système pour mieux utiliser l’espace précieux de la cache », a déclaré Yang. « Cela pourrait potentiellement permettre à Twitter de réduire de 60% la plus grande taille de cluster de cache. »

La recherche de l’équipe a remporté le Community Award pour avoir été l’un des meilleurs articles du symposium USENIX du mois dernier sur la conception et la mise en œuvre de systèmes en réseau.

La plupart des ordinateurs, des ordinateurs portables personnels aux serveurs hébergeant des millions de tweets, stockent les éléments dans l’un des deux systèmes suivants: les disques durs ou la mémoire vive dynamique (DRAM). Les disques durs stockent les éléments en permanence, tandis que la DRAM héberge les éléments à la demande, comme les fichiers stockés dans le cache. Les éléments de la DRAM peuvent être récupérés rapidement, mais la DRAM est relativement petite, coûteuse et consommatrice d’énergie. Comment mieux utiliser cet espace limité a toujours été un problème difficile à résoudre.

Lorsque vous ouvrez Twitter, les tweets affichés immédiatement dans le flux proviennent du cache. Sans cela, le chargement de la page d’accueil nécessite la récupération des tweets de toutes les personnes que vous suivez à partir du disque dur, ce qui prend beaucoup de temps et consomme des ressources système.

Segcache applique deux techniques pour mieux utiliser l’espace du cache. Premièrement, il regroupe les éléments pour permettre le partage de métadonnées entre eux. Les éléments du cache sont généralement petits – la longueur la plus courante d’un tweet est de 33 caractères. Cependant, les systèmes existants stockent de grandes quantités de métadonnées avec chaque élément, gaspillant ainsi un précieux espace de cache. Regrouper des éléments similaires et partager leurs métadonnées réduit cette surcharge et utilise le cache plus efficacement.

La deuxième technique consiste à repenser le système pour identifier et supprimer plus efficacement les articles périmés. Les éléments mis en cache ont généralement une durée de vie courte et, lorsque des éléments expirés persistent dans le cache, ils gaspillent un espace précieux. La nouvelle conception supprime ces éléments plus rapidement et avec moins d’analyses que les approches existantes, qui doivent analyser tous les éléments périodiquement.

Yang et Vinayak ont ​​déclaré que la collaboration avec Twitter était cruciale pour leur travail, car l’entreprise leur permettait d’étudier le système de production du réseau de médias sociaux. Twitter travaille maintenant à intégrer les recherches de l’équipe dans son système de production.

«Nous et nos collaborateurs de Twitter sommes très enthousiastes à propos de ce travail», a déclaré Vinayak. «Changer un système de production est fastidieux et les entreprises le font rarement pour intégrer les dernières recherches. Lorsque les recherches que nous effectuons sont utilisées dans le monde réel, c’est très excitant.


Les ingénieurs en informatique augmentent la vitesse des applications de plus de 9%


Plus d’information:
www.usenix.org/system/files/nsdi21-yang.pdf

Fourni par l’Université Carnegie Mellon

Citation: La recherche peut aider Twitter à fonctionner plus rapidement (2021, 11 mai) récupéré le 11 mai 2021 sur https://techxplore.com/news/2021-05-cmu-twitter-cache-efficiency.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.