Un nouveau cadre pour les données de grattage Web afin d’assurer leur validité pour une utilisation dans les études marketing

réseau internet

Crédit : domaine public CC0

Des chercheurs de l’Université Erasmus de Rotterdam, de l’Université de Tilburg, de l’INSEAD et de l’Université d’Oxford ont publié un nouvel article dans le Revue de Marketing qui propose un cadre méthodologique axé sur l’amélioration de la validité des données Web.

L’étude est rédigée par Johannes Boegershausen, Hannes Datta, Abhishek Borah et Andrew T. Stephen.

La récente décision du Ninth Circuit dans HiQ Labs v. LinkedIn souligne l’importance de naviguer dans les défis juridiques lors de l’utilisation du web scraping pour collecter des données pour la recherche universitaire. Bien qu’il puisse être permis de collecter des informations à partir de sites accessibles au public, les chercheurs doivent toujours être prudents quant à la manière dont ils conçoivent leur logiciel d’extraction. Par exemple, la collecte d’informations à partir de profils d’utilisateurs accessibles au public dans certaines juridictions peut déclencher des problèmes de confidentialité et inciter les chercheurs à anonymiser leurs données lors de la collecte.

Alors que les chercheurs en marketing utilisent de plus en plus les données Web, les défis idiosyncratiques et parfois insidieux de leur collecte ont reçu une attention limitée. Comment les chercheurs peuvent-ils s’assurer que les ensembles de données générés via le web scraping et les API sont valides ? Cette équipe de recherche a développé un nouveau cadre qui met en évidence la façon dont la résolution des problèmes de validité nécessite la prise en compte conjointe de questions techniques et juridiques/éthiques idiosyncratiques.

Les auteurs affirment que leur “cadre couvre le large éventail de problèmes de validité qui se posent au cours des trois étapes de la collecte automatique de données Web à des fins universitaires : sélection des sources de données, conception de la collecte de données et extraction des données. En discutant du cadre méthodologique , nous proposons un exemple de marketing stylisé à titre d’illustration. Nous fournissons également des recommandations pour relever les défis rencontrés par les chercheurs lors de la collecte de données Web via le web scraping et les API.

L’article fournit en outre une revue systématique de plus de 300 articles utilisant des données Web publiées dans les cinq principales revues de marketing. À l’aide de cette revue, les chercheurs expliquent comment les données Web ont fait progresser la pensée marketing. Comprendre la richesse et la polyvalence des données Web est inestimable pour les chercheurs désireux de les intégrer dans leurs programmes de recherche.

Les chercheurs intéressés peuvent accéder à la base de données développée pour cette revue sur le site Web associé. Ce site Web propose également des ressources et des didacticiels utiles supplémentaires pour la collecte de données Web via le grattage Web et les API.

Les chercheurs ajoutent qu’ils utilisent leur “cadre méthodologique et leur typologie pour découvrir de nouveaux” champs d’or “sous-exploités associés aux données Web. Nous cherchons à démystifier l’utilisation du web scraping et des API et ainsi faciliter une adoption plus large des données Web dans la discipline du marketing. . Notre section Future Research met en évidence des voies nouvelles et créatives d’utilisation des données Web, notamment l’exploration de sources sous-utilisées, la création de riches ensembles de données multi-sources et l’exploitation complète du potentiel des API au-delà de l’extraction de données.


Un juge ordonne à LinkedIn de cesser de bloquer l’entreprise de grattage de données


Plus d’information:
Johannes Boegershausen et al, EXPRESS : Fields of Gold : Scraping Web Data for Marketing Insights, Revue de Marketing (2022). DOI : 10.1177/00222429221100750

Base de données Web : web-scraping.org/

Fourni par American Marketing Association

Citation: Un nouveau cadre pour les données de grattage Web afin d’assurer leur validité pour une utilisation dans les études marketing (2 juin 2022) récupéré le 2 juin 2022 sur https://techxplore.com/news/2022-06-framework-web-validity.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.