Types of Errors Hiding in Google Scholar Data - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Journal of Medical Internet Research Année : 2022

Types of Errors Hiding in Google Scholar Data

Les types d'erreurs dissimulées dans les données Google Scholar

Résumé

Google Scholar (GS) is a free tool that may be used by researchers to analyze citations, to find appropriate literature or to evaluate the quality of an author or a contender for tenure, promotion, a faculty position, funding or research grants. GS has become a major bibliographic and citation database. Following the literature, databases such as PubMed, PsycINFO, Scopus or Web of Science can be used in place of GS because they are more reliable. The aim of this study is to examine the accuracy of citation data collected from GS and provide a comprehensive description of the errors and miscounts identified. For this purpose, 281 documents that cited two specific works were retrieved from the Publish or Perish software and examined. This work studied the false positive issue inherent in the analysis of neuroimaging data. The results reveal an unprecedented error rate: 279 of 281 examined references (99.3%) contain at least one error. The nonacademic documents tend to contain more errors than academic publications (U=5117.0, P<.001). Google Scholar data not only fail to be accurate but also potentially expose those researchers who would use these data without verification to substantial biases in their analyses and results. This viewpoint article, based on a case study, suggests reflecting on the consequences of using GS data extracted by Publish or Perish (PoP) software.
L’objectif de la présente étude est d’explorer les données extraites de Google Scholar via le logiciel Publish or Perish afin de fournir une description détaillée et quantifiée des erreurs rencontrées. Pour ce faire, nous avons examiné les 174 documents citant un poster et un article visant à sensibiliser la communauté scientifique sur la question des faux positifs en neuroimagerie. Les résultats obtenus montrent un taux d’erreur sans précédent : 99,3 % des références examinées contiennent au moins une erreur. En conséquence, le chercheur ne peut raisonnablement pas exploiter les données Google Scholar sans s’exposer à de nombreuses erreurs, générant autant de biais dans les analyses et résultats produits.
Fichier principal
Vignette du fichier
Sauvayre, What types of errors are hiding in Google Scholar data_final_accepted.pdf (1.07 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03609870 , version 1 (06-05-2022)

Identifiants

  • HAL Id : hal-03609870 , version 1

Citer

Romy Sauvayre. Types of Errors Hiding in Google Scholar Data. Journal of Medical Internet Research, inPress. ⟨hal-03609870⟩
91 Consultations
315 Téléchargements

Partager

Gmail Facebook X LinkedIn More