Types of Errors Hiding in Google Scholar Data

Romy Sauvayre

Article Dans Une Revue Journal of Medical Internet Research Année : 2022

Types of Errors Hiding in Google Scholar Data

Les types d'erreurs dissimulées dans les données Google Scholar

(1)

Romy Sauvayre

Fonction : Auteur
PersonId : 3481
IdHAL : romy-sauvayre
ORCID : 0000-0003-0806-6234
IdRef : 15181922X

Laboratoire de Psychologie Sociale et Cognitive

Résumé

Google Scholar (GS) is a free tool that may be used by researchers to analyze citations, to find appropriate literature or to evaluate the quality of an author or a contender for tenure, promotion, a faculty position, funding or research grants. GS has become a major bibliographic and citation database. Following the literature, databases such as PubMed, PsycINFO, Scopus or Web of Science can be used in place of GS because they are more reliable. The aim of this study is to examine the accuracy of citation data collected from GS and provide a comprehensive description of the errors and miscounts identified. For this purpose, 281 documents that cited two specific works were retrieved from the Publish or Perish software and examined. This work studied the false positive issue inherent in the analysis of neuroimaging data. The results reveal an unprecedented error rate: 279 of 281 examined references (99.3%) contain at least one error. The nonacademic documents tend to contain more errors than academic publications (U=5117.0, P<.001). Google Scholar data not only fail to be accurate but also potentially expose those researchers who would use these data without verification to substantial biases in their analyses and results. This viewpoint article, based on a case study, suggests reflecting on the consequences of using GS data extracted by Publish or Perish (PoP) software.

L’objectif de la présente étude est d’explorer les données extraites de Google Scholar via le logiciel Publish or Perish afin de fournir une description détaillée et quantifiée des erreurs rencontrées. Pour ce faire, nous avons examiné les 174 documents citant un poster et un article visant à sensibiliser la communauté scientifique sur la question des faux positifs en neuroimagerie. Les résultats obtenus montrent un taux d’erreur sans précédent : 99,3 % des références examinées contiennent au moins une erreur. En conséquence, le chercheur ne peut raisonnablement pas exploiter les données Google Scholar sans s’exposer à de nombreuses erreurs, générant autant de biais dans les analyses et résultats produits.

Mots clés

Reference accuracy database reliability False positive Academic publications Research evaluation en Scientometric Citation analysis

Erreur de référencement Faux positifs Publications académiques Evaluation de la recherche Scientométrie

Domaines

Sociologie

Fichier principal

Sauvayre, What types of errors are hiding in Google Scholar data_final_accepted.pdf (1.07 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Romy Sauvayre : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03609870

Soumis le : vendredi 6 mai 2022-08:37:18

Dernière modification le : samedi 22 avril 2023-04:28:47

Archivage à long terme le : dimanche 7 août 2022-18:11:01

Dates et versions

hal-03609870 , version 1 (06-05-2022)

Identifiants

HAL Id : hal-03609870 , version 1

Citer

Romy Sauvayre. Types of Errors Hiding in Google Scholar Data. Journal of Medical Internet Research, inPress. ⟨hal-03609870⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

PRES_CLERMONT CNRS LAPSCO

91 Consultations

315 Téléchargements

Types of Errors Hiding in Google Scholar Data

Les types d'erreurs dissimulées dans les données Google Scholar

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager