A Scalable Document-based Architecture for Text Analysis

Ciprian-Octavian Truică; Jérôme Darmont; Julien Velcin

Communication Dans Un Congrès Année : 2016

A Scalable Document-based Architecture for Text Analysis

(1) , (2) , (2)

1
2

Ciprian-Octavian Truică

Fonction : Auteur
PersonId : 5322
IdHAL : ciprian-octavian-truica
IdRef : 253129265

University Politehnica of Bucharest [Romania]

Jérôme Darmont

Fonction : Auteur
PersonId : 14011
IdHAL : jerome-darmont
ORCID : 0000-0003-1491-384X
IdRef : 081304668

Entrepôts, Représentation et Ingénierie des Connaissances

Julien Velcin

Fonction : Auteur
PersonId : 967191
IdHAL : julien-velcin
ORCID : 0000-0002-2262-045X

Entrepôts, Représentation et Ingénierie des Connaissances

Résumé

Analyzing textual data is a very challenging task because of the huge volume of data generated daily. Fundamental issues in text analysis include the lack of structure in document datasets, the need for various preprocessing steps %(e.g., stem or lemma extraction, part-of-speech tagging, named entities recognition...), and performance and scaling issues. Existing text analysis architectures partly solve these issues, providing restrictive data schemas, addressing only one aspect of text preprocessing and focusing on one single task when dealing with performance optimization. %As a result, no definite solution is currently available. Thus, we propose in this paper a new generic text analysis architecture, where document structure is flexible, many preprocessing techniques are integrated and textual datasets are indexed for efficient access. We implement our conceptual architecture using both a relational and a document-oriented database. Our experiments demonstrate the feasibility of our approach and the superiority of the document-oriented logical and physical implementation.

Mots clés

Indexing Methods Document-Oriented Databases Text Analytics

Domaines

Base de données [cs.DB]

Fichier principal

adma2016paper44-cr.pdf (296.52 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Jérôme Darmont : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01380064

Soumis le : lundi 19 décembre 2016-09:19:17

Dernière modification le : samedi 10 décembre 2022-16:59:21

Archivage à long terme le : lundi 20 mars 2017-22:10:02

Dates et versions

hal-01380064 , version 1 (19-12-2016)

Licence

Paternité

Identifiants

HAL Id : hal-01380064 , version 1
ARXIV : 1612.06195

Citer

Ciprian-Octavian Truică, Jérôme Darmont, Julien Velcin. A Scalable Document-based Architecture for Text Analysis. 12th International Conference on Advanced Data Mining and Applications (ADMA 2016), Dec 2016, Gold Coast, Australia. pp.481-494. ⟨hal-01380064⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LYON1 UNIV-LYON2 ERIC LABEXIMU UDL

76 Consultations

471 Téléchargements

A Scalable Document-based Architecture for Text Analysis

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager