French ELTEC NER Open Dataset
Please use the following text to cite this item or export to a predefined format:
Brando, Carmen; Frontini, Francesca and Galleron, Ioana, 2022, French ELTEC NER Open Dataset, CLARIN DSpace, http://hdl.handle.net/20.500.11752/OPEN-986
Authors
Item identifier
Project URL
Referenced by
Date issued
2022-10-19
Size
116225 tokens
Language(s)
Description
This dataset is derived from the annotation of named entities in a collection of 100 French novels from the "long" 19th century. The collection was assembled in the framework of the COST Action 16204 "Distant reading", and can be found at the following address: [https://distantreading.github.io/ELTeC/fra/index.html].
From these 100 novels, samples of varying size were extracted and annotated with Stanza-NER. The result was loaded onto Tagtog, for manual verification and re-annotation. We used 8 categories of named entities:
e_1 PERS: names of persons
e_2 LOC: place names
e_3 ORG: names of institutions, organisations
e_4 OTHER
e_5 WORK: works of art (only if they can be identified with certainty, e.g. "Mona Lisa" and not "a painting by Leonardo da Vinci")
e_6 DEMO: (names of distinct peoples or social groups: do not annotate "the weavers", but annotate "the Jacobins")
e_7 ROLE: occupation, social position, family role of the person
e_8 EVENT: designation of historical events, which sometimes, but not necessarily, implies a date (e.g. "the revolution of 18..", "the battle of Jarnac")
The data are loaded in the export formats provided by Tagtog:
-- json for annotations
-- html for text (without annotations)
For more information on the steps of data elaboration, annotation choices and quality control, see the data paper mentioned above.
The NER annotation of the entire ELTeC corpus is described in: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177.
https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
--------
Ce jeu de données est issu de l’annotation des entités nommées dans une collection de 100 romans français du “long” XIXe siècle. La collection a été rassemblée dans le cadre de l’action COST 16204 “Distant reading”, et peut être trouvée à l’adresse suivante: [https://distantreading.github.io/ELTeC/fra/index.html].
À partir de ces 100 romans, des échantillons de taille variable ont été extraits, puis annotés avec Stanza-NER. Le résultat a été chargé sur Tagtog, pour vérification manuelle et ré-annotation. Nous avons utilisé 8 catégories d’entités nommées:
e_1 PERS: noms de personnes
e_2 LOC: noms de lieu
e_3 ORG: noms d’institutions, organisations
e_4 OTHER
e_5 WORK: œuvres d’art (seulement si elle peut être identifiée avec certitude, ex. “Mona Lisa” et non pas “un tableau de Leonard de Vinci”)
3_6 DEMO: (noms de peuples ou groupes sociaux distincts: on n’annote pas “les tisserands”, mais on annote “les Jacobins”)
e_7 ROLE: indications sur le métier, la position sociale, le rôle familial de la personne
e_8 EVENT: désignation d’événements historiques, ce qui suppose parfois, mais pas obligatoirement, une date (ex. “la révolution de 18..”, “la bataille de Jarnac”)
Les données sont chargées dans les formats d’export fournis par Tagtog:
-- json pour les annotations
-- html pour les textes (sans les annotations)
Pour plus d’informations sur les étapes d’élaboration des données, les choix d’annotation et le contrôle de la qualité, voir le data paper cité plus haut.
L'annotation des entités nommées du corpus ELTeC complet est décrite dans: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177.
https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
Acknowledgement
COST Action
Project code:CA16204
Project name:Distant Reading for European Literary History
Subject(s)
Collections
This item isPublicly Available
and licensed under:
Files in this item
- Name
- French_ELTEC_NER_Open_Dataset.zip
- Size
- 815.65 KB
- Format
- application/zip
- Description
- Zip
- MD5
- d8d24fc5a48eab6ce1d18d3f6c9fc1c3

The file preview has not been generated yet. Please try again later or contact the system administrator test@test.sk