Nouveautés
Octobre 2016
Diffusion Complète du Corpus QUAERO Médical du Français
Accéder

Décembre 2015
Première Diffusion du Corpus QUAERO Médical du Français
En savoir plus


Sommaire

Corpus QUAERO Médical du français

Introduction

Le corpus QUAERO Médical du français est une ressource développée dans le cadre de la recherche en reconnaissance d'entité et normalisation [1]. Le corpus a ensuite été amélioré dans le but de créer un jeu de référence normalisé pour les entités nommées dans domaine biomédical. Ce corpus a été utilisé dans le cadre des campagnes d'évaluation CLEF eHealth[2][3].

Une sélection de titres MEDLINE et de documents EMEA ont été annotés manuellement. Les annotations s'appuient sur les concepts de l'UMLS (Unified Medical Language System):

1. Dix types d'entités cliniques sont annotées, selon les définitions des groupes sémantiques de l'UMLS (Bodenreider and McCray 2003): Anatomy, Chemical and Drugs, Devices, Disorders, Geographic Areas, Living Beings, Objects, Phenomena, Physiology, Procedures.

2. Les annotations ont été faites avec une couverture aussi large que possible, de sorte que des entités imbriquées sont marquées et une même entité peut renvoyer à plus d'un concept UMLS. Spécifiquement: (a) Si une mention renvoie à plus d'un Groupe Sémantique, elle doit être annotée pour tous les Groupes Sémantiques pertinents. Par exemple, la mention “récidive” dans l'expression “prévention des récidives” doit être annotée avec les catégories “DISORDER” (CUI C2825055) et “PHENOMENON” (CUI C0034897); (b) Si une mention renvoie à plus d'un concept à l'intérieur d'un même Groupe Sémantique, tous les concepts pertinents doivent être marqués. Par exemple, la mention “maniaques” dans l'expression “patients maniaques” doit être annotée avec les CUIs C0564408 et C0338831 (categorie “DISORDER”); (c) Les entités qui présentent un recouvrement avec d'autres entités doivent être marquées indépendemment. Par exemple, dans l'expression “infarctus du myocarde”, la mention “myocarde” doit être annotée avec la catégorie “ANATOMY” (CUI C0027061) et la mention “infarctus du myocarde” doit être annotée avec la catégorie “DISORDER” (CUI C0027051)

Nous présentons ci-dessous des exemples d'annotations extraites du corpus QUAERO Médical du français:

Licence

Le Corpus médical QUAERO est distribué sous licence GFDL (GNU Free Documentation License).

Les titres d'articles scientifiques utilisés dans ce corpus ont été extraits de la base MEDLINE™ de la US National Library of Medicine (NLM) en 2013. Les titres ont ensuite été annotés. Aucune mise à jour des titres n'a été effectuée depuis 2013. Ainsi, les titres figurant dans le corpus peuvent différer de ceux contenus dans la version actuelle de MEDLINE.

Tout travail décrivant des expériences reposant sur ce corpus devrait citer la source suivante:

Névéol A, Grouin C, Leixa J, Rosset S, Zweigenbaum P. The QUAERO French Medical Corpus: A Ressource for Medical Entity Recognition and Normalization. Fourth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing - BioTxtM2014. 2014:24-30

Voici la citation au format Bibtex:

@InProceedings{neveol14quaero, 
  author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy 
            and Rosset, Sophie and Zweigenbaum, Pierre},
  title = {The {QUAERO} {French} Medical Corpus: A Ressource for
           Medical Entity Recognition and Normalization}, 
  OPTbooktitle = {Proceedings of the Fourth Workshop on Building 
                 and Evaluating Ressources for Health and Biomedical 
                 Text Processing}, 
  booktitle = {Proc of BioTextMining Work}, 
  OPTseries = {BioTxtM 2014}, 
  year = {2014}, 
  pages = {24--30}, 
}
             

Format des Fichiers

Les annotations sont fournies au format déporté compatible avec l'outil BRAT: http://brat.nlplab.org/standoff.html.

Les annotations ont également été converties au format BioC à l'aide de l'outil Brat2BioC.

Des exemples d'annotations au format BRAT sont présentés ci-dessous.

Sample MEDLINE title 1
La contraception par les dispositifs intra utérins
Sample MEDLINE title 1 annotations
T1 PROC 3 16 contraception
#1 AnnotatorNotes T1 C0700589
T2 DEVI 25 50 dispositifs intra utérins
#2 AnnotatorNotes T2 C0021900
T3 ANAT 43 50 utérins
#3 AnnotatorNotes T3 C0042149
Sample MEDLINE title 2
Méningites bactériennes de l' adulte en réanimation médicale .
Sample MEDLINE title 2 annotations
T1 DISO 0 23 Méningites bactériennes
#1 AnnotatorNotes T1 C0085437
T2 LIVB 29 36 adulte
#2 AnnotatorNotes T2 C0001765
T3 PROC 40 60 réanimation médicale
#3 AnnotatorNotes T3 C0085559
Sample EMEA document (excerpt)
(...)
Dans quel cas Tysabri est-il utilisé ?
Tysabri est utilisé dans le traitement des adultes atteints de sclérose en plaques ( SEP ).
(...)
Sample EMEA document annotations (excerpt)
(...)
T9 CHEM 206 213 Tysabri
#9 AnnotatorNotes T9 C1529600
T10 CHEM 233 240 Tysabri
#10 AnnotatorNotes T10 C1529600
T11 PROC 261 271 traitement
#11 AnnotatorNotes T11 C0087111
T12 LIVB 276 283 adultes
#12 AnnotatorNotes T12 C0001675
T13 DISO 296 315 sclérose en plaques
#13 AnnotatorNotes T13 C0026769
T14 DISO 318 321 SEP
#14 AnnotatorNotes T14 C0026769
(...)

Téléchargement

Version disponible en Octobre 2016, sous forme d'une archive des données utilisées lors de CLEF eHealth 2015 (Tâche 1b) et CLEF eHealth 2016 (Tâche 2): Téléchargement au Format BRAT.

Version disponible en Octobre 2016, conversion automatique du corpus distribué sans outil d'évaluation: Téléchargement au Format BioC.

Dossier Entrainement
MEDLINE Corpus Description Number of Files
.txt Corpus text files: article titles (in French) 833 files
.ann annotation files in BRAT stand-off format 833 files
.conf BRAT configuration files 3 files
EMEA Corpus Description Number of Files
.txt Corpus text files: EMEA drug inserts (in French) 3 documents, segmented into 11 files
.ann annotation files in BRAT stand-off format 11 files
.conf BRAT configuration files 3 files
Dossier Developement
Corpus MEDLINE Description Nombre de Fichiers
.txt Corpus (fichiers texte): titres d'articles (en Français) 832 files
.ann fichiers annotation au format déporté BRAT 832 fichiers
.conf fichiers de configuration BRAT 3 fichiers
Corpus EMEA Description Nombre de Fichiers
.txt Corpus (fichiers texte): Information médicaments EMEA (en Français) 3 documents, segmentés en 12 fichiers
.ann fichiers annotation au format déporté BRAT 12 fichiers
.conf fichiers de configuration BRAT 3 fichiers
Dossier Test
Corpus MEDLINE Description Nombre de Fichiers
.txt Corpus (fichiers texte): titres d'articles (en Français) 833 files
.ann fichiers annotation au format déporté BRAT 833 fichiers
.conf fichiers de configuration BRAT 3 fichiers
Corpus EMEA Description Nombre de Fichiers
.txt Corpus (fichiers texte): Information médicaments EMEA (en Français) 4 documents, segmentés en 15 fichiers
.ann fichiers annotation au format déporté BRAT 15 fichiers
.conf fichiers de configuration BRAT 3 fichiers
Dossier Evaluation
Logiciel Description Nombre de Fichiers
.jar outil brateval avec fonctionalités développées spécifiquement pour la tâche 1b de CLEF e-Health 2015 1 archive

Personnes impliquées

  • Cyril Grouin
  • Jeremy Leixa
  • Aurélie Névéol
  • Sophie Rosset
  • Xavier Tannier
  • Pierre Zweigenbaum

Publications

  • [1] Névéol A, Grouin C, Leixa J, Rosset S, Zweigenbaum P. The QUAERO French Medical Corpus: A Ressource for Medical Entity Recognition and Normalization. Fourth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing - BioTxtM2014. 2014:24-30 [pdf]
  • [2] Névéol A, Grouin C, Tannier X, Hamon T, Kelly L, Goeuriot L, Zweigenbaum P. (2015) Task 1b of the CLEF eHealth Evaluation Lab 2015: Clinical Named Entity Recognition. CLEF 2015 Evaluation Labs and Workshop: Online Working Notes, CEUR-WS, September, 2015.[pdf]
  • [3] Névéol A, Cohen, KB, Grouin C, Hamon T, Lavergne T, Kelly L, Goeuriot L, Rey G, Robert A, Tannier X, Zweigenbaum P. Clinical Information Extraction at the CLEF eHealth Evaluation lab 2016. CLEF 2016, Online Working Notes, CEUR-WS 1609.2016:28-42.[pdf]

Remerciements

Ce travail a bénéficié du soutien financier d'OSEO via le programme Quaero et de l' ANR CABeRNeT (ANR-13-JS02-009).