En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la catégorie grammaticale (nom, verbe, ajectif, adverbe, etc.), le genre, le nombre, etc. à l'aide d'un outil informatique[1],[2].
Exemple
Texte original : Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.
Les étiqueteurs grammaticaux sont très nombreux pour les langues saxonnes mais plus rares pour le français. Quelques étiqueteurs sont accessibles avec un modèle pour le français prêt à l'emploi comme le TreeTagger, LIA Tagg du Laboratoire informatique d'Avignon, Cordial Analyseur de Synapse Développement ou le Stanford Tagger de l'Université Stanford. De nombreux autres logiciels peuvent fonctionner pour le français mais doivent être entraînés sur un corpus français pré-étiqueté : le French Treebank[3] ou le corpus Sequoia[4] peuvent être utilisés dans ce sens. C'est le cas du logiciel Talismane, proposant une analyse morpho-syntaxique avec des modèles entrainés sur le French Treebank[5].
Notes et références
↑Valli A., Véronis J. Étiquetage grammatical des corpus de parole : problèmes et perspectives. Revue française de linguistique appliquée, Vol. 4, No. 2. (1999), pp. 113-133
↑Adda, G., Mariani, J., Paroubek, P., Rajman, M., & Lecomte, J. (1999). L'action GRACE d'évaluation de l'assignation des parties du discours pour le français. Langues, 2(1), 119-129