Archive for March, 2007
Correcteur grammatical… la suite
Je suis étudiante en 2ème année de Master recherche Industries de la langue.
Mon mémoire de recherche s’inscrit dans le prolongement du travail initié
par Myriam
Lechelt en 2005, à savoir le projet de développement d’un correcteur
grammatical libre pouvant être intégré à la suite OpenOffice.org.
Le travail effectué par Myriam a permis de montrer les limites des outils
Gramadoir (http://borel.slu.edu/gramadoir/)
de Kevin Scannell et LanguageTool (http://www.danielnaber.de/languagetool/)
de Daniel Naber pour leur adaptation à la correction grammaticale du
français.
LanguageTool a entre temps beaucoup évolué et la nouvelle version semble
plus adaptable au français que ne l’étaient l’ancienne version et
Gramadoir.
Mon travail va donc consister
- à reprendre le travail de Myriam Lechelt, notamment sur les règles
d’erreurs à compléter - à étudier la nouvelle version de LanguageTool et lui apporter les
modifications nécessaires à une meilleure adaptation à la grammaire
française, - dans le but d’obtenir un
Présentation de LanguageTool
LanguageTool est un correcteur libre de style et de grammaire, développé
initialement pour l’anglais par Daniel Naber et adapté par la suite à
d’autres langues comme l’allemand, le hongrois ou encore le polonais.
Il était à l’origine programmé en python mais a été entièrement réécrit en
java (pour un meilleur support du format XML utilisé notamment pour les
fichiers de règles d’erreurs, comme nous allons le voir pas la suite).
Il est composé de plusieurs modules qui effectuent successivement :
- la segmentation du texte à vérifier en phrases
- la segmentation des phrases en mots
- l’étiquetage morpho-syntaxique des mots : les mots ambigus reçoivent
plusieurs étiquettes correspondant aux diverses catégories
morpho-syntaxiques auxquelles ils peuvent appartenir ainsi qu’aux
différents traits qu’ils peuvent avoir dans une catégorie, et ils les
conservent toutes car aucune désambiguïsation n’est effectuée. Ainsi
bête aura les étiquettes <nom féminin singulier>, <adjectif
masculin singulier> et <adjectif féminin singulier>. - la