Constraint Grammar
Constraint Grammar (CG) er et metodologisk paradigme inden for sprogteknologi og består af en række kontekst-afhængige regler som beskriver et naturligt sprogs grammatik ved først at tillægge tags til ord som indskrænker hvilke grammatiske tolkninger (læsninger), de kan have.
Typiske eksempler på forskellige slags mærkater er lemmatisering (leksemer eller ordrødder), bøjningsform, afledning, syntaktisk funktion, afhængigheder, valens, betydningsroller, semantisk type osv.
Hver regel i en constraint grammar tilføjer, fjerner, vælger eller erstatter et eller flere grammatiske mærkater for ordene i en sætning. En regel kan aktiveres/blokeres af tilstedeværelsen/fraværet af mærkater eller ord.
Typiske constraint grammars til naturlige sprog består af tusinder af regler som anvendes i mængder af gangen i en bestemt rækkefølge sådan at den første mængde regler giver den simpleste grammatiske analyse og de senere regler giver gradvist mere kompleks grammatisk analyse. Inden for hvert niveau af regler anvendes først "sikre" regler og herefter heuristikker hvor gæt tillades.
Oprindelse
Konceptet constraint grammar blev først formuleret af Fred Karlsson i 1990, og sidenhen er CG-taggere og -parsere blevet lavet til adskillige sprog med F-scorer på over 99% for genkendelse af ordklasser, over 95% for mærkater med syntaktisk funktion.
Anvendelser
Constraint grammars kan bruges til at danne syntakstræer i andre formalismer ved at tilføje små non-terminale phrase structure grammars eller dependency grammars. En mængde Treebank-projekter har benyttet CG til automatisk annotering. CG er også blevet anvendt i stavekontroller og systemer til maskinoversættelse.
Implementeringer
Den første implementering var CGP af Fred Karlsson fra 1990. Den var LISP-baseret og baseret på LISP's s-udtryk.
Pasi Tapanainens CG-2-reimplementering mdis er lavet i C++ og fjernede nogle af parenteserne i grammatikformatet og forbedrede ydeevnen ved at fortolke grammatikken ved hjælp af en tilstandsmaskine med to bånd (eng. finite state transducer).
VISL-gruppen ved Syddansk Universitet reimplementerede efterfølgende CG-2 i form af open source-projektet VISL CG. Den blev senere til VISL CG-3[1] og der ændredes yderligere på grammatikformatet ved bl.a. at tilføje navngivne relationer og variable. VISL-implementeringerne benytter ikke en tilstandsmaskine.
Referencer
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.