Apache OpenNLP

Apache OpenNLP
Udvikler(e)The Apache Software Foundation
Udgivet19. juli 2004[1] 14. april 2012[2]
Stabil version2.5.7 (11. december 2025[3])
Skrevet iJava
PlatformLinux
Mac OS X
Windows
LicensApache-licens
Hjemmesidehttps://opennlp.apache.org/

Apache OpenNLP er et værktøjssæt, der udnytter Maskinlæring til Natural Language Processing (NLP). Det understøtter de mest almindelige opgaver inden for NLP, såsom sprog detektion, tokenisation, sætningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Disse typer opgaver er normalt nødvendige for at udvikle mere avancerede tekstbehandlingstjenester.

Biblioteket er skrevet i Java og kan nemt integreres i Java-projekter eller projekter, der bruger Java Virtual Machine (JVM)[4].

Detaljer

  • Sprogdetektering: »LanguageDetector« kræver en trænet model. OpenNLP tilbyder selv den fuldt trænede model langdetect-183.bin som download. Den kan identificere 103 sprog [5].
  • Sætningsgenkendelse: »SentenceDetector« genkender, om et punktum markerer slutningen af en sætning, eller om det har en anden betydning. Her er det igen nødvendigt at specificere en trænet skabelon. OpenNLP leverer skabeloner til forskellige sprog, f.eks. opennlp-da-ud-ddt-sentence-1.3-2.5.4.bin til sætningsgenkendelse i dansk tekster.[6].
  • Tokenisering: Tokenizeren opdeler en tegnstreng i tokens. Tokens er normalt ord, tegnsætning, tal osv.
  • Part-of-speech labelling: OpenNLP har et udvalg af prætrænede skabeloner til 36 sprog (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse skabeloner kan bruges til automatisk at mærke et tekstkorpus på et af disse sprog.[7]
  • Udtrækning af navngivne enheder: »TokenNameFinder« kan genkende navngivne enheder og tal i tekst. Der kræves en skabelon for at genkende enheder. Skabelonen afhænger af sproget og den type enhed, den er trænet til. OpenNLP-projektet tilbyder en række prætrænede modeller, som er blevet trænet på forskellige frit tilgængelige korpora. De kan downloades fra siden med download af skabeloner.

Se også

Kilder

  1. ^ "OpenNLP Tools initial release" (engelsk). Hentet 5. januar 2025.
  2. ^ "projects.apache.org" (engelsk). Hentet 5. januar 2025.
  3. ^ "Apache OpenNLP 2.5.7 released" (engelsk). Hentet 11. december 2025.
  4. ^ "Apache OpenNLP - Building from Source" (engelsk). Hentet 5. januar 2025.
  5. ^ "Apache OpenNLP - Language Detection Model" (engelsk). Hentet 5. januar 2025.
  6. ^ "Apache OpenNLP - Sentence Detection Models" (engelsk). Hentet 5. januar 2025.
  7. ^ "Apache Stanbol - OpenNLP POS Tagging Engine" (engelsk). Hentet 5. januar 2025.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.