Tesseract (software)

Tesseract; software
	Logo
	Tesseract 2.03, Ubuntu 9.04 (2009)Tesseract 2.03, Ubuntu 9.04 (2009)
Genere	Riconoscimento ottico dei caratteri
Sviluppatore	Google e altri
Ultima versione	5.5.0 (10 novembre 2024)
Sistema operativo	Linux; macOS; Microsoft Windows; OpenBSD
Linguaggio	C++
Licenza	Licenza Apache v. 2.0; (licenza libera)
Lingua	arabo, bulgaro, catalano, ceco, danese, olandese, hindi, inglese, finnico, esperanto, francese, tedesco, greco, ungherese, indonesiano, italiano, lettone, lituano, norvegese, polacco, portoghese, rumeno, russo, serbo, slovacco, sloveno, spagnolo, svedese, tagalog, tailandese, turco, ucraino, vietnamita
Sito web	github.com/tesseract-ocr
	Modifica dati su Wikidata · Manuale

Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .

Storia

Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada a Las Vegas, con la licenza Apache, versione 2.0, dal 2006 al novembre 2018 è stato sviluppato da Google^[1]. Attualmente lo sviluppo è portato avanti in modalità aperta da un gruppo di volontari e sviluppatori indipendenti.

Funzionamento

Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.

Si può provare l'uso del software da riga di comando digitando, in una finestra di terminale, il seguente comando:

tesseract <percorso del file di immagine> <nome del file di output>

Sarà generato automaticamente un file di testo con estensione «.txt».

GUI

In generale tesseract è utilizzabile solo da riga di comando o tramite API ma esistono diverse implementazioni che aggiungono un'interfaccia grafica, tra queste citiamo^[2]: