Forskel mellem versioner af "MediaWiki:Gotisk skrift"
Hp (diskussion | bidrag) m |
Hp (diskussion | bidrag) m |
||
(En mellemliggende version af den samme bruger vises ikke) | |||
Linje 19: | Linje 19: | ||
En kommandopromt åbnes og der skiftes til den rette filmappe med kommandoen: | En kommandopromt åbnes og der skiftes til den rette filmappe med kommandoen: | ||
− | <code>cd c:\ | + | <code>cd c:\Program Files (x86)\Tesseract-OCR</code> |
Fra kommandopromten startes programmet med følgende syntaks: | Fra kommandopromten startes programmet med følgende syntaks: | ||
Linje 28: | Linje 28: | ||
==== Instruktion ==== | ==== Instruktion ==== | ||
− | * [[ws:de:Hilfe:Tesseract-Texterkennung]] | + | * [[ws:de:Hilfe:Tesseract-Texterkennung]] [//finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/] |
* http://www.lwl.org/waa-download/pdf/Installation%20OCR%20Software.pdf | * http://www.lwl.org/waa-download/pdf/Installation%20OCR%20Software.pdf | ||
* http://succeed-project.eu/wiki/index.php/Tesseract_3.02 | * http://succeed-project.eu/wiki/index.php/Tesseract_3.02 |
Nuværende version fra 8. dec 2015, 00:30
Optisk tekstgenkendelse (OCR) af fraktur, som er en i 1500-tallet fra Tyskland indført standardiseret form for trykt gotisk skrift, kan gøres med følgende programmer:
Indholdsfortegnelse
Tesseract
Et gratis DOS-baseret program udviklet for længe siden af HP, som også kan udnyttes af programmet gImage Reader.
Installation
- http://code.google.com/p/tesseract-ocr/downloads/list (installations filer)
- http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.dan.tar.gz (fraktur øvelsesdata på dansk)
- http://tesseract-ocr.googlecode.com/files/deu-frak.traineddata.gz (fraktur øvelsesdata på tysk)
- http://tesseract-ocr.googlecode.com/files/swe-frak.traineddata.gz (fraktur øvelsesdata på svensk)
- http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe (Windows-installation af version 3.02)
- http://github.com/tesseract-ocr/tesseract/releases (version 3.04 fås her men skal udpakkes manuelt)
De pakkede gz-filer udpakkes af for eks. 7-zip, så de får navnene dan.traineddata
, dan-frak.traineddata
, deu-frak.traineddata
og swe-frak.traineddata
og kopieres til den installerede tessdata-filmappe.
Brug af programmet
En kommandopromt åbnes og der skiftes til den rette filmappe med kommandoen:
cd c:\Program Files (x86)\Tesseract-OCR
Fra kommandopromten startes programmet med følgende syntaks:
tesseract.exe imagename outputbase [-l lang] [configfile [[+|-]varfile]...]
Inputfilen (imagename) skal være en i forvejen indscannet fil i (for eksempel) tiff-format.
Instruktion
- ws:de:Hilfe:Tesseract-Texterkennung [1]
- http://www.lwl.org/waa-download/pdf/Installation%20OCR%20Software.pdf
- http://succeed-project.eu/wiki/index.php/Tesseract_3.02
Recognition Server
Programmet FineReader fra software-firmaet Abbyy er afløst af det online-tilgængelige program Recognition Server 4.0 (680 MB), som udbydes med en gratis testlicens til 50 sider eller en professionel til for eksempel 2500 sider for 149€ eller 10000 sider for 299€.
- http://frakturschrift.com (download af program og licens)
- http://abbyy.com/finereader/ (FineReader 12 til 129€, som ikke mere understøtter fraktur)
- http://h58.dk/Jonge_dk/ (eksempel)