djvuocr.py - nytt verktyg för OCR av Djvu-filer, integration av Tesseract 3.0 i Pywikipedia

Snubblade över tråden: commons:Commons:Village pump#OCR of djvu files : a new tool som länkar till commons:User:Tpt/djvuocr.py. Det här är värre än grekiska för mig (för där kan jag åtminstone tyda bokstäverna och läsa vissa ord). Ngn som vet?

Lavallen‎

dcjuocr.py är ett script (eller program) skrivet i python som laddar ner en djvu-fil från commons med pywikipedia. OCRar den med tesseract och lägger till OCRen direkt i djvu:n med hjälp av djvulibre. Sedan laddas djvun upp igen till commons med pywikipedia. Samtliga dessa program är fri mjukvara. Det ser ut att kunna fungera rakt av om man kör Linux. Sist jag tittade på tesseract fanns inte stöd för svenska, men det verkar som om google har skapat sådant stöd. Jag kan dock inte hitta den svenska versionen i mina ubuntu repositories. Om någon känner sig manad vore det intressant att se om tesseract kan användas här.

Wellparp‎

Jag ser nu att debian bara har paketerat tesseract 2.0 Tydligen har 3.0 funnits ganska länge. Vet inte varför den inte ramlat in i debian. Finns dock att ladda ner och själv kompilera på tesseracts hemsida.

Wellparp‎