Scanningstekniker

Nej, jag blev inte så mycket klokare av enws, dews var (naturligtvis) skriven på tyska. Talad nordtyska kan jag tolka, men aldrig skriven.

Runeberg hade lite mer matnyttigt, men ger instruktioner som går lite emot det jag lärt mig. Nej, jag vet inte vad 'TIFF G4' är. Det jag lärt mig av erfarenhet, är att inte scanna högre än 400 dpi. (inte gärna lägre heller) Annars kommer varje litet dammkorn och strukturen i pappret att tolkas. Svart-vit scanning, har jag (ännu) inte lyckats med, utan gråskala i TIFF är det jag föredrar idag. (Gamla projekt som Fjellstedt, är dock fortfarande i färg.) Jag skär bort kanter och tar bort eventuella tummar och personliga märken med Paint. Slutresultatet blir jpg, eller png funkar även för mindre sidor, (typ halv 'normal' boksida).

Jag fixar numer kontrast i GIMP, men jag är ännu inte så mycket vän med programvaran, att jag kan vrida sneda inscanningar och dylikt. Sneda inskanningar snyggas till (men kräver mer efterarbete) vid OCR-tolkning i Finereader. Jag får dock inte ut en ny rättställd bild ur det programmet.

Scanna med kamera har sina egenheter. Jag har svårt att få skärpa på hela sidan, och varje sida behöver bearbetas hårt i GIMP för att inte filen ska bli onödigt stor.

Att OCR-tolka större dokument med fraktur (dvs på många sidor) ger mest huvudvärk. Jag tar normalt sällan mer än 4 sidor åt gången, detta för att kvantiteten inte ska gå ut över kvalitén. Vanlig text är dock inget problem.

Att skapa pdf- eller djvu-filer, har hittills inte gett ngn mersmak. Den programvara jag använt för att skapa pdf-er, har en tendens att lägga sidorna i den orientering och den ordning programmet själv vill.

@Wellparp: Börja fila på projekt-sidan du. Blir inte alla nöjda, är det upp till dem att fila vidare eller strunta i den...

Lavallen‎

Jag skannar in boksidor i fullfärg och 600dpi upplösning. (Tidigare visdom har varit att använda s/v men OCR-programmet Finereader fungerar optimalt när man har fullfärg eller gråskala i hög upplösning.) Detta ger mig en samling jpg-filer. Dessa läser jag in i Finereader som OCR-tolkar boksidorna och korrigerar snedhet i inskanningen. (Det blir aldrig perfekt raka boksidor vid inskanningen.) Efter att Finereader tuggat ett tag sparar jag OCR-filerna (en textfil per sida) och även bilderna som nu är korrigerade för snedhet. Efter detta beskär jag bilderna med imagemagick-kommandot convert så att fula kanter försvinner. (Alla i ett svep; det tar för lång tid att handjaga varje sida.) Därefter är det bara att skapa en djvu-fil av jpeg-filer (och hur det går till är ett ämne för ett annat inlägg). Från ax till limpa tar det kanske 4-5 timmar (effektiv tid) att skanna in en bok på 300-400 sidor.

Att använda en kamera för att skanna in sidor gör jag bara om jag sitter på biblioteket. Resultatet blir inte bra och är knappt läsbart.

Simsalabim‎

Vilken version av Finereader använder du? Och kan man inte därifrån spara hela boken som PDF eller Djvu?

LA2‎

Jag använder 10:an. Där går det att spara som pdf (pdf/a tror jag formatet heter), men jag väljer att inte göra det eftersom pdf-filen blir så pass mycket större än djvu-filen (som jag genererar på annat sätt). Det går inte att i Finereader spara i djvu-formatet, men däremot att läsa djvu-filer fungerar fint.

Simsalabim‎

Version 10.0 etc. Det går att spara i PDF eller PDF/A, men eftersom jag aldrig laddat upp en hel självskapad bok, är det mindre intressant.

Att jobba med hela böcker på en gång i Finereader i Windows, är som att styra en oljetanker. Man trycker på en knapp idag, och den reagerar imorgon.

Lavallen‎

Det jag har märk med min Finereader är att den sparar en massa skräpfiler (loggfiler?), som fyller upp hårddisken och det blir segare och segare. Efter ett antal veckor klagar Finereader på brist på uttrymme när man ska importera ett verk och man kan inte OCR:a hela verket utan får importera delar (säg, sidor 1-100). Det är då startar jag om windowsburken med en linux live-cd och raderar alla sådana filer (som ligger långt ner i filträdet och är svåra att hitta annars). Det kanske finns en inställning för detta som jag har missat?

Simsalabim‎

De filer som blir när jag sparar ett dokument över natten, är VÄLDIGT stora ibland, (eller rättare består av många delar) även när det är kortare dokument. Det tar en stund att tömma papperskorgen sådana gånger...

Lavallen‎