Scanningstekniker

Jag saknar en sida med hjälp om hur man scannar en bok. T.ex. om flatbäddsscanner eller kamera, hur man får texten rak, belysning, bildbehandling etc. Dvs allt om hur man går från en bok till digitala bilder (och sedan vidare till en djvu). Med anledning av kampanjen för användarvänlighet som wikimedia foundation har [1] kanske det vore en bra idé att satsa på en dylik sida. Vad skulle sidan heta? Wikisource:Scanning?

Wellparp8 maj 2011 kl. 21.35

Det här är ett ämne där man kan skriva hur mycket som helst, och när man är färdig har tekniken sprungit ifrån en. Mer instruktioner är inte detsamma som användarvänlighet. Tvärt om, nybörjaren riskerar att drunkna i instruktioner (sällan välskrivna, oftare halvskrivna) och kommer aldrig igång med något arbete. Flatbäddscanners finns inte längre att köpa, de ingår numera i kombinationsmaskiner som också är skrivare. Däremot finns digitalkameror, men av tusen olika modeller, alla med olika inställningsmöjligheter.

Innan du börjar skriva instruktioner: Vet du vad du ska skriva, alltså kan du något om ämnet själv? Vet du att du kan skriva väl, och hur bedömer du vad som är illa eller väl skrivet? Vet du att du kan instruera nybörjare, så att de verkligen blir hjälpta och inte bara känner sig vanmäktiga, alltså har du god erfarenhet av hjälpa igång nybörjare med sådant här?

LA28 maj 2011 kl. 21.53

Det där lät onödigt negativt (flatbäddscanners finns att köpa, jag köpte själv en nyss, och ja, den är ihopbyggd med en skrivare), men nej jag kan inte skriva sidan själv, däremot behöver jag hjälp och idéer med hur man kan digitalisera en bok utan att texten blir sned t.ex. Så jag har behov av en sådan sida (eller hjälp från annat håll).

Wellparp8 maj 2011 kl. 22.02

Ja, jag är skeptisk till föreställningen att fler instruktionssidor skulle lösa problemet. Webben är full av instruktioner om hur man scannar böcker, som folk har skrivit de femton senaste åren. Den som skriver instruktioner vet inte vad läsaren redan kan, vilket utrustning som finns till hands, eller hur teknisk man får bli. Instruktioner tenderar att bli halvskrivna, snarare än välskrivna.

Några bra tips:

  • Scanna eller fotografera i sådan upplösning att man lätt kan se skillnad på punkt och komma.
  • Vid kamerafotografering, ansträng dig att få jämn belysning över boksidan.
  • Reducera antalet färger, använd hög kontrast, sätt vit- och svartnivån så att bilden återger trycket, men inte papperets struktur.
  • Spara filerna så att de blir så små som möjligt, utan att offra läsbarheten. Fina format är JPEG (för färg) och TIFF G4 (för svartvitt utan gråskalor).
  • Gör samma handgrepp likadant för alla boksidorna. Om alla är lika sneda eller lika mörka, kan man rationellt fixa till det i efterhand.
  • För Windows är Irfanview ett rätt bra bildbehandlingsprogram som är gratis, kan styra scannern och kan utföra operationer på samtliga filer i en filkatalog.
  • För Linux är Imagemagick och Gimp två bra program.

De flesta människor som får ovanstående instruktioner fattar aldrig vad TIFF G4 är, utan tror att alla varianter av TIFF är samma. Med sådana läsare är det ju ingen idé att fördjupa sig tekniskt, utan lösningen blir: använd alltid JPEG.

LA28 maj 2011 kl. 22.49

Jag förstår inte. Menar du att instruktionssidor alltid är av ondo? Är t.ex Wikisource:Korrekturläsning onödig? Jag kan inte hjälpa att tycka att ditt inlägg låter lite nedvärderande. De personer som skulle ge sig på att scanna verk för wikisource är förmodligen inte de absoluta nybörjarna utan någorlunda tekniskt bevandrade som du och jag. Med det sagt så vill jag backa ett steg och återkomma till hur vi minskar tröskeln för nybörjare att hjälpa till på wikisource (med scanning, OCRning, korrekturläsning, kategorisering eller vad som helst). Om nu inte en hjälpsida för scanning är rätt sak att arbeta med, vad är? Om någon har bra idéer öppna en ny tråd...

Wellparp9 maj 2011 kl. 22.30
 
 

Jo, visst kan man fortfarande köpa flatbäddscannrar! Taxelson 8 maj 2011 kl. 22.04 (CEST)

Taxelson8 maj 2011 kl. 22.04
 

De här instruktionerna finns på tyska Wikisource, engelska Wikisource, Projekt Runeberg. Var någon av dem till någon hjälp för dig? Var någon av dem välskriven?

LA28 maj 2011 kl. 22.58

Nej, jag blev inte så mycket klokare av enws, dews var (naturligtvis) skriven på tyska. Talad nordtyska kan jag tolka, men aldrig skriven.

Runeberg hade lite mer matnyttigt, men ger instruktioner som går lite emot det jag lärt mig. Nej, jag vet inte vad 'TIFF G4' är. Det jag lärt mig av erfarenhet, är att inte scanna högre än 400 dpi. (inte gärna lägre heller) Annars kommer varje litet dammkorn och strukturen i pappret att tolkas. Svart-vit scanning, har jag (ännu) inte lyckats med, utan gråskala i TIFF är det jag föredrar idag. (Gamla projekt som Fjellstedt, är dock fortfarande i färg.) Jag skär bort kanter och tar bort eventuella tummar och personliga märken med Paint. Slutresultatet blir jpg, eller png funkar även för mindre sidor, (typ halv 'normal' boksida).

Jag fixar numer kontrast i GIMP, men jag är ännu inte så mycket vän med programvaran, att jag kan vrida sneda inscanningar och dylikt. Sneda inskanningar snyggas till (men kräver mer efterarbete) vid OCR-tolkning i Finereader. Jag får dock inte ut en ny rättställd bild ur det programmet.

Scanna med kamera har sina egenheter. Jag har svårt att få skärpa på hela sidan, och varje sida behöver bearbetas hårt i GIMP för att inte filen ska bli onödigt stor.

Att OCR-tolka större dokument med fraktur (dvs på många sidor) ger mest huvudvärk. Jag tar normalt sällan mer än 4 sidor åt gången, detta för att kvantiteten inte ska gå ut över kvalitén. Vanlig text är dock inget problem.

Att skapa pdf- eller djvu-filer, har hittills inte gett ngn mersmak. Den programvara jag använt för att skapa pdf-er, har en tendens att lägga sidorna i den orientering och den ordning programmet själv vill.

@Wellparp: Börja fila på projekt-sidan du. Blir inte alla nöjda, är det upp till dem att fila vidare eller strunta i den...

Lavallen9 maj 2011 kl. 08.24

Jag skannar in boksidor i fullfärg och 600dpi upplösning. (Tidigare visdom har varit att använda s/v men OCR-programmet Finereader fungerar optimalt när man har fullfärg eller gråskala i hög upplösning.) Detta ger mig en samling jpg-filer. Dessa läser jag in i Finereader som OCR-tolkar boksidorna och korrigerar snedhet i inskanningen. (Det blir aldrig perfekt raka boksidor vid inskanningen.) Efter att Finereader tuggat ett tag sparar jag OCR-filerna (en textfil per sida) och även bilderna som nu är korrigerade för snedhet. Efter detta beskär jag bilderna med imagemagick-kommandot convert så att fula kanter försvinner. (Alla i ett svep; det tar för lång tid att handjaga varje sida.) Därefter är det bara att skapa en djvu-fil av jpeg-filer (och hur det går till är ett ämne för ett annat inlägg). Från ax till limpa tar det kanske 4-5 timmar (effektiv tid) att skanna in en bok på 300-400 sidor.

Att använda en kamera för att skanna in sidor gör jag bara om jag sitter på biblioteket. Resultatet blir inte bra och är knappt läsbart.

Simsalabim9 maj 2011 kl. 10.52

Vilken version av Finereader använder du? Och kan man inte därifrån spara hela boken som PDF eller Djvu?

LA29 maj 2011 kl. 14.15

Jag använder 10:an. Där går det att spara som pdf (pdf/a tror jag formatet heter), men jag väljer att inte göra det eftersom pdf-filen blir så pass mycket större än djvu-filen (som jag genererar på annat sätt). Det går inte att i Finereader spara i djvu-formatet, men däremot att läsa djvu-filer fungerar fint.

Simsalabim9 maj 2011 kl. 14.57

Version 10.0 etc. Det går att spara i PDF eller PDF/A, men eftersom jag aldrig laddat upp en hel självskapad bok, är det mindre intressant.

Att jobba med hela böcker på en gång i Finereader i Windows, är som att styra en oljetanker. Man trycker på en knapp idag, och den reagerar imorgon.

Lavallen9 maj 2011 kl. 15.03

Det jag har märk med min Finereader är att den sparar en massa skräpfiler (loggfiler?), som fyller upp hårddisken och det blir segare och segare. Efter ett antal veckor klagar Finereader på brist på uttrymme när man ska importera ett verk och man kan inte OCR:a hela verket utan får importera delar (säg, sidor 1-100). Det är då startar jag om windowsburken med en linux live-cd och raderar alla sådana filer (som ligger långt ner i filträdet och är svåra att hitta annars). Det kanske finns en inställning för detta som jag har missat?

Simsalabim9 maj 2011 kl. 17.41

De filer som blir när jag sparar ett dokument över natten, är VÄLDIGT stora ibland, (eller rättare består av många delar) även när det är kortare dokument. Det tar en stund att tömma papperskorgen sådana gånger...

Lavallen9 maj 2011 kl. 17.54
 
 
 
 
 
 

T.ex [1] har varit till stor hjälp för mig. Utan den här hjälpen hade det tagit mig mycket längre tid att förstå hur man skapar djvu-filer.

Wellparp9 maj 2011 kl. 22.35