Korrekturläsning, men för långsamt

Det är utmärkt att en del böcker blir korrekturlästa. För varje dag, månad och år ökar mängden korrekturläst text. Men det som scannas (hos Google, Internet Archive, Kungliga biblioteket, olika högskolor) är mycket mer. Går det att locka fler att hjälpa till med korrekturläsning, eller kommer vi ohjälpligt att halka efter? Om vi på svenska språket korrekturläser 2-3 hyllmeter per år i Projekt Runeberg + Wikisource tillsammans, så kommer det att ta många hundra år att avverka den första hyllkilometern. Ska vi försöka fylla på Wikisource med så mycket OCR-text som möjligt (som V85 gjorde ett tag), och inte bry oss om att korrekturläsa allt? Ska vi även transkludera sidor som inte är korrekturlästa?

Jag lade ju in Index-sidor för två månader (januari och februari 1836) av Post- och Inrikes Tidningar och korrekturläste januari. Men jag har gjort Djvu-filer för hela 1836 och 1837, och jag skulle kunna göra Djvu-filer och Index-sidor för två årtionden till. Det verkar inte hända mer inom korrekturläsning ändå.

LA228 september 2011 kl. 20.13

Hittills har väl inte funnits någon större entusiasm inför massuppladdningar från webbarkiv.

Jag tycker att om vi ska göra något sådant så ska det ge något mervärde att lägga det här utöver källan som den är hämtad från. Till exempel är Nasjonalbibliotekets OCR (av de svenska texterna) så dålig att den knappt är sök- och läsbar medan de senaste som Lavallen och Simsalabim gjort kanske är 95% korrekta och njutbara även utan korrekturläsning. Skillnaden är väl inte lika stor när det gäller KB:s tidningar och det förutsätter ju att någon är i så fall är villig att göra OCR-tolkningen (och att den blir bättre).

Jag tycker dock att icke korrekturlästa sidor främst ska ligga i sidnamnrymden och inte transkluderas. Där spelar det inte så stor roll om OCR-texten är dålig. Får man en relevant träff är det vanligen enkelt att gå över till faksimilen och läsa texten där istället. Tidningar är dock ett problem eftersom sidorna är så stora att man måste förstora texten för att kunna läsa den och därmed tappar man kopplingen till den sökbara texten (om en tillfällig besökare ens hittar förstoringsmöjligheten). Vårt system är väl på den punkten knappast överlägset KB:s eget.

Red:En poäng med massuppladdningar skulle kanske vara att skapa trafik till sidan. Men möts besökarna endast av en dålig OCR och en otydbar faksimil försvinner de förmodligen lika snabbt igen.

Thurs28 september 2011 kl. 22.36

Uppläggningen av Nasjonalbibliotekets material utmärkte sig på det viset att det innehöll svenskt material från en norsk källa, en plats som det sannolikt inte är självklart att söka svenskt material i. (Till skillnad från KB.)

Lavallen29 september 2011 kl. 05.49

Jovisst, att göra ett material mer lättillgängligt kan också vara en orsak till att lägga upp det här.

Thurs29 september 2011 kl. 19.49

Siden jeg nevnes spesifikt, så tenker jeg at jeg bør ha mulighet til å svare i denne debatten. Dere på :sv: står selvsagt fritt til å velge de retningslinjene dere vil ha, og jeg ser at det da er to muligheter: Enten kan dere tillate at det legges inn mengder med indekssider som korrekturleses, eller ikke, eller så kan dere lage ne regel om at indekssider ikke skal lages, før det er interesse for også å korrekturlese dem. På :no: har vi ikke tatt noe bevisst valg, men foreløbig er det slik at vi godtar at det lastes opp mengder med indekssider, uavhengig av om de blir korrekturlest.

Selv tror jeg at det beste alternativet er at masseopplastninger godtas. Grunnen er enkel. Mennesker som har filer kan da laste dem opp, uten å bekymre seg over restriksjoner som statistikk, og andre brukeres meninger. Fordelen er at andre brukere, senere, som ikke har tilgang til de samme kildene, f.eks. databaser à la Nasjonalbiblioteket, eller en fysisk kopi av boken, kan korrekturlese, fordi filen er tilgjengelig på WS. Kanskje noen kommer og korrekturleser én side før de går lei og gjør noe annet. Da har WS fått én ekstra korrekturlest side vi ellers ikke ville hatt.

Selv om jeg ikke har korrekturlest mye av de filene jeg lastet opp, så synes jeg det ser ut som :sv: har tjent på at jeg lastet dem opp: De er korrigerte og flere av dem også validerte, og de har på den måten kanskje skapt mer trafikk til :sv: enn dere ville hatt uten dem?

Ellers er jeg enig i at tekster som transkluderes bør være korrekturleste først. Det har ingen verdi å vise frem ”rå” tekster som bare består av ”kode”.

V851 oktober 2011 kl. 00.13

Nej, förbjuda folk att lägga upp index-sidor bör vi inte göra. Det jag uppfattar frågan som, är huruvida vi aktivt ska söka upp material att ladda upp.

Lavallen1 oktober 2011 kl. 07.22

Jag har ju lagt in mycket texter här innan det blev vanligt med faksimiler och korrekturläsning. Jag har originaltexterna och skulle kanske scannat om jag kunnat det. Mina "uppladdningar" är således prematura. Men det är ju de ej korrekturlästa faksimilerna också!

De texter som laddats upp från norska Nasjonalbibliotek är ju en guldgruva för de som vill ha kontakt med svenska texter, som annars är svåra att komma åt. Och det ska inte föraktas, att det kanske bara korrekturläses en sida då och då. Om böckerna skulle stått orörda i bibliotekets källare så skulle ju inte en enda sida varit läst!

Var och en får bedöma sina möjligheter att tillföra något och utgångspunkten bör vara att skadar det inte så är det bra.

IP78691 oktober 2011 kl. 07.54

Som det är idag får ju var och en lägga in vilka index som de vill utan några begränsningar förutom våra licens- och inklusionsregler och det finns väl inga planer på att ändra detta. Men finns det tillräckligt många användare som är intresserade för att arbeta med ett gemensamt projekt med volymuppladdning och hur skulle man i så fall göra urvalet?

Thurs5 oktober 2011 kl. 19.59