Hjelp:Hvordan legge inn en tekst
| Hvordan legge inn en tekst |
Denne hjelpesiden er under arbeid!
Denne hjelpesiden er tenkt som en innføring for nye brukere på Wikikilden. Hvis du har kommentarer til teksten, eller synes at noe mangler, legg gjerne inn en beskjed på diskusjonssiden.
Dette er en innføring i fremgangsmåten for å legge inn en ny tekst på Wikikilden på grunnlag av en pdf-fil lastet ned fra Nasjonalbibliotekets nettbibliotek. Innføringen beskriver noen av de grunnleggende funksjonene på Wikikilden-prosjektet.
Utgangspunkt
[rediger]For den som vil skape en digital utgave av en trykt tekst, er Nasjonalbibliotekets Nettbibliotek et godt utgangspunkt. Her finner vi scannede bilder av de fleste bøker, tidsskrifter og aviser som er trykt i Norge. Mange av disse kan dessuten lastes ned fritt i pdf-format.
Som eksempel på fremgangsmåten velger vi den lille Sagaen om Ravnkel Frøisgode, oversatt av historikeren Alexander Bugge i en utgave fra 1901. Den trykte utgaven består av i underkant 40 sider, og er satt med en moderne skrifttype som er lett å lese. Under vil vi steg for steg gå igjennom fremgangsmåten som ble brukt da denne boken ble digitalisert her på Wikikilden.
Kort om opphavsrett
[rediger]Siden mange av bøkene som ligger ute på Nasjonalbiblioteket fortsatt er beskyttet av opphavsretten, er det viktig å forsikre seg om at boken man vil digitalisere er falt i det fri. En hovedregel sier at en tekst er falt i det fri dersom forfatteren har vært død i mer enn 70 år. Dette gjelder også oversetteren av en fremmedspråklig tekst. Siden Sagaen om Ravnkel Frøisgode ble skrevet av en anonym forfatter i middelalderen, er det bare oversetteren Alexander Bugge som kan komme i betraktning når det gjelder opphavretten. Da Alexander Bugge døde i 1929 og dermed har vært død i langt mer enn 70 år, kan teksten kan uten videre publiseres her på Wikikilden.
Steg 1: Finn teksten på Nasjonalbibliotekets Nettbibliotek
[rediger]Første steg i digitaliseringen består i å finne en scannet kopi av teksten vår på Nasjonalbibliotekets nettbibliotek. Ved hjelp av søkefunksjonaliteten i Nettbiblioteket finner vi boken vi er på jakt etter: Et søk på f.eks. «Sagaen om Ravnkel» (med anførselstegn) gir oss Bugges oversettelse som første treff. Ved å klikke oss inn på denne boken finner vi at den kan lastes ned som pdf. Se nedlastingsknappen på menyraden over de scannede bildene. Vi velger å laste ned alle sidene i boken med høy oppløsning og får da en pdf-fil på ca. 20 MB.
Steg 2: Last opp en pdf-fil av den scannede boken til Wikimedia Commons
[rediger]Neste steg består i å laste opp denne pdf-filen til Wikimedia Commons. Dette er et felles lagringsområde for alle Wikimedia-prosjekter. Dersom vi laster opp filen dit, får vi også tilgang til den her fra Wikikilden-prosjektet.
Vi går til opplastingssiden på Commons og følger prosessen som er nærmere beskrevet der. Vi må passe på å gi filen et passende navn. Filnavnet bør inneholde forfatternavn og boktittel. Hvis boken er kommet i flere utgaver kan det være lurt å ta med utgavens nummer eller årstall for utgivelsen. Vi velger «Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf».
Under opplastingen kreves det at man angir informasjon om opphavsrett (lisensiering). I vårt tilfelle kan vi som nevnt i steg 1 angi at pdf-filen ikke lenger er beskyttet av opphavsretten fordi den anonyme sagaen fra middelalderen i seg selv ikke kan være beskyttet av opphavsretten, og oversetteren har vært død i mer enn 70 år.
Resultatet av denne opplastningen blir en fil på Commons med en egen beskrivelsesside. I eksempelet vårt ligger filen på Commons som Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf. Filer som er lastet opp til Wikimedia Commons vil som nevnt også automatisk være tilgjengelige her på Wikikilden. Vi finner den her som Fil:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf.
-
Skjermbilde fra opplastingen på Commons – angivelse av kilde og opphavsrett
-
Legger inn beskrivelse av filen
Steg 3: Opprett en indeksside på Wikikilden
[rediger]I neste steg vender vi tilbake til Wikikilden. Vi skal nå lage en indeksside for teksten som skal digitaliseres. Denne siden er ikke egentlig til for leserne av Wikikilden, men er beregnet på bidragsyterne på Wikikilden (det vil si oss) som skal utføre arbeidet med å korrekturlese teksten. Indekssiden kommer til å inneholde diverse informasjon om teksten vi vil korrekturlese, slik som tittel, navnet på forfatteren, og så videre. Den skal også inneholde informasjon om hvilke og hvor mange sider den består av. Hvis boken er inndelt i kapitler kan det også være nyttig å ha med en innholdsfortegnelse.

Siden indekssiden er nøye knyttet sammen med filen vi har lastet opp til Wikimedia Commons, må den ha samme navn som filen på Wikimedia Commons, men i stedet for «Fil:» skal den begynne på «Indeks:». Altså: Siden filen på Commons heter Fil:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf, skal indekssiden på Wikikilden hete Indeks:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf.
Vi oppretter siden Indeks:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf. Når vi gjør det (se skjermbildet til høyre), får vi opp en meny som lar oss fylle ut informasjon om bokens egenskaper, slik som tittel, forfatternavn osv. Til å begynne kan vi nøye oss med å fylle ut de aller enkleste feltene, slik som tittel og forfatternavn, kanskje også året for utgivelsen og forlaget. Vi kan alltids fylle ut flere detaljer senere. Vi trykker «Lagre».
Etter lagringen så indeksfilen for vår eksempeltekst Sagaen om Ravnkel Frøisgode slik ut:
Steg 4: Korrekturles sidene i boken
[rediger]
Legg merke til feltet «Sider» på skjermbildet av den opprettede indekssiden. Dette feltet viser en oversikt over alle sidene i pdf-dokumentet vi lastet opp til Commons, markert med tall som svarer til sidetallet i pdf-filen (ikke nødvendigvis sidetallet i den trykte boken!). Hvert tall utgjør en lenke som kan opprette en ny side her på Wikikilden. Tanken er at vi etter hvert skal følge alle disse lenkene, og for hver av dem opprette en ny side som kommer til å inneholde det tekstutsnittet som står trykt på den tilsvarende siden i pdf-filen. Hver av disse sidene kommer til å få et eget navn, som for eksempel «Side:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf/10», der første del av filnavnet viser at dette tekstutsnittet hører til Fil:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf og indekssiden Indeks:Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf, mens tallet bak skråstreken viser at tekstutsnittet kan knyttes til det scannede bildet på side 10 i pdf-filen.
Når vi for eksempel klikker på lenken under tallet 11, kommer vi til en side som inneholder korrekturlesingsverktøyet vi skal bruke: Til høyre vises det scannede bildet på side 11 i pdf-filen. På venstre side finner vi en tekstredigeringboks. Hensikten med denne redigeringssiden er at vi skal gjengi teksten på det scannede bildet i digital form i tekstboksen til venstre, og lagre resultatet.
Maskinlest tekst
[rediger]
Når vi skal produsere en digital utgave av en tekst, er det mer effektivt å ta utgangspunkt i en maskinlesing (OCR) av teksten på de scannede bildene, enn å taste inn teksten selv. Nå følger det ofte med et maskinlest tekstlag i pdf-filen fra Nasjonalbiblioteket. Dette tekstlaget vil dukke opp i redigeringsboksen til venstre når vi begynner å redigere en side. Men ofte vil dette være av dårlig kvalitet, slik at det lønner seg å prøve Wikikildens innebygde testgjenkjennelsesfunksjon, som lar oss produsere ny maskinlest tekst basert på bildet vi ser til høyre. Vi gjør dette ved å trykke på knappen «Transkriber tekst» på raden over bildet. Når vi trykker på denne knappen vil all tekst som måtte befinne seg i redigeringsboksen til venstre bli erstattet med maskinlest tekst (men det er mulig å angre).
«Transkriber tekst»-knappen har en egen meny hvor man kan velge mellom ulike maskinlesingsprogrammer. Vi kan også angi for programmet at språket er norsk. Erfaring viser at valget «Google OCR» fungerer ganske bra med de scannede bøkene fra Nasjonalbiblioteket.
Den maskinleste teksten danner grunnlaget for korrekturlesingen av siden. Oppgaven vår løses ved at vi ser over den maskinleste teksten og korrigerer den slik at den stemmer med den trykte teksten på det scannede bildet på høyre side av redigeringsvinduet. I første omgang er det viktigste at vi korrigerer selve teksten, men etterhvert som vi får erfaring kan vi også legge inn formatering slik at teksten ligner på den opprinnelige teksten også rent visuelt, for eksempel ved at vi legger inn kursiv skrift, store og midtstilte overskrifter og lignende. Noen av verktøyene som kan brukes til dette vil bli beskrevet under. Mens vi redigerer kan vi trykke «Forhåndsvise» for å se hvordan teksten vil komme til å se ut i den digitale utgaven.
Formatering
[rediger]Linjeskift og avsnitt
[rediger]Av forhåndsvisningen legger vi merke til at linjeskift vil ignoreres av programvaren, som viser et mellomrom i stedet, slik at vi får en sammenhengende tekst, uavhengig av hvor mange linjeskift det finnes i redigeringsboksen med den korrekturleste teksten. Vi kan derfor ikke beholde tekstbrytingen slik den står i den trykte teksten. Hvis en linje slutter med bindestrek, fjerner vi bindestreken og kobler begynnelsen av ordet sammen med slutten på neste linje. Unntaket her er det siste ordet på siden. Her lar vi bindestreken stå. Dermed vil programvaren forstå at dette ordet skal kobles sammen med fortsettelsen av ordet på neste side.
Avsnitt legger vi inn ved hjelp av dobbelt linjeskift (blank linje). Mens enkel linjeskift gir sammenhengende tekst, gir dobbelt linjeskift et nytt avsnitt. Dette vil i forhåndsvisningen vises som et innrykk.
Typografi
[rediger]Kursiv tekst og fet skrift kan man angi ved å bruke vanlig wikikode. Eksempler:
- '''Fet skrift''' gir Fet skrift
- ''Kursiv skrift'' gir Kursiv skrift
Andre effekter får man ved å bruke maler:
- {{midtstilt|midtstilt tekst}} gir
midtstilt tekst
- {{stor|stor tekst}} gir stor tekst
- {{liten|liten tekst}} gir liten tekst
Malene kan kombineres med hverandre og med wikikode for å legge på flere effekter samtidig. Det finnes også andre formateringsmaler, men vi vil ikke gå inn på alle her. I første omgang er det som nevnt viktigst at teksten er korrekturlest, ikke at den har avansert formatering.
En mer utførlig beskrivelse av formateringsverktøy finnes på hjelpesiden Hjelp:Formatering.
Sidestatus
[rediger]
Når vi mener at vi har korrigert teksten slik at den stemmer med originalen på bildet, og vi er fornøyde med hvordan det ser ut, må vi lagre resultatet av arbeidet vårt. Samtidig som vi lagrer har vi også anledning til å legge inn informasjon om status for korrekturlesingsarbeidet på denne siden. Under redigeringsboksen kan vi angi en status (Sidestatus) for siden ved å markere en av de runde knappene med farge rundt: Rødt for «Ikke korrekturlest» (standardvalget), gult for «Korrekturlest», grått for «Uten tekst» og blått for «Problematisk».

Betydningen av disse valgene er:
- Korrekturlest: Vi har korrekturlest teksten og er sikre på at den stemmer med originalen
- Ikke korrekturlest: Vi har lagt inn tekst, men vi er ikke sikre på om alle feil er rettet
- Problematisk: Det oppsto problemer da vi skulle korrekturlese teksten, for eksempel fordi det er noe vi ikke får til, eller fordi det var en stor blekkflekk på det scannede bildet i pdf-filen
- Uten tekst: Det var ingen tekst å korrekturlese på siden, fordi den var blank eller utelukkende besto av et bilde
Før vi lagrer kan vi altså angi status for siden ved å markere ett av disse valgene. Hvis vi er usikre kan vi la standardvalget «Ikke korrekturlest» stå.
Så er det bare å gå videre til neste side og gjenta prosessen som er beskrevet i dette steget. Vi kommer oss til neste side enten ved først å gå tilbake til oversikten på indekssiden, eller ved å navigere med pilene som vises over redigeringsboksen når vi redigerer en side med navn på Side:.
Neste gang vi går til indekssiden i nettleseren, vil vi se at siden vi har redigert og lagret endrer farge i oversikten på indekssiden. Vi får dermed lett oversikt over hvilke sider vi har bearbeidet, og hvilke som gjenstår.

Steg 5: Publiser teksten for leserne på Wikikilden
[rediger]Når vi har korrekturlest alle sidene i boken, består det siste steget i å gjøre den korrekturleste teksten tilgjengelig i sin helhet for leserne på Wikikilden. Med andre ord må vi koble alle enkeltsidene vi har korrekturlest hver for seg sammen til en sammenhengende tekst.
Vi ønsker å presentere teksten på en side som har samme navn som tittelen på boken. Derfor oppretter vi siden Sagaen om Ravnkel Frøisgode. På denne siden ønsker vi at all teksten vi har korrekturlest skal vises i sammenheng. For å få til dette, må vi bruke litt teknikk. Det finnes en wikikodesnutt som lar oss utføre dette på én linje:
<pages index="Alexander Bugge - Sagaen om Ravnkel Frøisgode.pdf" from=1 to=53 header=1 />
Forklaring:
- <pages>-formelen er en funksjon som utfører koblingen for oss. Denne funksjonen tar flere parametre:
- index-parameteren opplyser om hvilken indeksside vi arbeider med. Indekssiden inneholder som vi vet informasjon om egenskaper ved boken og sidene den består av.
- from-parameteren angir den første siden i boken vi har lyst til å ta med i presentasjonen av teksten. Vi vil ha med absolutt alt som sto i boken, så vi angir from=1.
- Tilsvarende angir to-parameteren den siste siden vi ønsker å ta med i presentasjonen. I vårt tilfelle vil vi ha med absolutt alt, så vi angir to=53 (det er 53 sider i den pdf-filen vår).
- header=1 angir at vi ønsker å vise en overskrift som inneholder den viktigste informasjonen om teksten, slik som forfatternavn, tittel, årstall og lignende.
Denne lille kodesnutten er nok til å presentere teksten slik vi vil ha den. Når vi lagrer siden, dukker hele boken opp som tekst på siden Sagaen om Ravnkel Frøisgode.
Siden dette var en kort bok, var det ikke noe problem å presentere hele boken på én side. For større bøker kan det være mer hensiktsmessig å splitte teksten opp i deler, slik at den publiserte teksten følger originalens inndeling i kapitler.