Hjelp:OCR/Installere Tesseract 3.0

Fra Wikikilden
Hjelp:OCR Installere Tesseract 3.0


Hvordan installere Tesseract 3.0[rediger]

Den neste versjonen av Tesseract befinner seg foreløpig (januar 2009) kun i svn. Her beskrives hvordan man kan installere denne versjonen. Utfyllende informasjon finnes på Tesseracts hjemmesider, spesielt på sidene ReadMe og TesseractSvnInstallation.

Windows[rediger]

Merk at dette er fremgangsmåten for å installere Tesseract 3.0 fra Svn. Den stabile versjonen av Tesseract kan lastes ned enkelt herfra, men denne inneholder (per januar 2010) føreløpig ikke støtte for norsk språk.

Nødvendige programmer[rediger]

Visual C++ 2008[rediger]

Du trenger et program som kan kompilere kildekoden.

Last ned Visual C++ 2008 fra denne nettsiden. Kjør den nedlastede .exe-filen. Installasjonsprogrammet vil laste ned de nødvendige filene (~100MB) og installere programvaren.

Subversion[rediger]

Du trenger et Subversion-program, for eksempel TortoiseSVN.

Last ned TortoiseSVN herfra. Kjør den nedlastede filen. Programmet vil nå installeres.

Nedlastning[rediger]

Etter at TortoiseSVN er installert vil dette være tilgjengelig i Windows Utforsker (Explorer, Mine dokumenter). I Utforsker, velg TortoiseSVN under «Fil». Velg «SVN Checkout».

I feltet «URL of repository» limer du inn adressen

http://tesseract-ocr.googlecode.com/svn/trunk/

I feltet «Checkout directory» skal det stå hvilken mappe filene skal lastes ned til.

Klikk «OK».

Kildekoden vil nå lastes ned til mappen (la oss kalle mappen «tesseract-ocr»).

Kompilering[rediger]

Start Microsoft Visual C++ 2008. Åpne filen tesseract.sln i mappen hvor du lastet ned kildekoden. Klikk «Build» på menylinjen og velg «Build solution». Programmet skal nå kompileres.

Det skal nå være kommet en ny underkatalog «bin.dbg» i katalogen der du lastet ned kildekoden («tesseract-ocr»). Gå inn i denne katalogen og flytt filen tesseract.exe opp til «tesseract-ocr».

Åpne en DOS-boks (Start->Tilbehør->Ledetekst), gå til katalogen hvor tesseract.exe ligger og prøvekjør tesseract på det medfølgende testbildet:

tesseract phototest.tif test

Dersom alt går bra, skal resultatet foreligge i en fil test.txt. Merk: Hvis du får en feilmelding, må du kanskje gi filen «libpng13.dll» navnet «libpng12.dll».

Linux[rediger]

I det følgende er fremgangsmåten i Ubuntu brukt som eksempel.

Biblioteker[rediger]

Tesseract 3.0 krever at man har installert følgende biblioteker:

  • libpng12-dev
  • libjpeg62-dev
  • libtiff4dev
  • zlib1g-dev

I Ubuntu kan disse installeres med kommandoene

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

Leptonica[rediger]

I tillegg kreves det at man har installert Leptonica. I Ubuntu finner man biblioteket libleptonica, men dette inneholder (per januar 2010) en gammel versjon. For å være sikker på at Tesseract skal fungere er det derfor tryggere å gå hit for å laste ned den nyeste versjonen. Fremgangsmåten for å installere programmet er beskrevet i detalj her. I korthet:

Gå til katalogen hvor du lastet ned tar-filen (per januar 2010 var den nyeste versjonen leptonlib-1.64.tar.gz)

gunzip leptonlib-1.64.tar.gz
tar -xvf leptonlib-1.64.tar
cd leptonlib-1.64
./configure
make
sudo make install

Installasjon av Tesseract 3.0[rediger]

Du er nå klar til å installere Tesseract 3.0. For å laste ned kildekoden fra svn, må du ha subversion installert:

sudo apt-get install subversion

Du kan nå laste ned kildekoden.

svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only
cd tesseract-ocr-read-only
 ./configure
make
sudo make install

Hvis dette ikke fungerer, installer alocal, autoheader, autoconf og automake:

sudo apt-get install autoconf automake

og utfør

./runautoconf
./configure
make
sudo make install

Hvis alt har gått bra, har du nå Tesseract 3.0 installert på din maskin.