Hjelp:OCR/Installere Tesseract 3.0
←Hjelp:OCR | Installere Tesseract 3.0 |
Hvordan installere Tesseract 3.0
[rediger]Den neste versjonen av Tesseract befinner seg foreløpig (januar 2009) kun i svn. Her beskrives hvordan man kan installere denne versjonen. Utfyllende informasjon finnes på Tesseracts hjemmesider, spesielt på sidene ReadMe og TesseractSvnInstallation.
Windows
[rediger]Merk at dette er fremgangsmåten for å installere Tesseract 3.0 fra Svn. Den stabile versjonen av Tesseract kan lastes ned enkelt herfra, men denne inneholder (per januar 2010) føreløpig ikke støtte for norsk språk.
Nødvendige programmer
[rediger]Visual C++ 2008
[rediger]Du trenger et program som kan kompilere kildekoden.
Last ned Visual C++ 2008 fra denne nettsiden. Kjør den nedlastede .exe-filen. Installasjonsprogrammet vil laste ned de nødvendige filene (~100MB) og installere programvaren.
Subversion
[rediger]Du trenger et Subversion-program, for eksempel TortoiseSVN.
Last ned TortoiseSVN herfra. Kjør den nedlastede filen. Programmet vil nå installeres.
Nedlastning
[rediger]Etter at TortoiseSVN er installert vil dette være tilgjengelig i Windows Utforsker (Explorer, Mine dokumenter). I Utforsker, velg TortoiseSVN under «Fil». Velg «SVN Checkout».
I feltet «URL of repository» limer du inn adressen
http://tesseract-ocr.googlecode.com/svn/trunk/
I feltet «Checkout directory» skal det stå hvilken mappe filene skal lastes ned til.
Klikk «OK».
Kildekoden vil nå lastes ned til mappen (la oss kalle mappen «tesseract-ocr»).
Kompilering
[rediger]Start Microsoft Visual C++ 2008. Åpne filen tesseract.sln i mappen hvor du lastet ned kildekoden. Klikk «Build» på menylinjen og velg «Build solution». Programmet skal nå kompileres.
Det skal nå være kommet en ny underkatalog «bin.dbg» i katalogen der du lastet ned kildekoden («tesseract-ocr»). Gå inn i denne katalogen og flytt filen tesseract.exe opp til «tesseract-ocr».
Åpne en DOS-boks (Start->Tilbehør->Ledetekst), gå til katalogen hvor tesseract.exe ligger og prøvekjør tesseract på det medfølgende testbildet:
tesseract phototest.tif test
Dersom alt går bra, skal resultatet foreligge i en fil test.txt. Merk: Hvis du får en feilmelding, må du kanskje gi filen «libpng13.dll» navnet «libpng12.dll».
Linux
[rediger]I det følgende er fremgangsmåten i Ubuntu brukt som eksempel.
Biblioteker
[rediger]Tesseract 3.0 krever at man har installert følgende biblioteker:
- libpng12-dev
- libjpeg62-dev
- libtiff4dev
- zlib1g-dev
I Ubuntu kan disse installeres med kommandoene
sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev
Leptonica
[rediger]I tillegg kreves det at man har installert Leptonica. I Ubuntu finner man biblioteket libleptonica, men dette inneholder (per januar 2010) en gammel versjon. For å være sikker på at Tesseract skal fungere er det derfor tryggere å gå hit for å laste ned den nyeste versjonen. Fremgangsmåten for å installere programmet er beskrevet i detalj her. I korthet:
Gå til katalogen hvor du lastet ned tar-filen (per januar 2010 var den nyeste versjonen leptonlib-1.64.tar.gz)
gunzip leptonlib-1.64.tar.gz tar -xvf leptonlib-1.64.tar cd leptonlib-1.64 ./configure make sudo make install
Installasjon av Tesseract 3.0
[rediger]Du er nå klar til å installere Tesseract 3.0. For å laste ned kildekoden fra svn, må du ha subversion installert:
sudo apt-get install subversion
Du kan nå laste ned kildekoden.
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only cd tesseract-ocr-read-only ./configure make sudo make install
Hvis dette ikke fungerer, installer alocal, autoheader, autoconf og automake:
sudo apt-get install autoconf automake
og utfør
./runautoconf ./configure make sudo make install
Hvis alt har gått bra, har du nå Tesseract 3.0 installert på din maskin.