View Single Post
Sitat av Slaraffenland Vis innlegg
Hei alle sammen, jeg lurer på hva som er riktig URL til boksidebilder på NB for tiden. Jeg tittet på kildekoden til Python-programmet ditt, Lanjelin, men ble ikke klok.

https://www.nb.no/services/image/res...ileHeight=1024

Er det sånn det er? Kan ikke prøve det selv for bor ikke i Norge. Får man uten videre opp boksidebildet hvis man limer dette inn på adresselinja i nettlesern? Eller trenger man noen http headere også, utover en rimelig User-Agent?

Det lykkes meg å få opp bildet for bøker som alle har adgang til. Er det noen forskjell på disse og dem som bare folk i Norge får se? Jeg mener URL og/eller http headere. Kan tenke meg at det er noen sikkerhetsgreier for Norges-bøkene.
Vis hele sitatet...
Sitat av Barte-Sam Vis innlegg
Spennende tråd! Jeg har i flere år hatt et egenutviklet verktøy skrevet i NodeJS, som bruker nb.no sitt API for å hente ned tiles som jeg så kombinerer til sider, kjører OCR på lokalt, og til slutt kombinerer til én stor, søkbar PDF. Verktøyet mitt har en del avhengigheter, som Postgres, Tesseract OCR, og diverse PDF-verktøy. Jeg har lenge hatt en plan om å lage et Docker-image som lar deg kjøre verktøyet uten å måtte installere alle disse verktøyene selv på forhånd.

Jeg kan godt tenke meg å dele kode, men først må jeg nok rydde litt opp i den.
Vis hele sitatet...
Har også vært i tenkeboksen om å bygge videre på koden, lage en web-frontend i flask, og OCR vha pytesseract, og til slutte pakke alt i et container image.

Tiden har dessverre ikke strukket helt til, og det dukker opp alskens rare småprosjekt i mellomtiden.

Er uhyre sjeldent jeg faktisk bruker koden selv, har nok muligens også noe med prioriteringen å gjøre.