View Single Post
Sitat av Turbolego Vis innlegg
Jeg har vært i kontakt med Nasjonalbiblioteket fordi jeg ønsket å få alle programrapportene til NRK P1 fra 1984 til 1993.
Som svar på et par spørsmål fikk jeg også en link til en beta-side for søk.
Denne beta-versjonen har en knapp for å laste ned en hel programrapport eller bare noen sider (tipper dette funker også for aviser @Anonym bruker )
Kan hende dette kan forenkle python koden?

Eksempel:

Programrapport: https://beta.nb.no/items/7947f335fc9...re%20Lund%22~5

Nedlastning-knapp hvor jeg velger høy oppløsning og alle sidene gir denne lenken som laster ned hele programrapporten som PDF:

https://www.nb.no/services/downloade...olutionlevel=6

Nå lurer jeg bare på om det er en enkel måte å få tak i alle nedlastningslenkene for alle 370 programrapportene som dukker opp i dette søket?

https://beta.nb.no/search?q=%22Musik...oDate=20211231

Har du noen forslag @Lanjelin ?
Vis hele sitatet...
Last ned knappen ligger tilgjengelig på medier de har gjort tilgjengelig for nedlasting, eks Avis/Dagbladet Bok/Felix Orsinis Memoirer

Programrapportene er nok ikke fullt oppdaterte til den nye leseren enda, antar det er derfor de sendte deg en link til beta-siden hvor de tydeligvis jobber med å få det på plass. Ny vs gammel

For å få fatt på alle nedlastingslenkene er den kjappeste måten å hente de rett fra utviklerkonsollen i nettleseren.
Følgende genererer linker for alle sider og full oppløsning, sleng evt på -> +'&resolutionlevel=4' <- etter +url for å få lavere oppløsning.

HTML-kode

let urls = $('.item-card-container a').map( function() {
    return $(this).attr('href');
}).get();
urls.forEach(function(url){
	url = url.split('?')[0].split('/')[2];
	url = 'https://www.nb.no/services/downloader?urn='+url;
	console.log(url);
});
Etter den har spyttet ut alt, kan du høyreklikke i konsollen, og trykke Save as.. for å lagre alt som en .log

Etter å rydde litt i loggen, kan du eks. mekke til et lite bash-script som laster ned med wget.
Sist endret av Lanjelin; 29. desember 2021 kl. 17:12.