Du må være registrert og logget inn for å kunne legge ut innlegg på freak.no
X
LOGG INN
... eller du kan registrere deg nå
Dette nettstedet er avhengig av annonseinntekter for å holde driften og videre utvikling igang. Vi liker ikke reklame heller, men alternativene er ikke mange. Vær snill å vurder å slå av annonseblokkering, eller å abonnere på en reklamefri utgave av nettstedet.
  48 5792
Trigonoceps occipita
vidarlo's Avatar
Donor
Dagbladet som pdf? Ja, du kan kjøpe det for 18,- per avis, på dagbladet sin nettbutikk. Dyrt og tungvindt.

Men, takka vere dagbladet sitt tekstarkiv på nett så er det faktisk fullt mulig å få det heilt gratis. Om en ser på URLen for pdf-filene i ei tilfeldig sak, t.d denne ser en følgande:
http://www.dagbladet.no/tekstarkiv/pdf.utv.php?pa=A&d=2007-02-12&p=7&read=1
Eg gjetter på at d= står for datoen, i formatet ÅÅÅÅ-MM-DD... Så kva skjer om ein set inn 2008-03-14? Jo, ein får side 7 av dagens avis... Kva om ein bytter ut 7 med 1? Voila, side 1 av dagens avis.

Treng eg sei meir enn for (i = 1; i++; i <= <antall sider i dagbladet)?

Kombinert med pdftk er det jo trivielt å skrive et 5-linjers php-script som henter ned dagens utgave av dagbladet - gratis...

<reklame>Jada - eg har en blogg</reklame>
Sist endret av vidarlo; 14. mars 2008 kl. 23:45.
Så kommer spørsmålet. Hva skjer hvis du setter inn en dato i fremtiden x]

Bra vi har noen som kan finne ut sånne ting *prøveprøve*
Kunne du gjort det Vidarlo
Skjønte heller ikke hva "read=xx" forandret.
Edit: Mener jo da å skrive koden til php fil som gjør netopp dette
Sist endret av bjørnar; 14. mars 2008 kl. 23:41.
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Du får ut ei PDF-fil for kvar side. Det å slå sammen PDFer er trivielt, ved hjelp av t.d pdftk.

Du kan lage et program på under ti linjer i et vilkårlig språk (med mulig unntak for assembly og brainfuck) som henter ned alt og lager en pdf til deg - men eg kjem ikkje til å gjere det, i hovedsak fordi det tar meg over 1 minutt å gjere, og eg gidd ikkje, sidan eg ikkje les dagbladet si papirutgåve... Om dei ikkje har fått tetta hullet innen ei uke er eg imidlertid villig til å gjette på at enkelte andre her inne kan komme til å lage det...
Bare en tanke, nå er ikke jeg helt inne i hvordan man gjør dette enda, men skal søke det opp.

Er det noen mulighet for at man kan få snappet opp dette, før avisen kommer ut i butikken?
Isåfall er jo det en "exploit" (feil utvalg av ord), som t.d. VG kan dra nytte av?

Mulig jeg er på bærtur her.
Regner ikke med at de legger det ut her før avisen har ankommet store deler av landet, men bor man der ingen skulle tru at nokon kunne bu Så kanskje.
Edit: Vet ikke hva det betyr, men bytt ut read=1 med read=0 så vises siden som et bilde i nettleseren Veldig lite men men.
Sist endret av bjørnar; 14. mars 2008 kl. 23:54.
Haxxor crackzor sende sms-tips til VG xD
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Dei har ikkje lagt ut morgondagens enda.

Uansett så er neppe det som står i dagbladet så ekstremt hemmelig - tipper at om en ba en ansatt på desken i vg om å gjette ka som står i morgondagens dagblad ville han ha rimelig stødig treffrate

edit: read er paramterer for om det skal visast thumbnail av sida eller ikkje... rimelig uinteressant i sammenhengen mao. Det interessante er at du får ut sida for dagens dato - og får spesifisere sidetall sjølv...
Sist endret av vidarlo; 14. mars 2008 kl. 23:55.
Tenkte det var noe sånnt xD
Genialt vidarlo, dette kommer jeg til å bruke ihvertfall.
Faktisk, når du nevner det, flere dager i påsken er trykkt opp på forhånd, noen dager i forveien.
Sist endret av Volch0k; 14. mars 2008 kl. 23:58.
Har laget et script som grabber dagens utgave.
Lagre som db/index.php i webmappen din, som må ha cURL.
Last ned http://www.accesspdf.com/pdftk/ og putt pdftk.exe i samme mappe som scriptet.
Last siden, og du vil få servert hele pdf-en etter et par minutter. Hvis den stopper midt i, prøv igjen. Har så langt kun skjedd én gang med meg.

http://notisblokk.no/24

Hvis du vil bruke det på lunix, må du trikse litt med chmodding og diverse tror jeg.
med fruktkjøtt.
Tias's Avatar
Crew
Jeg kom over et python script som også gjør det samme. Bruker tilsynelatende pdfjam i stedet for pdftk. Fungerer fint i Linux.

http://notisblokk.no/25
Nå er det vel bare å skrive et enkelt php-script med en hurtig-kode som sjekker hvor mange sider denne pdf-versjonen av avisa har: &p= - 1 og oppover.

Velge visning av "alle sider vist i små thumbnails" eller "2 sider pr sidevisning" (kun hvis en kan hente ut bildet fra hver enkelt pdf-filen - noe som også krever en "Forje side..." og en "Neste side..." knapp).

Velge YYYY - MM - DD fra dropdown-lister.

Fikse slik at du kan bruke img-tag som enten:
1) henter thumbnail ved å kutte &read=1,
2) åpner .pdf-filene inn i php/html-koden eller
3) ved noe kode der du får hentet ut bildet fra hver enkel pdf-side.

Bare noen små forslag.
Sist endret av dosky; 15. mars 2008 kl. 04:43.
De har nå endret adressen.

Feilmelding 404 - siden finnes ikke

Dagbladet.no kan dessverre ikke vise siden

http://www.dagbladet.no/tekstarkiv/pdf.utv.php
Vis hele sitatet...
Sitat av The Freak
De har nå endret adressen.
Vis hele sitatet...
Hvilken adresse er det de har endret? Alt virker fint hos meg.
Denne siden funker ikke hos meg: http://www.dagbladet.no/tekstarkiv/p...-14&p=7&read=1

Eller det bare jeg som er blokket?
Sitat av The Freak
Denne siden funker ikke hos meg: http://www.dagbladet.no/tekstarkiv/p...-14&p=7&read=1

Eller det bare jeg som er blokket?
Vis hele sitatet...
Funker ikke for meg heller...
Sitat av The Freak
Denne siden funker ikke hos meg: http://www.dagbladet.no/tekstarkiv/p...-14&p=7&read=1

Eller det bare jeg som er blokket?
Vis hele sitatet...
Nå har jeg ingen ide om hva det er som egentlig skal være der, men prøv denne

http://www.dagbladet.no/tekstarkiv/a...rhelm%3BHansen

Den virker. (hos meg) Så trykker du bare på et av bildene, og bytter ut dato, årstall og sidetall.
Pdf-filen er ikke tilgjengelig
Haha, herregud.

Det eneste de har gjort er å bytte ut "pdf.utv.php" med "pdf.php"!
http://www.dagbladet.no/tekstarkiv/p...-13&p=1&read=1

Fjern ".utv" fra url'en voldern oppga så funker det
Sist endret av Forconin; 15. mars 2008 kl. 15:47.
HAHA! Latterlig xD Da blir det prøving igjen

Virka som bare det!
Sist endret av Blå Gummitenner; 15. mars 2008 kl. 16:02.
Oppdatert kode:
http://notisblokk.no/27
Den henter nå utgaven som var for 24 timer siden. Dagens funker ikke, er det fordi det er helg?

Hvis det blir større etterspørsel kan jeg lage en GUI-ting der du kan velge dato og slikt.
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Uhm, ok... så da kan vi vel gjerne gjette på at dei har lest tråden, og laga ei halvdårlig tetting på problemet...

Enklaste måten å løse det på er jo å sjekke refererers grundig, og begrense til å kun gi ut dei pdf-sidene som er referert til i nettavisa, (i.e dei det er thumbnails av). Det ville jo gjere det til et sant helvete å hente ned heile avisa
hadde vært fett med en gui sak hvor man kan velge dato osv.
Har dessverre ikke peiling på sånnt.

Noen som kunne tatt seg tiden til å gjøre det?

Satan, går jeg helt tilbake til 1. mars 2001!
<?php echo 'VIF'; ?>
datagutten's Avatar
Skal mekke en liten greie med gui. Som nevnt, er ikke lenger mulig å se dagens utgave, men det var mulig før i dag. Antakelig på grunn av at de har fikset på det.
Hadde vært greit med en utgave som kjører lokalt, slik at de som vil bruke programmet slipper lokale installasjoner og mase kødd.

Portable python er jo et alternativ, og litt endring på Py-scriptet postet tidligere, så har vi en utgave for "normale" folk.
med fruktkjøtt.
Tias's Avatar
Crew
Er enda litt knot med dagens utgave av avisen. Gårsdagens hentes ned fint, men dagens utgave er no go for some reason.
<?php echo 'VIF'; ?>
datagutten's Avatar
Jeg kan ikke python eller noe som kjøres lokalt, men jeg har derimot en webserver med php hvor jeg kan hoste scriptet for brukerne her.
Link kommer når jeg laget gui.
datagutten: Vet ikke om det er så lurt, siden det er vel ulovlig å dele ut pdf-ene til andre. Ved å lage et lokalt script som laster det ned fikser du det problemet og lar brukerne få ansvaret.
<?php echo 'VIF'; ?>
datagutten's Avatar
Blir vel egentlig ikke å dele de ut? Filene lastes ned til serveren, settes sammen, vises og slettes fra serveren når skriptet er ferdig. I verste fall kan jeg bare laste det opp til en gratis hostingtjeneste fra en offentlig maskin, da er det ingen som kan spore det.
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Ser enkelt og greit ut til at dei har tatt vekk tilgangen til dagens avis.

Forøvrig kviskra ein fugl meg i øyret at pa-parameteren angir kva innstikk som skal hentast. Leik litt med pa=A,pa=B etc.
<?php echo 'VIF'; ?>
datagutten's Avatar
Nå får jeg feilmeldingen:
Warning: ftp_login() expects parameter 1 to be resource, boolean given in /www/dagbladet/www.dagbladet.no/tekstarkiv/pdf.php on line 29
Beklager, kunne ikke få tak i pdf-filen for denne dagen... Feil nummer 2001
Vis hele sitatet...
Ser at feilen oppstod 20:37, ettersom jeg holdt på å laste ned en avis når feilen oppstod.

Btw, fikset litt på skriptet og fikk en litt ekkel feil nå, det begynte å gå i en evig loop, som ikke lot seg stoppe selv om jeg lukket taben i browseren. Prøvde å flytte php filen til en annen mappe, uten at det hjalp. Måtte stoppe apache for å bli kvitt det.

Edit: Nå virker det igjen.
Sist endret av datagutten; 15. mars 2008 kl. 20:54.
Ja, skriptet bugger en del.

Hvis du endrer "|| strlen($result)<1000){" til "|| strlen($result)<20000){" funker det nok bedre...

Når errormeldingen ble større, ble plutselig resultat over 1kb. Ingen av PDF-ene er under 20kb, så dette burde nok fjerne en del evige looper.

Har en batfil med "del *.pdf" siden dette skjedde en del under testingen...
<?php echo 'VIF'; ?>
datagutten's Avatar
Har også opplevd at den ikke greier og laste en fil på første forsøk, og dermed stopper.
Dette har jeg forsøkt å løse slik:

Kode

	for ($i=1; $i<=$tries; $i++)
	{
        Koden som henter filen
	if (strlen($result)<204800 && $tries<3)
	$tries=3;
	}
Som en slags nødstopp ved evig loop har jeg lagt til at den skal stoppe hvis den prøver seg på side 150.
Sist endret av datagutten; 15. mars 2008 kl. 21:36.
med fruktkjøtt.
Tias's Avatar
Crew
SWIM kom med et nytt utkast i Python. Egner seg enda bare for nix-brukerne der ute, men fungerer fint med Windows med litt modifisering (i.e. bytte ut pdfjam med pdftk i scriptet).

http://notisblokk.no/29
<?php echo 'VIF'; ?>
datagutten's Avatar
Prøvde det nå, og det sliter med å laste ned alt. Har opplevd samme problem med php skriptet, men det løste jeg ved å sette den til å prøve å laste ned flere ganger.

Har gjort en del endringer i php scriptet og fått til en versjon som fungerer ganske bra. Den gir ikke opp så lenge den har prøvd færre en 64 sider, og hvis den ikke får til en side, prøver den 3 ganger før den gir opp akkurat den siden.
http://notisblokk.no/31
Her er et enkelt gui:
http://notisblokk.no/32
Sist endret av datagutten; 15. mars 2008 kl. 22:33.
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Hehe, ser ut til at eg var på trygg grunn når eg spådde at det ville komme rippere innen ei uke ja =)

Når det gjelder legaliteten til dette så er det atekst-saka som er presedens; der også var det gjetting av URLer som var det essensielle, og det vart i 1997 straffa med 30k i bot til vedkommande - noko som eg (og ein god del andre) ser på som grovt justismord. I atekst var det rett nok ein komersiell db, noko det ikkje er i dette tilfellet...

Anbefalt lesning er Kafka på norsk - et essay av Gisle Hannemyr.

Til alle dei som har brydd hauda sine over dette: det er få ting som er meir smigrande enn å sjå at andre plukker opp linjene en skriver, og bruker tid på å arbeide videre rundt dei!
Artig lite script, men jeg kunne jo like så godt ha betalt 18kr.

Så kommer det virkelige spørsmålet. Hvem blir den første til å ringe Dagbladet og be om sjokolade imot å gi dem info om at vi henter deres avis gratis?
Xasma: De har nok oppdaget det allerede, siden de endret filnavnet.
Sitat av The Freak
Xasma: De har nok oppdaget det allerede, siden de endret filnavnet.
Vis hele sitatet...
Ja, da er det jo bare å spørre; Hvem er den heldige eier av 1 års abonnement av Dagbladet/10kg sjokolade?
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Sitat av Xasma
Ja, da er det jo bare å spørre; Hvem er den heldige eier av 1 års abonnement av Dagbladet/10kg sjokolade?
Vis hele sitatet...
Eventuelt så har dei lest error logger, siden en god del feilmeldinger har blitt generert i forsøka på å finne ut ting. Og feilmeldingslogger blir ofte lest bedre enn andre logger
Gårsdagens:

http://www.dagbladet.no/tekstarkiv/p...8&p=1&2&read=1

Det hele funker ennå, fucka genialt.
Jeg får bare første siden på denne uansett hva jeg har for tall etter read=
Sist endret av Gubbe; 20. mars 2008 kl. 00:30.
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Sitat av Gubbe
Jeg får bare første siden på denne uansett hva jeg har for tall etter read=
Vis hele sitatet...
Hadde du lest tråden hadde du sett kva dei ulike parameterane er for. p set sidetalet du vil sjå.
Jeg får ikke innstalert Pdftk. Det kommer bare opp et vindu som lukkes med en gang. Ingen feilmelding eller noe. flere som har samme problem?
Trigonoceps occipita
vidarlo's Avatar
Trådstarter Donor
Sitat av junkpal
Jeg får ikke innstalert Pdftk. Det kommer bare opp et vindu som lukkes med en gang. Ingen feilmelding eller noe. flere som har samme problem?
Vis hele sitatet...
Då har du fått inn pdftk heilt utmerka hørest det som. Det er kommandolinjeapplikasjon for å manipulere PDFer, mellom anna skøyte dei sammen...
Grøss ... sitte å lese DB som PDF hehe Det er noe jeg aldri kommer til å gjøre altså! Men kreativt opplegg det her..
Takk til Vidarlo for tips om hvordan jeg kan bla videre i avisen