Du må være registrert og logget inn for å kunne legge ut innlegg på freak.no
X
LOGG INN
... eller du kan registrere deg nå
Dette nettstedet er avhengig av annonseinntekter for å holde driften og videre utvikling igang. Vi liker ikke reklame heller, men alternativene er ikke mange. Vær snill å vurder å slå av annonseblokkering, eller å abonnere på en reklamefri utgave av nettstedet.
  21 4973
Nok en gang har skattelistene blitt publisert og nok en gang raser debatten om nytteverdien og de etiske aspektene av at folks likningstall skal brettes ut på alle nettaviser. Det er lite tvil om at skattelistene i stor grad brukes til ting som neppe kan kalles gravende statistikk, f.eks. gjennomganger av tv-kjendisers inntekt på Dagbladets latterlige "klikk.no"-underside. Spørsmålet er da om de faktisk brukes til noe interessant journalistikk samtidig? Jeg lette, men fant ikke noe som var spesielt interessant, så jeg bestemte meg for å snekre sammen noe som kunne være interessant.

Første steg var å finne et grensesnitt hvor skattelistene var lett tilgjengelige. Mediene får mange klikk fra skattelistene og konkurrerer derfor aggressivt om å få den beste søkesiden. Problemet er bare at det fort går på bekostning av personvernet. F.eks, la oss se på VG Nett sine skattelister (http://skattelister.no/): Her kan man få opp topp100-lister per postnummer, men man kan også filtrere på fødselsår. Er dette god beskyttelse av personvernet?

Hvor mange mennesker finnes det per postnummer? Det er 10.000 tilgjengelige postnummer, men ikke alle er i bruk, så la oss si 5000 postnr. Det finnes ca 4.8 millioner mennesker i Norge, noe som gir ca 1000 personer per postnummer. Her er oddsen stor for at det ikke finnes mer enn 100 personer med samme fødselsår per postnummer! I tillegg kan man generere topplister for både formue, inntekt og skatt, noe som gjør det enda lettere å sikre et komplett datasett.

Hva betyr dette i praksis? Jo, med to for-løkker og programmering du kan lære på et hvilket som helst grunnkurs i programmering på universitetet kan du hente ut hele skattelistene på noen timer. Dette er på ingen måte god nok beskyttelse av resultatene!

Det tok meg ikke lange tiden å ordne på plass et system for å hente ut data fra VG sine sider, men jeg begrenset meg til å hente ut topplistene for hvert enkelt postnummer. Jeg laget en django-server og ved hjelp av denne samlingen av koordinater (http://www.erikbolstad.no/geo/noreg/postnummer/) hadde jeg en komplett søkbar database over de ca 500.000 menneskene som tjener mest i Norge. I seg selv ikke så uetisk, men hva hvis jeg hadde laget en liste over Norges fattigste? Angivelige skattesnytere med veldig høy inntekt og ingen skatt? Folk på trygd (bare å finne ut grunnbeløpet, multiplum av det og lokale skattesatser, det)? Hva hvis jeg ville laget et kart over lett tilgjengelige innbruddssteder? I kampen om å trekke lesere har VG ikke tenkt nok på personvernet.

Heldigvis er de fleste datakyndige ganske etiske, måtte det være fordi vi er bevisste på problemstillingene eller ikke bryr oss om disse tingene. Jeg har derfor laget et eksempel på hvordan jeg mener dataene burde brukes: Anonymiserte, i et fritt tilgjengelig API kan man gjøre mye spennende som overgår medias kåthet etter kjappe inntekter på kjendisers likningsformue. Det burde fremdeles være mulig for pressen å gjøre oppslag for å avsløre alvorlige saker, men en blanko-fullmakt til å la samtlige personers inntekt være tilgjengelig for folk flest blir feil.

Applikasjonen min er en implementasjon av gheat med skattelistene. På google maps kan man se fargekodet intensitetsplotting av snittinntekten blant de rikeste per postnummer. Det hele ble snekret sammen på to kvelder, men jeg håper det kan være interessant allikevel.

Jeg kan rydde opp i kildekoden og publisere den hvis det skulle være ønskelig, men jeg har litt mye å gjøre for tiden, så jeg vet ikke hvor mye videreutvikling det blir. Det er ofte lurt å zoome en del inn for å få meningsfylte plott - da kan man fort se inndelingen mellom bydeler, nabolag og så videre. Intensiteten "drukner" litt på lang avstand når postnummer overlapper og siden postnummer korresponderer til postruter er ikke dataene eksakte.

Litt tekniske fakta:
-Kjører Django
-Plottet er per hundre tusen snittinntekt for de 100 rikeste per postnummer.
-Ting kan ta litt tid hvis du ser på en del av kartet som ingen har sett på før.
-Jeg vurderte å lage 1:1-mapping ved å bruke geoloc fra google på adressene, men det ble både teknisk vanskelig (2500 lookups per dag er grensen) og litt etisk betenkelig.

Her kan du prøve:
http://gauss.nt.ntnu.no/SkatteKart/

I løpet av kvelden bygger jeg om databasen så Nord-Norge også blir med, så det kan gå litt opp og ned. Det kan litt tid før tiles genereres hvis du er første som ser på et område, så ha tålmodighet

Kjør debatt!
Sist endret av ivioynar; 26. oktober 2010 kl. 19:50. Grunn: mumble mumble særskrivingsfeil
Bra prosjekt, jeg er spent på om du får noen reaksjoner på dette. Syns samtidig kildekoden skal publiseres (og har du ikke tid til å rydde holder det å cleare passord og bare slenge det på github e.l.) for å vise hvor lett det faktisk er å lage et såpass stort datasett med nyttig info.

Det mest interessante i mine øyne med skattelistene er hvordan de kan brukes som del av en aggregator for info hvor hver enkelt del er uskyldig nok, mens de sammen kan være ganske skremmende. La oss si vi kombinerer alle disse kildene:
- skattelistene gir deg navn, alder, inntekt, formue og skatt
- tlf.no (etc.) gir deg telefonnummer og adresse
- purehelp.no gir deg tilknytninger til selskap en person har verv i (rike mennesker har ofte styreverv, eierskap i bedrifter etc)
- facebook kan gi deg alt fra familiemedlemmer til sivilstatus (inkl bilde av personen)

Det finnes langt flere datakilder som helt åpent gir deg biter av informasjon som kan kombineres, og vises f.eks med googlemaps. Hva om man istedet for heatmap over inntekt ønsker å lage et kart som viser jenter under 30 med over 500k i inntekt (med annen farge på pins hvor man har funnet sivilstatus på tøtta)? Eller hva om man vil finne de rikeste gatene i en ukjent by med formål om å dra på innbruddsraid?
...og der var databasen endelig klar for å generere punktene for Midt-Norge og nordover! Burde dukke opp i løpet av de neste timene.
Ordenens Seglbevarer
Ond^Sofa's Avatar
En fargebeskrivelse hadde vært på sin plass!
Okei:

Hvert postnummer har en intensitet gitt fra en skala fra 1 til 47 som representerer snitt-inntekt blant de opptil 100 rikeste (her er rikeste == de som tjente mest i 2009) i hundre tusen. Så i Bygdøy, som er maks, så tjener de 100 rikeste 4.7 millioner i snitt. Dette blir da referanseverdien som blir intenst hvit. Alle andre punkter blir en interpolasjon av dette, dvs forskyvning etter inntekten. Jo mer hvitt og rødt, jo rikere er stedet. For å få en magefølelse holder det å se på ymse postnr langs E6 hvor de som bor ikke nødvendigvis har million-inntekt og sammenligne med Oslo vest.

Jeg vurderer å lage en annen fargeskala, men det må bli en dag jeg ikke har deadlines på alle fronter.
Skal det være vanskelig å se noe når man zoomer inn på området?

Det tok veldig lang tid før noe kom opp her vertfall - har bare sjekket Nord-Norge.
Som sagt, hvis du ser på en del av kartet hvor ingen allerede har sett i det zoom-nivået kan det ta litt tid før du får bilder. I skrivende stund er det mange som er innpå og dermed blir det en kø før bildene blir generert. Neste gang du er innom bør derimot bildene ha blitt laget.
Ah, skjønner. Har vel noen hakk igjen i mitt nærområde før jeg kan anse jobben her hjemme som utført. Veldig flott initiativ, men kunne vært moro dersom du hadde satt opp sider for f.eks. fattigst - bare for å se hvor i landet folk har og får minst i motsetning til andre deler.
Queen of Blades
Jonta's Avatar
DonorCrew
Wikipedia kan man se litt av historikken bak dette. Hva er kravet for å regnes som "presse", og dermed kunne få masseutlevering?

Et positivt aspekt ved dette kan kanskje sammenfattes i en SMS innsendt til Redaksjon1, når debatten pågikk for ett eller to år siden. Den lød noe som "Jeg er for. Jeg jobber som sykepleierske, og kan lettere kreve likelønn når jeg ser hva mine mannlige kolleger tjener".
Jeg klarer ikke helt se nytteverdien. Fargeskalaen later til å være på maks på hvert område hvor en finner en viss befolkningstetthet, og da vel egentlig bare overlapper med den informasjonen.
Sitat av Kinseek Vis innlegg
Jeg klarer ikke helt se nytteverdien. Fargeskalaen later til å være på maks på hvert område hvor en finner en viss befolkningstetthet, og da vel egentlig bare overlapper med den informasjonen.
Vis hele sitatet...
Du må zoome til et nivå hvor ting ikke overlapper for at dataene skal være meningsfylte.
Ordenens Seglbevarer
Ond^Sofa's Avatar
hvor lenge skal man vente for at fargene kommer tilbake, etter man har zoomet inn?
Sitat av Ond^Sofa Vis innlegg
hvor lenge skal man vente for at fargene kommer tilbake, etter man har zoomet inn?
Vis hele sitatet...
Dette er ikke så lett å svare på. Det beror på en hel haug variable - hvor mange er koblet til applikasjonen i et gitt øyeblikk, hvor mange målepunkter er det innenfor området, hvilke prosesser kjører også på serveren samtidig, da dette tross alt ikke er en dedikert maskin. En kjapp test viser at det tar ca 15 sekunder i skrivende stund for et middels populært bygdeområde i default zoom.

Problemet er jo at hvis bare to-tre personer sitter og ser på uutforskede områder samtidig, så sloss de om kapasiteten. I teorien kunne jeg sikkert generert alle bildene på forhånd på en tungregningsmaskin over helga, men jeg vet ikke helt om jeg har tid. Mulig jeg bare kommenterer koden, opensourcer og så kan noen som har en supermaskin ordne alt
Ser man på, der har digi skrevet artikkel om dette, ja.

Flott tiltak, sier datatilsynet, ubevist over de negative sidene som faktisk blir tatt frem i denne saken.
Jeg liker å se at folk leker med skattelistene, å kanskje tyner de til det maksimum. Jeg er igrunn imot at skattelistene skal publiseres, selv om jeg snoker såklart på alle jeg kjenner osv osv.

Men veldig kult å se hvordan du har brukt google kartet i denne sammenhengen! EPIC
Interessant nok har jeg fått en del artige treff det siste døgnet, deriblant en del fra nasjonal sikkerhetsmyndighet, LO og politiet. Er det nå jeg skal spyle ned alle eiendelene mine i do og rømme til skogs?
haha, pass deg nå ivi! er ikke dette egentlig mer eller mindre parallellt til "Lars 16"-saken vi hadde her for noen år siden? vent deg å få døra slått inn av kripos og delta når som helst!
Sitat av atomet Vis innlegg
haha, pass deg nå ivi! er ikke dette egentlig mer eller mindre parallellt til "Lars 16"-saken vi hadde her for noen år siden? vent deg å få døra slått inn av kripos og delta når som helst!
Vis hele sitatet...
Kommer vel an på VG.
Anmelder de saken blir det sikkert mye kaos, lar de være er det neppe noen som bryr seg.

Tipper IT-avdelingen til VG er mer oppegående enn Tele2 sin.
Sitat av Goophy Vis innlegg
Tipper IT-avdelingen til VG er mer oppegående enn Tele2 sin.
Vis hele sitatet...
Kripos sin også ...!
http://github.com/moyner/SkatteKart
Kildekode, hvis noen vil gjøre noe mer med det. Script for å hente ned filene fra vg får dere lage sjæl, men det ligger nå engang en parser der.

Variabelnavn og kommentarer er ikke egentlig ment for offentlighetens lys, så hvis noen skattebetalere føler seg støtt av at terminologi som "kapitalisthore" som objekt for skattebetalere kan dere kanskje droppe å pulle?
VG har nå sperret for å sortere på fødselsår på postnr-sidene, for å hindre at noen henter ut alle dataene... Men de har bare gjort det ved å fjerne parameteren fra GET-requesten. URL-ene fungerer fremdeles helt fint. De har heller ikke unnskyldt eller gjort noen oppmerksom på at de lot dataene være fritt tilgjengelige. Hørte jeg noen si "letteste utvei"?