Nok en gang har skattelistene blitt publisert og nok en gang raser debatten om nytteverdien og de etiske aspektene av at folks likningstall skal brettes ut på alle nettaviser. Det er lite tvil om at skattelistene i stor grad brukes til ting som neppe kan kalles gravende statistikk, f.eks. gjennomganger av tv-kjendisers inntekt på Dagbladets latterlige "klikk.no"-underside. Spørsmålet er da om de faktisk brukes til noe interessant journalistikk samtidig? Jeg lette, men fant ikke noe som var spesielt interessant, så jeg bestemte meg for å snekre sammen noe som kunne være interessant.
Første steg var å finne et grensesnitt hvor skattelistene var lett tilgjengelige. Mediene får mange klikk fra skattelistene og konkurrerer derfor aggressivt om å få den beste søkesiden. Problemet er bare at det fort går på bekostning av personvernet. F.eks, la oss se på VG Nett sine skattelister (http://skattelister.no/): Her kan man få opp topp100-lister per postnummer, men man kan også filtrere på fødselsår. Er dette god beskyttelse av personvernet?
Hvor mange mennesker finnes det per postnummer? Det er 10.000 tilgjengelige postnummer, men ikke alle er i bruk, så la oss si 5000 postnr. Det finnes ca 4.8 millioner mennesker i Norge, noe som gir ca 1000 personer per postnummer. Her er oddsen stor for at det ikke finnes mer enn 100 personer med samme fødselsår per postnummer! I tillegg kan man generere topplister for både formue, inntekt og skatt, noe som gjør det enda lettere å sikre et komplett datasett.
Hva betyr dette i praksis? Jo, med to for-løkker og programmering du kan lære på et hvilket som helst grunnkurs i programmering på universitetet kan du hente ut hele skattelistene på noen timer. Dette er på ingen måte god nok beskyttelse av resultatene!
Det tok meg ikke lange tiden å ordne på plass et system for å hente ut data fra VG sine sider, men jeg begrenset meg til å hente ut topplistene for hvert enkelt postnummer. Jeg laget en django-server og ved hjelp av denne samlingen av koordinater (http://www.erikbolstad.no/geo/noreg/postnummer/) hadde jeg en komplett søkbar database over de ca 500.000 menneskene som tjener mest i Norge. I seg selv ikke så uetisk, men hva hvis jeg hadde laget en liste over Norges fattigste? Angivelige skattesnytere med veldig høy inntekt og ingen skatt? Folk på trygd (bare å finne ut grunnbeløpet, multiplum av det og lokale skattesatser, det)? Hva hvis jeg ville laget et kart over lett tilgjengelige innbruddssteder? I kampen om å trekke lesere har VG ikke tenkt nok på personvernet.
Heldigvis er de fleste datakyndige ganske etiske, måtte det være fordi vi er bevisste på problemstillingene eller ikke bryr oss om disse tingene. Jeg har derfor laget et eksempel på hvordan jeg mener dataene burde brukes: Anonymiserte, i et fritt tilgjengelig API kan man gjøre mye spennende som overgår medias kåthet etter kjappe inntekter på kjendisers likningsformue. Det burde fremdeles være mulig for pressen å gjøre oppslag for å avsløre alvorlige saker, men en blanko-fullmakt til å la samtlige personers inntekt være tilgjengelig for folk flest blir feil.
Applikasjonen min er en implementasjon av gheat med skattelistene. På google maps kan man se fargekodet intensitetsplotting av snittinntekten blant de rikeste per postnummer. Det hele ble snekret sammen på to kvelder, men jeg håper det kan være interessant allikevel.
Jeg kan rydde opp i kildekoden og publisere den hvis det skulle være ønskelig, men jeg har litt mye å gjøre for tiden, så jeg vet ikke hvor mye videreutvikling det blir. Det er ofte lurt å zoome en del inn for å få meningsfylte plott - da kan man fort se inndelingen mellom bydeler, nabolag og så videre. Intensiteten "drukner" litt på lang avstand når postnummer overlapper og siden postnummer korresponderer til postruter er ikke dataene eksakte.
Litt tekniske fakta:
-Kjører Django
-Plottet er per hundre tusen snittinntekt for de 100 rikeste per postnummer.
-Ting kan ta litt tid hvis du ser på en del av kartet som ingen har sett på før.
-Jeg vurderte å lage 1:1-mapping ved å bruke geoloc fra google på adressene, men det ble både teknisk vanskelig (2500 lookups per dag er grensen) og litt etisk betenkelig.
Her kan du prøve:
http://gauss.nt.ntnu.no/SkatteKart/
I løpet av kvelden bygger jeg om databasen så Nord-Norge også blir med, så det kan gå litt opp og ned. Det kan litt tid før tiles genereres hvis du er første som ser på et område, så ha tålmodighet
Kjør debatt!
Første steg var å finne et grensesnitt hvor skattelistene var lett tilgjengelige. Mediene får mange klikk fra skattelistene og konkurrerer derfor aggressivt om å få den beste søkesiden. Problemet er bare at det fort går på bekostning av personvernet. F.eks, la oss se på VG Nett sine skattelister (http://skattelister.no/): Her kan man få opp topp100-lister per postnummer, men man kan også filtrere på fødselsår. Er dette god beskyttelse av personvernet?
Hvor mange mennesker finnes det per postnummer? Det er 10.000 tilgjengelige postnummer, men ikke alle er i bruk, så la oss si 5000 postnr. Det finnes ca 4.8 millioner mennesker i Norge, noe som gir ca 1000 personer per postnummer. Her er oddsen stor for at det ikke finnes mer enn 100 personer med samme fødselsår per postnummer! I tillegg kan man generere topplister for både formue, inntekt og skatt, noe som gjør det enda lettere å sikre et komplett datasett.
Hva betyr dette i praksis? Jo, med to for-løkker og programmering du kan lære på et hvilket som helst grunnkurs i programmering på universitetet kan du hente ut hele skattelistene på noen timer. Dette er på ingen måte god nok beskyttelse av resultatene!
Det tok meg ikke lange tiden å ordne på plass et system for å hente ut data fra VG sine sider, men jeg begrenset meg til å hente ut topplistene for hvert enkelt postnummer. Jeg laget en django-server og ved hjelp av denne samlingen av koordinater (http://www.erikbolstad.no/geo/noreg/postnummer/) hadde jeg en komplett søkbar database over de ca 500.000 menneskene som tjener mest i Norge. I seg selv ikke så uetisk, men hva hvis jeg hadde laget en liste over Norges fattigste? Angivelige skattesnytere med veldig høy inntekt og ingen skatt? Folk på trygd (bare å finne ut grunnbeløpet, multiplum av det og lokale skattesatser, det)? Hva hvis jeg ville laget et kart over lett tilgjengelige innbruddssteder? I kampen om å trekke lesere har VG ikke tenkt nok på personvernet.
Heldigvis er de fleste datakyndige ganske etiske, måtte det være fordi vi er bevisste på problemstillingene eller ikke bryr oss om disse tingene. Jeg har derfor laget et eksempel på hvordan jeg mener dataene burde brukes: Anonymiserte, i et fritt tilgjengelig API kan man gjøre mye spennende som overgår medias kåthet etter kjappe inntekter på kjendisers likningsformue. Det burde fremdeles være mulig for pressen å gjøre oppslag for å avsløre alvorlige saker, men en blanko-fullmakt til å la samtlige personers inntekt være tilgjengelig for folk flest blir feil.
Applikasjonen min er en implementasjon av gheat med skattelistene. På google maps kan man se fargekodet intensitetsplotting av snittinntekten blant de rikeste per postnummer. Det hele ble snekret sammen på to kvelder, men jeg håper det kan være interessant allikevel.
Jeg kan rydde opp i kildekoden og publisere den hvis det skulle være ønskelig, men jeg har litt mye å gjøre for tiden, så jeg vet ikke hvor mye videreutvikling det blir. Det er ofte lurt å zoome en del inn for å få meningsfylte plott - da kan man fort se inndelingen mellom bydeler, nabolag og så videre. Intensiteten "drukner" litt på lang avstand når postnummer overlapper og siden postnummer korresponderer til postruter er ikke dataene eksakte.
Litt tekniske fakta:
-Kjører Django
-Plottet er per hundre tusen snittinntekt for de 100 rikeste per postnummer.
-Ting kan ta litt tid hvis du ser på en del av kartet som ingen har sett på før.
-Jeg vurderte å lage 1:1-mapping ved å bruke geoloc fra google på adressene, men det ble både teknisk vanskelig (2500 lookups per dag er grensen) og litt etisk betenkelig.
Her kan du prøve:
http://gauss.nt.ntnu.no/SkatteKart/
I løpet av kvelden bygger jeg om databasen så Nord-Norge også blir med, så det kan gå litt opp og ned. Det kan litt tid før tiles genereres hvis du er første som ser på et område, så ha tålmodighet
Kjør debatt!
Sist endret av ivioynar; 26. oktober 2010 kl. 19:50.
Grunn: mumble mumble særskrivingsfeil