Du må være registrert og logget inn for å kunne legge ut innlegg på freak.no
X
LOGG INN
... eller du kan registrere deg nå
Dette nettstedet er avhengig av annonseinntekter for å holde driften og videre utvikling igang. Vi liker ikke reklame heller, men alternativene er ikke mange. Vær snill å vurder å slå av annonseblokkering, eller å abonnere på en reklamefri utgave av nettstedet.
  1 647
Jeg trenger en stor mengde norsk tekst til et NLP prosjekt.

Finnes det noen store korpus jeg kan laste ned, eller må jeg fortsette å scrape diverse sider ?
Tar sjansen på noe av dette kan hjelpe deg, kommer fra den mye omtalte ChatGPT:

Ja, det finnes flere store norske korpus tilgjengelig for nedlasting som kan være nyttige for NLP-prosjekter. Her er noen alternativer du kan vurdere:

Norwegian Dependency Treebank: Dette er en samling av annoterte norske tekster som dekker flere sjangre og språklige nivåer. Korpuset inkluderer mer enn 700 000 ord, og kan lastes ned gratis fra nettsiden deres.

NoWaC: Dette er en samling av norske webtekster som ble samlet inn i 2014. Korpuset inneholder mer enn 1,6 milliarder ord og kan lastes ned gratis fra nettsiden deres.
Norsk aviskorpus: Dette er en samling av norske avistekster som spenner over en periode på flere tiår. Korpuset inneholder mer enn 600 millioner ord og kan lastes ned gratis fra nettsiden deres.

Nordic Language Processing Laboratory: Dette er en samling av tekstkorpus for flere nordiske språk, inkludert norsk. Korpuset inneholder mer enn 4 milliarder ord og kan lastes ned gratis fra nettsiden deres.

Du kan også vurdere å bruke åpne API-er for å få tilgang til store mengder norsk tekst, for eksempel nyhetsartikler fra NRK eller Aftenposten. Husk imidlertid at du må ta hensyn til opphavsrett og personvern når du bruker slike ressurser til forskning eller andre prosjekter.