Du må være registrert og logget inn for å kunne legge ut innlegg på freak.no
X
LOGG INN
... eller du kan registrere deg nå
Dette nettstedet er avhengig av annonseinntekter for å holde driften og videre utvikling igang. Vi liker ikke reklame heller, men alternativene er ikke mange. Vær snill å vurder å slå av annonseblokkering, eller å abonnere på en reklamefri utgave av nettstedet.
  17 1433
Har vært stille rundt Boitho lenge nå. Vi er nå endelig klar med ny indeks og ny versjon av den distribuert crawleren.

Den nye indeksen er tilgjengelig her: http://www.boitho.com/beta/


Siste halvåret har vi jobbet med koden og foreningsdelen. Hele søkesystemet er nå skrevet i C. Vi har opprettet firma, og fått kontorer i Forskningsparken i Oslo.

Har laget en blog der jeg har skrevet litt om dette: http://www.boitho.com/blog/ .


Hovedutfordringen nå er å få crawlet nokk sider. At vi ikke har nokk påvirker rangeringen, og man finner ikke alltid det man leter etter. Vi har nå skaffet 7 dedikerte PCer til å crawle, og håper at folk vil hjelpe oss ved å laste ned crawler klienten vår som bruker idle tid på maskinen får å crawle. Den kan lastes ned her: http://www.boitho.com/dc/

Støtte for crawlergrupper kommer snart. Slik at man for eksempel kan lage en Freakforum gruppe.

Man kan se om en side er indeksert her: http://bbh-001.boitho.com/cgi-bin/UrlToDocID/index.cgi (eks http://bbh-001.boitho.com/cgi-bin/Ur...freakforum.nu/) . Dere kan legge til sider her: http://www.boitho.com/legg_til_link.htm.no

Denne betaen er noe begrenset. Man kan ikke bla seg videre fra side 1, og pilene fungerer ikke. Det er ofte stor forskjel på søk på fraser med og uten ” tegn, så bruk query med frasetegn som dette når det søkes på navn: ”bil gates”

Noen queryer dere kan prøve:

Chat: http://www.boitho.com/beta/?&query=chat&sprok=NBO

Finner mange relevante sider, som boldchat.com, mIRC, liveperson.com, irchelp.org og Yahoo! Chat

Trondheim: http://www.boitho.com/beta/?query=trondheim&sprok=NBO

adressa.no og adresseavisen.no er lokalavisen her. Begge domenene er for samme side, men innholde er ikke likt da de var kravlet med noe mellomrom, så avisa var oppdatert i mellomtiden. Vil i fremtiden bli iltrert ut da de har samme ip.

For aktuelle ting som trondheim.com, TRONDHEIM KINO, NTNU, Nidarosdomen.no, Trondheim commune og Trondheim folkebibliotek. Men også en del hotell spam.



Søker fortsatt medgrundere, programmerere og folk vi kan samarbeide med. Ta kontakt på runarb [att] boitho [dot] com eller msn msm_support [att] hostviser [dot] com
nso
popålol
nso's Avatar
Administrator
Ikke ett eneste treff på 'freakforum' ? =(
får masse treff "freakforum" jeg
Trådstarter
!!!! bruk http://www.boitho.com/beta, ikke http://www.boitho.com. http://www.boitho.com er ikke oppdatert enda.

Freakforum er indeksert, bare se: http://bbh-001.boitho.com/cgi-bin/Ur...freakforum.nu/ og kommer på førsteplass for søk på freakforum:
http://www.boitho.com/beta/?query=freakforum&sprok=NBO
Sist endret av Kongen; 12. juli 2005 kl. 23:22.
nso
popålol
nso's Avatar
Administrator
Alt er vell i verden igjen!
Jøss... Jeg fant tilfeldigvis Boitho en gang for lenge siden. Hadde helt glemt den. Jeg vil gjerne hjelpe til på ett eller annet vis, men både serveren og desktop-PC-en min kjører Linux, og dere har tydeligvis ikke noen Linuxklient. Hva kjører de dedikerte PC-ene deres? Ikke Windows håper jeg? Kommer dere til å porte klienten noen gang? (Ser også ut som noen jobber på /beta/ akkurat nå..? "Fant totalt < !-- TOTALT --> for "< !-- QUERY -->" på < !-- TID -->, viser 0 - < !-- SHOWABAL --> ")

En annen ting... En flott funksjon tror jeg ville vært å kunne mate crawleren med linker/stikkord/sider selv, slik at man på en måte føler at man hjelper litt mer til, siden man kan søke etter det stikkordet man har crawlet etter, og se at det faktisk hjelper. Sånn som det er nå føler jeg liksom at jeg crawler mange dårlige personlige hjemmesider til folk som bor i en mindre kjent stat i USA. Man kan jo legge til linker selv, men det er morsomt å faktisk kunne crawle det selv i tillegg. Hvis du skjønner...
Sist endret av Chiisai; 13. juli 2005 kl. 00:03.
Trådstarter
Fant totalt < !-- TOTALT --> for "< !-- QUERY -->" på < !-- TID -->, viser 0 - < !-- SHOWABAL --> ")
Vis hele sitatet...
Fikset.

Hva kjører de dedikerte PC-ene deres? Ikke Windows håper jeg? Kommer dere til å porte klienten noen gang?
Vis hele sitatet...
En Linux klient vil nokk komme en gang, men ikke med det første. De dedikerte crawlerne kjører fakisk Windows, mens serverne som står for indeksering og søking kjører Linux.

En flott funksjon tror jeg ville vært å kunne mate crawleren med....
Vis hele sitatet...
God ide, skal se på det.
oi, nå prøvde jeg å søke på meitemark, siden det er det jeg bruker som test når jeg søker i søkemotorer, og så så jeg at det var flere sider. Eneste problemet var at alle sidene ga AKKURAT samme resultat? (jeg sikkerhetstestet på noen andre ord også)
Trådstarter
Meitemark, stemmer det. Man kan ikke bla vidre fra siden 1. Hverken det eller å fjerne adult filter fungerer i denne betaen.
▼ ... noen måneder senere ... ▼
Hvis alt går som normalt vil vi nå 200 millioner crawlede sider sent i kveld en gang

Se her for status: http://dcsetup.boitho.com/cgi-bin/dc/topCrawlers.cgi

Crawler ca 120 mill sider pr måned nå, så 300 mill er ikke lang unna.
Hm, hvordan funker denne rankinga egentlig? Når jeg søker på repeat magazine, så finner jeg ikke repeat.no (ihvertfall ikke på førstesida - dukker opp øverst på google hvis du søker på repeat magazine der), men når jeg søkte på plurboard, så fant jeg oss...?

...og det er forresten smutforumet vårt som dukker opp da, så det adultfilteret vet jeg ikke om jeg ville ha stolt helt på...
Sist endret av atomet; 3. oktober 2005 kl. 22:57.
Rangeringen er basert på antall linker som peker til en side. Problemet er at vi ikke har crawlet repeat.no enda. Sjeke statusen her:

http://bbh-001.boitho.com/cgi-bin/Ur...w.repeat.no%2F

bdw, søkemotoren er på http://www.boitho.com/beta/
Sist endret av Kongen; 3. oktober 2005 kl. 23:09.
Vet du at Pilene til "Human Based Ranking system" ikke står ordentlig i Firefox?
▼ ... noen uker senere ... ▼
Vår neste beta er nå klar. Man kan nå søke i 171 169 451 sider fordelt på 3 noder på www.boitho.com nå.

Har også laget en "mer info" link der man kan se mer status for et søk.
▼ ... mange måneder senere ... ▼
Trådstarter
Vi er endelig ferdig med neste versjon av programvaren. Man kan nå søke i 300 millioner sider.

Adressen er som alltid, http://www.boitho.com

Søket kjører på 6 servere i parallell, og søket gjøres i ca 5 tb med data.


Det litt tid før resultatene vises nå, da nettleseren ser ut til å vente til alle bildene er lastet ned før den viser siden. Er det noen som vet om noen triks får og å få siden til å vises med en gang, så lastes bildene inn etter hvert. Har satt høyde og bredde på alle bildene, og siden validerer. Hvis man ser på versjonen uten bilder, så føles denne raskere: http://light.boitho.com/


Jeg ser etter noen som kunne tenke seg å teste ut og distrubuere Boitho søk på sin side. Dette vil ikke koste noe, og man vil få en andel av ppc inntektene. Hvis du har en side av litt størrelse, ikke nøl med å ta kontakt på: runarb [at] boitho [dot] com.

Dette fungerer ved at man har et php script på sine nettsider, som sender søket til oss, og får xml tilbake. Designet på resultatene er fult konfigurerbare med templater.
▼ ... over en uke senere ... ▼
Trådstarter
Vi har fått oss kontor i Trondheim!

Boitho flyttet inn i Innovasjonssenter Gløshaugen ( http://www.ig.ntnu.no/ ) i dag. Se http://www.boitho.com/blog/ for bilder.


Bdw, vi ser fortsatt etter pilotbrukere for vår partnerskapsløsning, og folk som vil hjelpe oss å crawle nettet.

Last ned den distribuert crawleren her: http://www.boitho.com/dc/
Ikke verst! Jeg for min del kunne helt sikkert crawlet litt, men jeg har desverre ingen maskiner med Windows på. Det hadde ikke vært mulig å porte til GNU/Linux? En kommandolinjeklient ville jo kunne fungert på et vell av plattformer.
Får bare feilmelding når jeg skal prøve å søke, jeg.

XML error: not well-formed (invalid token) at line 589
Vis hele sitatet...