Hepp hepp,
Jeg drifter ett par store løsninger for jobben. Blant annet en e-postserver som fungerer på lik linje med gmail med tanke på at man kan registrere nye kontoer fritt osv. Denne løsningen har blitt utnyttet av hackere den siste tiden ,til tross for alle captcha forsøk jeg har implementert. Det problemet er løst, men jeg sitter allikevel igjen med ønske om mer kunnskap om hvordan captcha cracking foregår.
Jeg har undersøkt og prøvd en del, men får det ikke helt til. Jeg ønsker ikke å benytte ett captcha knekker API (hvor man betaler en latterlig lav sum for f.eks 1000 captchas etc), men jeg ønsker å finne ut av hvordan jeg kan kode noe som knekker en bestemt type captcha. Fortrinnsvis via linux og tilgjengelige verktøy der.
Vedlagt fil inneholder ett eksempel på hva jeg har gjort. Til venstre er originalbildet og til høyre er bildet etter jeg har rotet litt med imagemagick.
Jeg har ikke tidligere erfaring med dette, men planen min er som følger:
1. Rense opp bildet for all støy slik at bokstaver blir så distinke som mulig
2. Konvertere bildet til grayscale for å utelukke farger
3. Trene opp en OCR, f.eks gocr eller tesseract, til å gjenkjenne bokstaver
4. Nuke captchaen.
Problemet mitt ifht vedlagte captcha er som følger:
1. Er planen min "riktig", eller burde jeg finne en annen fremgangsmåte?
2. Vil det ikke bli ufattelig vanskelig å lære opp gocr/tesseract, med tanke på at fontene har forskjellige vinkler og størrelser samt posisjoner for hver eneste captcha?
3. Det "rensede" bildet mitt er nesten mer utydelig enn originalen. Hvordan kunne jeg bedre fått renset det?
Notis;
Pr nå benytter jeg som nevnt imagemagick og "convert" for å rense bildet. Jeg konverterer enkelte farger til transparent med en fuzz for å få fjernet dem fra bildet. Det etterlater allikevel en del støy som gjør bokstavene vanskelig å identifisere.
Eksempel på kommando jeg har brukt:
På forhånd takk for hjelp/idèer
Mvh
Java
Jeg drifter ett par store løsninger for jobben. Blant annet en e-postserver som fungerer på lik linje med gmail med tanke på at man kan registrere nye kontoer fritt osv. Denne løsningen har blitt utnyttet av hackere den siste tiden ,til tross for alle captcha forsøk jeg har implementert. Det problemet er løst, men jeg sitter allikevel igjen med ønske om mer kunnskap om hvordan captcha cracking foregår.
Jeg har undersøkt og prøvd en del, men får det ikke helt til. Jeg ønsker ikke å benytte ett captcha knekker API (hvor man betaler en latterlig lav sum for f.eks 1000 captchas etc), men jeg ønsker å finne ut av hvordan jeg kan kode noe som knekker en bestemt type captcha. Fortrinnsvis via linux og tilgjengelige verktøy der.
Vedlagt fil inneholder ett eksempel på hva jeg har gjort. Til venstre er originalbildet og til høyre er bildet etter jeg har rotet litt med imagemagick.
Jeg har ikke tidligere erfaring med dette, men planen min er som følger:
1. Rense opp bildet for all støy slik at bokstaver blir så distinke som mulig
2. Konvertere bildet til grayscale for å utelukke farger
3. Trene opp en OCR, f.eks gocr eller tesseract, til å gjenkjenne bokstaver
4. Nuke captchaen.
Problemet mitt ifht vedlagte captcha er som følger:
1. Er planen min "riktig", eller burde jeg finne en annen fremgangsmåte?
2. Vil det ikke bli ufattelig vanskelig å lære opp gocr/tesseract, med tanke på at fontene har forskjellige vinkler og størrelser samt posisjoner for hver eneste captcha?
3. Det "rensede" bildet mitt er nesten mer utydelig enn originalen. Hvordan kunne jeg bedre fått renset det?
Notis;
Pr nå benytter jeg som nevnt imagemagick og "convert" for å rense bildet. Jeg konverterer enkelte farger til transparent med en fuzz for å få fjernet dem fra bildet. Det etterlater allikevel en del støy som gjør bokstavene vanskelig å identifisere.
Eksempel på kommando jeg har brukt:
Kode
convert abj.png -fuzz 5% -transparent "#163948" -transparent "#1c1c1c" -fuzz 1% -transparent "#25292d" -sharpen 1 abj2.png
Mvh
Java