Tekst til Tale Diskusjon

Hva er det som gjør at jeg fortsatt har tilgode å høre et Tekst til Tale program som høres naturlig ut?
Jeg kan ikke særlig om lyd ( eller stemme) men det høres ut som det er særlig tempo som er problemet.

Det jeg tenker er at med de mulighetene mann har i dag (hvor mye datakraft, maskinlæring o.l.)
så må det da gå an å analysere nok menneske tale til at mann kan få til et mer naturlig tonefall.

Hva er det som gjør det så vanskelig?

intoxicada

DA har du ikke hørt de riktige talesyntesene rett og slett, du snakker med en blind kar her som benytter seg av sånt hele tida, hver dag både på Mac og tlf, eller PC da jeg brukte det for den saks skyld. det er klart, 100% naturlig har jeg til gode å høre men de mest realistiske stemmene der ute er faktisk veldig menneskelige. Henrik, en av stemmene til VoiceOver, Acapella sin Olav er to eksempler på norske stemmer som har naila det ganske greit, den mannlige stemmen til Siri i nyere IOS-versjoner like så.

Edit: så er det også noe med at de stemmene som fortoner seg som mest naturlig ikke nødvendigvis er de beste på uttale. Paradoksalt kanskje, men det er nok så enkelt som at i jaget etter å få stemmen så naturlig som over hodet mulig så har programmererne ikke vært like grundig med uttalen, dog har VoiceOver for appleprodukter i nyere tid vært veldig flinke på å rette opp i dette, Henrik som jeg bruker nå høres ut som en relativt straight ung mann med dreis på samtlige engelske ord og programmererne har vært forbilledlige hva gjelder å legge til nye ting i uttalelista så fort det kommer en ny OS-opdatering. Trump uttales nå med ø, akkurat som vi sier navnet her i Norge foreksempel. Derimot er det noen rare bugs som f.eks. fascist uttales av en eller annen grunn fascismen, vet ikke hvorfor. skuddår uttales skussår også.

en annen god engelsk stemme er Allex, også for VoiceOver, en stemme som faktisk tar innpust mens han leser. I det engelske markedet vet jeg forøvrig det er horder av gode stemmer men jeg bruker ikke Windows mer hvor de fleste av dem finnes, acapella Group er i alle fall en god talesynteseutvikler med fokus på det naturlige, i alle fall i senere tid.

Sist endret av equimanthorn; 23. juli 2020 kl. 22:15. Grunn: Automatisk sammenslåing med etterfølgende innlegg.

BRAND ∞ STRONG

Trådstarter

Det var bra å høre.
Folk som er avhengig av denne teknologien var nettopp en av tingene jeg tenkte på.
Det har slått meg tidligere også, men har blitt ekstra oppmerksom i det siste pga. all Corona
annonseringen på Oslo S. Den stemmen høres ikke spess naturlig ut.
Særlig på tempo.

intoxicada

Hadde man bare speeda opp den litt så synes jeg den er helt konge faktisk! Det er noe med at når man skal ha ting opplest med talesyntese så er man nødvendigvis ikke ute etter å ha en stemme som gir deg inntrykk av å lese lydbok. Heller en syntetisk og robotaktig stemme enn en ræva lydbokinnleser any Day of the week, og nå vet jeg at jeg snakker for de aller fleste som er avhengig av sånn teknologi fra børjan av!

Så har det også litt med personlige preferanser å gjøre også, jeg f.eks. foretrekker en mannlig talesyntese, mens damer ofte foretrekker en dame. Vet ikke hvorfor det er sånn men kanskje det har noe å gjøre med at vi på sett og vis ser på sånne stemmer som assistenten vår på et vis, skulle faktisk likt å forske litt på det der, haha! Bare å spørre om hva som helst så skal jeg svare så godt jeg kan!

BRAND ∞ STRONG

Trådstarter

.. men det hjelper jo ikke å sette opp tempo generelt
Sånn som jeg opplever det, så er det variasjonen i tempo som er utfordringen
og muligens spesielle kombinasjoner av ord,

Hun på Oslo S f.eks, noen settninger begynner bra men så skjærer det plutselig rett ut.

intoxicada

Nei, hun hadde funka mye bedre hvis man hadde speeda henne opp, hun snakker såpass sakte rett og slett fordi folk som ikke er avhengig av sånn teknologi skal kunne forstå hva hun sier. Ikke bare det, men også folk som kanskje hører dårlig eller ikke er så språksterke. Når talesynteser snakker sakte så får de ofte en litt unaturlig shvung over seg nettopp fordi de snakker sakte. Når man får dem til å snakke fortere så faller stort sett alle seende jeg møter på min vei av, fra alle samfunnslag. "Å shit, hvordan klarer du å få med deg det der" er nærmest blitt en catchphrase når en synshemma ordner noe greier på tlf eller pc, slår aldri feil! det har nok mye å gjøre med programmeringa, at stemmene funker best når de har et visst tempo. For oss høres det helt naturlig ut, vanskelig å forklare merker jeg, men intonasjonen osv endrer seg betraktelig når man øker tempo litt.

Sist endret av equimanthorn; 23. juli 2020 kl. 22:46.

BRAND ∞ STRONG

Trådstarter

ok så du mener fort fort.
1-2 ganger hastighet eller noe?

Er det vanlig, vet du det? om andre blinde også opplever det slik.

intoxicada

Jeg og vi andre, oppfatter det ikke som fort men dere gjør tydeligvis det, haha! Det varierer også litt fra person til person, noen har den på så høy hastighet at jeg personlig tenker det må være like stress som å ha den på typ Oslo S-hastighet, nettopp fordi ting går litt for fort igjen. På macen min nå så står hastigheten til Henrik på 55%, det synes jeg er røddig for eget bruk i alle fall, noen har litt raskere, noen har litt treigere men ikke nødvendigvis fort-fort, men såpass at Oslo S-dama fortoner seg som en smule syntetisk, absolutt. På iPhone nå så ser jeg at Henrik står på 68% forresten men oppfatter han ikke som kjappere enn tilsvarende på Mac så antagelig litt forskjellig system på tlf og Mac. Hvis du vil at stemmen i det minste skal høres litt mindre unaturlig ut så bør man som sagt ha litt tempo, jeg vil anslå at på 40-45% så kan man begynne å i det minste få den til. å lese ting uten rar og sløv intonasjon.

BRAND ∞ STRONG

Trådstarter

Det må jo være basert på hvor ofte/mye man hører tekst til tale dette da, som
gjør at man utvikler en preferanse på høy hastighet.
Bortsett i fra blindheten så er det vell det som linker den gruppen sammen.

Eller er det sånn blinde tøffer seg for hverandre?
Han med høyest speed er BOSS!

intoxicada

Ja helt klart, da jeg begynte å bruke det i 2002 så var hastigheten betraktelig lavere, ingen tvil om det. Litt hastighet effektiviserer lesing foreksempel, så hvis du har en lang tekst foran deg så kan du gjøre den unna på kortere tid om du får den til å lese fortere. da jeg gikk over til Mac for fullt i 2015 så merker jeg at jeg øka hastigheten enda litt mer enn det jeg hadde gjort de 10 foregående åra, så med åra så leser man ting kjappere, etter hva jeg har forstått så gjelder det for veldig mange andre også. Men ja, absolutt en tilvenningssak med hastighet også, ingen tvil om det.

Haha, vi diskuterte faktisk det her med hastighet og hvor fort man selv leste ting og sånn, og hvor vidt de som hadde det på dritfort bare tøffa seg i en av de mange Facebookgruppene for synshemma, noe vi konkluderte med at de gjorde men tror ikke det akkurat gir status i miljøet å tøffe seg, selvom jeg er skråsikker på at det garantert er en eller annen tulling som har hatt høy hastighet nettopp for å flashe!

Men, vi pleier å gjøre narr av at seende ikke forstår talesyntese om den bare er litt kjappere enn Oslo S-dama. Det er klart, dritkjapt er en tilvenningssak men det merkes at dere ikke er like vant med å bruke andre sanser enn synet, ingen tvil om det! Ikke så rart, for alt av kultur, samfunn osv er bygd opp på en veldig visuell måte. Jeg er ikke bitter for det, men det er komisk hvor avhengig veldig mange av dere er av synet deres for å gjøre de enkleste ting! Så der får dere gjennomgå litt, også er det jo noen som drar den litt lengre og ender opp med å bli han Arne Spon-karakteren Raske menn hadde i 2007. Han er en jævla løk, men det er noen synshemma som er litt sånn der, så den karakteren tar noen trekk veldig på kornet selvom det er tatt til det ekstreme.

Guy_Incognito

72 47

Det kan jeg fortelle deg: Det er fordi du ikke har BETALT for de riktige programmene så du sitter igjen med gratis DRITT!

*pi

entro*

4.382 9.593

Sitat av equimanthorn

Vis hele sitatet...

Jeg hører ofte lydbøker på 1,25x tempo, faktisk. Det høres litt unaturlig ut i begynnelsen, men man blir vant til det nesten med en gang, så høres det naturlig ut. Kommer an på hvilken lydbok, selvsagt. Noen ting vil du bruke tid på for opplevelsens del, og noen ting er for kompliserte til at jeg tar det så kjapt. Men typisk lett sakprosa vil jeg helst høre i samme tempo som jeg vanligvis leser. Det blir som å lese på en skjerm der rulleteksten går for treigt, det ødelegger flyten. Jeg hater egentlig romaner på lydbok der den som leser er for treig også, noen leser som om de spiller ut scenen. Jeg vil at de skal lese som om jeg leste det selv.

Sist endret av *pi; 24. juli 2020 kl. 06:54.

BRAND ∞ STRONG

Trådstarter

Sitat av Guy_Incognito

Det kan jeg fortelle deg: Det er fordi du ikke har BETALT for de riktige programmene så du sitter igjen med gratis DRITT!

Vis hele sitatet...

...dette er selvfølgelig latterlig feil.

De få gangene jeg har lastet ned ett tekst til tale program så har ikke det vært gratis drittversjoner, men
ting som egentlig er dyre kommersielle programmer.

Men la oss glemme det for for en stund for poenget mitt handlet ikke først og fremst om programmer
som er tilgjengelige for deg og meg ( selv om det også gjelder de)

Stemmen på Oslo S kommer jo ikke ifra en "gratis drittversjon" som Reis no eller Ruter har lastet ned.
De har nok en dyr lissens.
Likefullt er stemmen ekstremt enkel å gjenkjenne som maskin og ikke menneske.
Og det gjelder fortsatt for ALT jeg har hørt. Tempoet er det som som regel avslører det.
Og selv om han som bidro i tråden lenger opp hadde stemmer og programmer han likte eller syns var bra
så likte han også å høre ting i "Fastforward" tempo.
I så måte er heller ikke han noe sannhetsvitnet på at ett slikt program jeg etterlyser i åpnings tråden eksisterer.

Det finnes 7.799.853.126 stemmer på jorden, så takhøyden for hva vi registrerer som menneske stemme er stor.
Alikevelll skiller maskin selg lett ut, og nesten alltid på tempo.
Hvorfor?

intoxicada

Tror du misforstår hele konseptet talesyntese litt egentlig, målet er ikke nødvendigvis å få den til å høres heeeeelt naturlig ut, det har aldri vært målet og kommer ikke til å være det heller, derav navnet syntetisk tale.

Sitat av *pi

Vis hele sitatet...

Det er absolutt noe i å ha noen som ikke høres ut som de spiller ut scenen, i hvert fall i voksenromaner, men i barnelitteratur liker jeg det veldig godt. Harry Potter med Torstein Bugge HØverstad som innleser er helt konge nettopp fordi han leser med så mye innlevelse. De beste innleserne for meg er de som kan lese sakprosa og fagbøker akkurat på samme måte uten at noen av delene høres stivt ut, noen er helt rå på det og. Så litt situasjonsbetinga for meg.

Edit: en ting jeg glemte, men det er faktisk mye vanskeligere å lage kjemperealistiske stemmer enn man skulle tro, da du må programmere nesten ned til minste bittelille detalj, den menneskelige stemmen er jo fylt med mye svinginger og sånn det er vanskelig å kunne gjøre 100% korrekt. Ja vi har masse stemmer og sånn, men mye ligger i programmering. Derfor satser ofte utviklerne på å heller lage menneskelignende stemmer, sånn at man i det minste har noe som foreløpig ligner, godt nok for utvikler, godt nok for bruker. dessuten så mener jeg å ha lest at det også i statene f.eks er etiske grunner for å holde menneske og maskin adskilt stemmemessig, men husker ikke hvor og når så ta det med en klype salt.

Sist endret av equimanthorn; 24. juli 2020 kl. 10:31. Grunn: Automatisk sammenslåing med etterfølgende innlegg.

*pi

entro*

4.382 9.593

Det tenker jeg også, skulle jeg hatt en robotbutler så er det ikke gitt at den måtte sett helt ut som et menneske. Bare nok til at den fyller funksjonen og er noenlunde behagelig å se på. Tenker kanskje det er sånn med stemmer også. Blir det for mekanisk så er det enerverende, men du trenger ikke å føle at det er et ekte menneske som leser togtabellen for deg.

Intetessant med det etiske også, det er jo ekkelt å bli lurt. Kanskje folk synes det er ubehagelig når det likner for mye. Det er jo kjempecreepy med roboter som ser nesten helt ut som mennesker, bare med noe vagt, udefinerbart "feil" over seg. Vet ikke om jeg heller ville hatt en sånn til butler.

Apropos leseinnlevelse: Jeg har også av og til diskutert med folk hvordan de leser inni seg. Det virker som det varierer litt hvordan deres indre lesestemme er. Jeg tror for eksempel ikke jeg hører for meg distinkt ulike stemmer på personene når jeg leser replikker. Det er min lesestemme jeg hører, men selvsagt med det språket/målformen som teksten er i. Jeg har en viss grad av innlevelse i intonasjonen, men det er ikke en skuespillerstemme jeg hører der inne. Så for meg funker det best om den som leser inn en lydbok leser noenlunde slik min indre lesestemme ville gjort. Jeg liker for eksempel ikke at de etterlikner dype mannsstemmer og lyse kvinnestemmer på replikker, det ville ikke min indre lesestemme gjort.

Sist endret av *pi; 24. juli 2020 kl. 10:53. Grunn: Automatisk sammenslåing med etterfølgende innlegg.

BRAND ∞ STRONG

Trådstarter

Nå tenker ikke jeg på hva folk liker eller ikke.
Jeg lurte på hvorfor det ikke eksisterer., og hvorfor det er så vanskelig.
For hadde det vært mulig så hadde noen gjort det.

equimanthorn: det er nettopp det du nevner i siste avsnitt over her som jeg tenker på.
Og som jeg mener mann burde kunne komme mye lengre i ved å mate en maskin med enorme
mengder "Ekte" stemme og at målet med det er å fange opp alle disse svingningene i tempo.

Sist endret av vindaloo; 24. juli 2020 kl. 12:31.

▼ ... over en måned senere ... ▼

intoxicada

14. september 2020

Hei!

Beklager at jeg aldri fulgte opp det siste svaret men jeg glemte det, tror jeg. Men, i mellomtida har jeg gjort litt research!

Konklusjon: Nei, det har hittil vært umulig å lage en talesyntese som høres 100% menneskelig ut nettopp pga intonasjon, som jeg mistenkte. Ble litt nysgjerrig sjæl så jeg forhørte meg litt rundt med folk som er skikkelig into teknologi og software og meldinga var klar, om talen ble for menneskelig ville det forsvunnet hvis en bruker av f.eks. skjermleser satt opp farta på talen, så egentlig motsatt av hva som skjer om man har en mer syntetisk stemme. Kan tilogmed dele en link om ønskelig. Den menneskelige stemmen er rett og slett mye mer komplisert enn man tenker over sånn i forhold til at vi legger så mange smådetaljer i hvordan vi utrykker oss hele tida at det krever veldig, veldig veldig, veldig mye for å få alt til å klaffe der i gården.

▼ ... noen uker senere ... ▼

BRAND ∞ STRONG

Trådstarter

13. oktober 2020

Sitat av equimanthorn

Vis hele sitatet...

Jeg beklager jeg også, for jeg så ikke svaret ditt før nå.
Takk!

Jeg har tenkt litt selv også, bla annet etter å ha lest om han duden som infiltrerte Nord Korea og hva han kunne
fortelle og hva de var i stand til å lage.

Det må jo være noen eller flere land som forsker på dette, og som er lengre fremme en den "offisielle versjonen"
Implikasjonene er jo ganske store om man kan lage en stemme som slår ut på 100% Trump.

intoxicada