Maskinspråk: hvordan Siri fanger opp stemmen din?
Makradar Av Teknologi / / December 19, 2019
Google, Apple, Microsoft, og selv Amazon er aktivt med å utvikle sine taletjenester. Nybakte på iOS 7 er den samme Siri, bare nye funksjoner og... stemme. Lurer du på hvordan er denne prosessen? Som datamaskiner blir undervist tale? dette ekte kunst.
For hver av stemmene Siri - din skuespiller. Når den har fullført sin rolle i artikulasjon, har arbeidet bare så vidt begynt... Mannens stemme fortsetter sin reise. Historien om denne reisen, både av mennesker og robot - en av de mest komplekse teknologiske prosesser, som ikke kunne gjennomføres for ti år siden.
La oss bli kjent med direktør for design og utvikling av stemmen Nuance, er det en av de største uavhengige selskapene i verden som arbeider med talegjenkjenning og tekst til tale. Brant Ward (J. Brant Ward) pleide å være en komponist, komponere partiet for strykekvartetter til synthesizere, og nå er han komponerer det ved hjelp av syntetiske stemmer. Han jobber i talesyntese industrien i Silicon Valley i over et tiår.
Tekst til tale - en svært konkurransedyktig industri, og de ansatte er svært hemmelighetsfull. Selv om verden og mener at Nuance skaper stemmen til Siri for, Ward og hans kollega David Vasquez (David Vazquez) unngå et direkte svar. Likevel, de enige om å forklare, i hvert fall i generelle termer, hvordan prosessen med å skape en fantastisk maskin stemmer.
Unødvendig å si, ingen grunn til å artikulere og skrive hvert ord fra ordboken. Men når det kommer til programmet, som bør leses noen nyheter i nyhetsbrevet, eller finne noe for deg på Internett, er det rett og slett nødt til å snakke hvert ord i ordlisten.
De fleste av forslagene er valgt på en "rikdom fonetikk" - det vil si, de inneholder mange forskjellige kombinasjoner av fonemer. "Faktum er, jo mer data vi har, desto mer realistisk resultatet bli," - sier Ward.
Etter at teksten er spilt inn live skuespiller (en langtekkelig prosess som kan ta flere måneder), begynner veldig hardt arbeid. Ord og setninger blir analysert, dividert med kategorier og registrert i en stor database. I dette komplekse arbeidet med et team av dedikerte lingvister, samt bruke sin egen språklige programvare.
Når alt dette er gjort, til enheten fra Nuance sette tekst til tale skaper bits ord og uttrykk som skuespiller kan Jeg aldri ytret, men det høres veldig lik den talen til skuespilleren, fordi det teknisk sett er stemmen skuespiller.
Prosessen taler er bevisstløs. Vi gjør det uten å tenke på hvordan denne prosessen skjer: situasjonen der er vårt språk, som relasjoner er bygget mellom fonemer, og så videre - for enkelt og effektivt uttrykke komplekse ideer og følelser. Men for at datamaskinen plukket opp lyden av menneskestemmer, må alle disse faktorene må tas i betraktning. Som en professor i lingvistikk, er oppgaven med "Titanic".
Du bør ikke tenke: "Jeg snakker til en datamaskin." Du vanligvis ikke trenger å tenke på det.
"Mine barn samhandle med Siri, som om det var en levende skapning... De føler ikke forskjellen," - sier Ward.
Så langt, og vennskapet mellom mennesker og roboter - som mennesker. Mange mennesker ville like det hvis Siri kan gjenkjenne den følelsesmessige tilstand av høyttaleren, og en eller annen måte reagerer på det (for eksempel inkludere en beroligende stemme modus). Tenk deg - å snakke med roboten, som er moralsk klappe deg på hodet. Kanskje er Nuance allerede tenke på det ...