Koneen kieli: miten Siri poimii äänesi?
Makradar Teknologian / / December 19, 2019
Google, Apple, Microsoft, ja jopa Amazonin kehittävät aktiivisesti puhepalvelut. Vastaleivottua iOS 7 on sama Siri, vain uusia toimintoja ja... ääni. Mietitkö miten tämä prosessi? Tietokoneiden opetetaan puhetta? tämä oikeaa taidetta.
Kullekin ääniä Siri - oman näyttelijä. Kun se on saanut sen roolista artikulaatio, työ on vasta alkanut... Miehen ääni jatkaa matkaansa. Tarina tämän matkan, niin ihminen robotin - yksi vaikeimmista teknologisia prosesseja, joita ei voitaisi toteuttaa kymmenen vuotta sitten.
Katsotaan tutustua johtaja suunnittelu ja kehittäminen äänen Nuance, se on yksi suurimmista itsenäisistä yrityksistä maailmassa käsittelevät puheentunnistuksen ja tekstin puheeksi. Brant Ward (J. Brant Ward) käytetään olla säveltäjä, säveltää osapuolelle jousikvartettoa on syntetisaattoreita, ja nyt hän säveltää sen käyttämällä synteettisiä ääniä. Hän työskentelee puheen synteesiteollisuudessa Piilaaksossa yli vuosikymmenen ajan.
Teksti puheeksi - erittäin kilpailukykyinen teollisuus ja sen työntekijät on hyvin salainen. Vaikka maailma ja uskoo, että Nuance luo ääni Siri, Ward ja hänen kollegansa David Vasquez (David Vazquez) välttää suoraa vastausta. Siitä huolimatta he päättivät selittävät ainakin yleisellä tasolla, miten luomassa hämmästyttävän koneen ääntä.
Sanomattakin on selvää, ei tarvitse jäsentää ja kirjoittaa jokaisen sanan sanakirjasta. Mutta kun se tulee hakemuksen, jota olisi luettava tahansa uutisia uutiskirjeen, tai löytää jotain sinulle Internetissä, se on yksinkertaisesti pakko puhua jokaisen sanan sanakirjasta.
Useimmat ehdotukset valitaan on "rikkautta fonetiikan" - eli ne sisältävät monia erilaisia yhdistelmiä äänteitä. "Tosiasia on, sitä enemmän tietoa meillä on, realistisempi tulos on" - sanoo Ward.
Kun teksti on tallennettu live ääninäyttelijä (työläs prosessi, joka voi kestää useita kuukausia), erittäin kova työ alkaa. Sanat ja lauseet analysoidaan jaettuna luokkiin ja tallennettu suuri tietokanta. Tässä monimutkaisessa työmäärä tehtävään omistautuneita kielitieteilijät sekä käyttävät omaa kielellistä ohjelmistoja.
Kun kaikki tämä on tehty, laite Nuance kääntää tekstiä puheeksi luo vähän sanoja ja lauseita, että näyttelijä voi En koskaan itse lausuttu, mutta se kuulostaa hyvin samanlainen puhe näyttelijä, koska teknisesti se on ääni näyttelijä.
Prosessi puhuminen on tajuton. Me teemme sen ajattelematta, miten tämä prosessi tapahtuu: tilanne, jossa on kielemme, joka suhteet rakentuvat välillä äänteitä, ja niin edelleen - helposti ja tehokkaasti ilmaista monimutkaisia ajatuksia ja tunteita. Mutta jotta tietokone kyytiin ääni ihmisen ääniä, kaikki nämä tekijät on otettava huomioon. Yhtenä professori kielitieteen, on tehtävä "Titanic".
Teidän ei pidä ajatella: "Puhun tietokoneeseen." Sinun ei yleensä tarvitse ajatella sitä.
"Lapseni ovat vuorovaikutuksessa Siri, ikään kuin se olisi elävä olento... He eivät tunne eroa," - sanoo Ward.
Toistaiseksi ja ystävyyden ihmisten ja robottien - kuten ihmisillä. Monet ihmiset haluaisivat, jos Siri tunnistaa tunnetila kaiuttimen, ja jotenkin reagoida siihen (esimerkiksi sisältävät rauhoittava ääni-tila). Kuvittele - puhua robotti, joka on moraalisesti Pat teitä päähän. Ehkä, Nuance on jo ajatellut sitä ...