Virtuelle stemmer: Azures nevrale tekst-til-tale-tjeneste

Hvordan Googles WaveNet-teknologi har banet vei for apparater som snakker tilbake til deg Voysis-grunnlegger og administrerende direktør Peter Cahill om hvordan nyere fremskritt i maskingenerert tale vil endre hvordan vi samhandler med maskiner, og snakket på AI-konferansen presentert av O'Reilly og Intel AI.

Mer om Windows

  • Slik bruker du God Mode i Windows 10
  • Windows 10 PowerToys: Et jukseark
  • Microsofts største flopper i tiåret
  • 10 triks og finpusse for tilpasning av Windows 10 (gratis PDF)

Dagene med tastaturet og skjermen som vår eneste metode for å samhandle med en datamaskin er for lengst borte. Nå er vi omgitt av mer naturlige brukergrensesnitt, og legger til berørings- og talegjenkjenning til repertoaret vårt med interaksjoner. Det samme gjelder hvordan datamaskiner reagerer på oss, ved bruk av haptics og talesyntese.

Tale blir stadig viktigere, ettersom det gir en håndfri og på avstand måte å jobbe med enheter på. Det er ikke nødvendig å berøre dem eller se på dem - alt som trengs er en håndfull triggerord og et godt talegjenkjenningssystem. Vi er kanskje mest kjent med digitale assistenter som Cortana, Alexa, Siri og Google Assistant, men taleteknologier vises i hjelpesystemer, i bilapplikasjoner og i andre miljøer der manuell drift er vanskelig, distraherende eller direkte farlig.

Kunstige stemmer for koden vår

Den andre siden av talegjenkjenningshistorien er selvfølgelig talesyntese. Datamaskiner er flinke til å vise tekst, men er ikke veldig flinke til å lese den for oss. Det som trengs er en enkel måte å ta tekstinnhold og gjøre det om til gjenkjennelig tale av menneskelig kvalitet, ikke den uhyggelige monotonen til en sci-fi-robot. Vi er alle kjent med talesynteseverktøyene i automatiserte telefonsystemer eller i GPS-apper som mislykkes grunnleggende uttalelsestester, og får navn og adresser på morsomt galt.

Talesyntese av høy kvalitet er ikke lett. Hvis du tar standardtilnærmingen, kartlegger tekst til strenger av fonemer, blir resultatet ofte stiltert og utsatt for feiluttale. Det mer forvirrende er at det er lite eller ingen bøyninger. Selv å bruke SSML (Talesynthesis Markup Language) for å legge vekt og bøyning, gjør ikke stor forskjell, og legger bare til arbeidsmengder for utviklere, noe som krever at alle ytringer er merket på forhånd for å legge til passende talekonstruksjoner.

En del av problemet er måten tradisjonell talesyntese fungerer på, med separate modeller for både å analysere teksten og for å forutsi ønsket lyd. Siden de er separate trinn, er resultatet tydelig kunstig. Det som trengs er en tilnærming som tar de separate trinnene og bringer dem sammen, til en enkelt talesyntesemotor.

Microsoft's text-to-speech service uses deep neural networks to improve the way traditional text-to-speech systems match patterns of stress and intonation in spoken language (prosody) and synthesise speech units into a computer voice.

" data-credit="Image: Microsoft" rel="noopener noreferrer nofollow">

Microsofts tekst-til-tale-tjeneste bruker dype nevrale nettverk for å forbedre måten tradisjonelle tekst-til-tale-systemer matcher mønstre av stress og intonasjon på talespråk (prosodi) og syntetiserer taleenheter til en datamaskinstemme.

Bilde: Microsoft

Bruker nevrale nettverk for mer overbevisende tale

Microsoft Research har arbeidet med å løse dette problemet i noen tid, og den resulterende nevrale nettverksbaserte talesyntese-teknikken er nå tilgjengelig som en del av Azure Cognitive Services-pakken med taleverktøy. Ved å bruke den nye Neural text-to-speech-tjenesten, som er vert i Azure Kubernetes Service for skalerbarhet, blir generert tale streamet til sluttbrukere. I stedet for flere trinn føres inntekst først gjennom en nevrisk akustisk generator for å bestemme intonasjon før den blir gjengitt ved bruk av en nevral stemmemodell i en nevral vokoder.

Den underliggende stemmemodellen genereres via dyp læringsteknikker ved bruk av et stort sett med samplet tale som treningsdata. Det originale Microsoft Research-dokumentet om emnet går i detalj på treningsmetodene som ble brukt, først ved å bruke rammefeilminimering før man refinanserer den resulterende modellen med sekvensfeilminimering.

Å bruke den nevrale TTS-motoren er enkelt nok. Som med alle de kognitive tjenestene, starter du med en abonnementsnøkkel og bruker deretter denne til å lage en klasse som kaller tekst-til-tale-API-ene. Alt du trenger å gjøre er å velge en av de nevrale stemmene for å bruke den nye tjenesten; de underliggende APIene er de samme for nevrale og standard TTS. Talesvar blir strømmet fra tjenesten til enheten din, slik at du enten kan rette dem rett til standard lydutgang eller lagre den som en fil som skal spilles av senere.

Kunstig intelligens: En bedriftsleders guide (gratis PDF)

Nevrale stemmer støtter fortsatt SSML, slik at du kan legge til dine egne justeringer til standardstemmer. Det er i tillegg til deres spesifikke optimaliseringer for spesifikke taletyper. Hvis du ikke vil bruke SSML, kan du velge en nevral stemme etter karakteristikk - en nøytral stemme eller en munter stemme, for eksempel. SSML kan brukes til å fremskynde avspilling eller endre tonehøyde for et talesegment uten å endre den syntetiserte stemmen. På den måten kan du la brukerne justere utdataene etter arbeidsmiljøet, slik at de kan velge stemmeinnstillingene de finner passende.

Microsoft har gjort nevrale stemmer tilgjengelige i flere regioner, selv om du vil ha større språkdekning, må du gå tilbake til å bruke de eldre, standard talesyntesemodellene. Nevrale stemmer er tilgjengelige på engelsk, tysk, italiensk og kinesisk, med fem forskjellige stemmer. De fleste er kvinnelige, men det er en mannlig engelsk stemme.

Legge til nevrale stemmer i appene dine

Så hvor vil du bruke nevrale stemmer? Det åpenbare valget er i enhver applikasjon som krever et langt sett med stemmemaksjoner, ettersom tradisjonell talesyntese kan være slitsom å lytte til i lange perioder. Du vil også bruke nevrale stemmer der du ikke vil legge til kognitiv belastning - en risiko som reduseres ved å bruke et mer naturlig sett med stemmer. Digitale personlige assistenter og systemer i bilen er et logisk første skritt for disse nye teknikkene, men du kan bruke dem til å raskt lage lydversjoner av eksisterende dokumenter, redusere kostnadene ved lydbøker og hjelpe brukere med auditiv læringsstiler.

Hvis du vil komme i gang med å bruke nevrale stemmer i applikasjonene dine, tilbyr Microsoft et gratis abonnement som gir deg 500 000 tegn anerkjent tekst per måned. Siden nevrale stemmer krever mer beregnede enn tradisjonelle eksempelbaserte metoder, er de dyrere å bruke, men til $ 16 per million tegn når du har flyttet ut av gratistjenesten, kommer det ikke til å ødelegge banken - spesielt ikke hvis du bruker mulighet for å lagre ytringer for senere bruk. Disse kan brukes til å bygge et bibliotek med ofte brukte talesegmenter som kan spilles av etter behov.

Med tale som et stadig viktigere tilgjengelighetsverktøy, er det godt å se den moderne teknikken bevege seg utover stilte, åpenbart kunstige stemmer. Microsofts lansering av nevrale stemmer i sin Cognitive Services-pakke er et viktig skritt fremover. Nå må den bringe dem til flere språk og til flere regioner, slik at vi alle kan dra nytte av disse nye talesynteteknikkene.

Microsoft Weekly Newsletter

Vær din virksomhets Microsoft-innsider ved hjelp av disse Windows- og Office-opplæringsprogrammene og våre eksperters analyser av Microsofts bedriftsprodukter. Leveres mandager og onsdager

Registrer deg i dag

Se også

  • Maskinlæring: Et jukseark (TechRepublic)
  • Telemedisin, AI og dyp læring revolusjonerer helsevesenet (TechRepublic nedlasting)
  • Administrere AI og ML i bedriften 2019: Tekniske ledere forventer større problemer enn tidligere IT-prosjekter (Tech Pro Research)
  • Hva er AI? Alt du trenger å vite om kunstig intelligens (ZDNet)
  • 6 måter å slette deg selv fra internett (CNET)
  • Kunstig intelligens: Mer må-lese dekning (TechRepublic på Flipboard)

© Copyright 2021 | pepebotifarra.com