Ny Google AI gjør det lettere å spille inn forretningspresentasjoner i høyt miljø

Dette er de beste selskapene som gjør store investeringer i AI Google, Amazon, og Apple har investert milliarder i AI-forskning, sier TechRepublics Olivia Krauth.
Bygge et lysbilde dekk, tonehøyde eller presentasjon? Her er de store takeaways:
  • Google-forskere avduket en dyp læringsmodell for å isolere et enkelt talesignal fra en blanding av lyder, inkludert andre stemmer og bakgrunnsstøy.
  • Modellen har potensielle bruksområder innen taleforbedring og anerkjennelse i videoer og videokonferanser.

Når du befinner deg i en støyende konferansesal eller nettverksarrangement, er det vanligvis ganske enkelt å rette oppmerksomheten mot den aktuelle personen du snakker med, mens du mentalt "demper" de andre stemmene og lydene i området. Denne muligheten - kjent som cocktailparty-effekten - kommer naturlig til mennesker, men har forblitt en utfordring for datamaskiner når det gjelder å automatisk skille et lydsignal i de individuelle talekildene.

I det minste frem til nå: Google-forskere har utviklet en dyp læring av audiovisuell modell for å isolere et enkelt talesignal fra en blanding av lyder, inkludert andre stemmer og bakgrunnsstøy. Som beskrevet i en ny artikkel, var forskerne i stand til å lage videoer med en datamaskin der spesifikke menneskers stemmer blir forbedret, mens alle andre lyder er tonet ned.

Mer om innovasjon

  • IBM kunngjør gjennomslag av batteriteknologi
  • Augmented reality for business: Cheat sheet
  • Bilder: Verdens 25 raskeste superdatamaskiner
  • Inside the Raspberry Pi: Historien om $ 35-datamaskinen som forandret verden

Metoden gjør at noen som ser på en video, kan velge ansiktet til personen i videoen som de vil høre, eller å bruke en algoritme til å velge vedkommende basert på konteksten. Dette kan potensielt tillate forretningsbrukere å enklere transkribere møter eller konferansepresentasjoner, spesielt hvis det ble filmet i en fullsatt konferansesal.

"Vi tror denne muligheten kan ha et bredt spekter av applikasjoner, fra taleforbedring og gjenkjennelse i videoer, gjennom videokonferanser, til forbedrede høreapparater, spesielt i situasjoner der det er flere som snakker, " ifølge et fersk blogginnlegg fra Google Research.

Googles teknikk bruker både lyd og visuelle signaler fra videoen for å skille talen, bemerket innlegget, og matcher bevegelsene til en persons munn og lydene som er produsert for å identifisere hvilke deler av lyden som tilsvarer den personen. Dette forbedrer taleseparasjonskvaliteten kraftig når mer enn en person er til stede, ifølge innlegget.

Google trente metoden sin på en samling av 100 000 videoer med forelesninger og foredrag fra YouTube, og utvunnet videosegmenter med ren tale og en enkelt høyttaler. Fra dette fikk gruppen 2000 timer videoklipp, alle med en enkelt høyttaler på kamera og ingen bakgrunnsstøy. Forskerne brukte deretter dataene for å generere blandinger av ansiktsvideoer og den tilsvarende talen fra separate videokilder, sammen med bakgrunnslyder.

Disse dataene gjorde det mulig for forskerne å trene en "multi-stream konvolusjonell nevralt nettverksbasert modell" for å skille lydstrømmer for hver høyttaler.

Denne metoden har en rekke potensielle applikasjoner, som forbehandling for talegjenkjenning og automatisk videoopptak. Google undersøker for tiden hvordan det kan integreres i selskapets produkter, ifølge innlegget.

Nyhetsbrev om innovasjon

Vær kjent med smarte byer, AI, Internet of Things, VR, AR, robotikk, droner, autonom kjøring og mer av de kuleste teknologiske nyvinningene. Leveres onsdager og fredager

Registrer deg i dag

© Copyright 2021 | pepebotifarra.com