Kredit: University of California â San Diego
Forskare har hittat ett sÀtt att göra AI-genererade röster, som digitala personliga assistenter, mer uttrycksfulla, med ett minimum av trÀning. Metoden, som översÀtter text till tal, kan Àven appliceras pÄ röster som aldrig ingick i systemets trÀningsuppsÀttning.
Teamet av datavetare och elektroingenjörer frÄn University of California San Diego presenterade sitt arbete pÄ ACML 2021-konferensen, som nyligen Àgde rum online.
Förutom personliga assistenter för smartphones, hem och bilar kan metoden hjĂ€lpa till att förbĂ€ttra voice-overs i animerade filmer, automatisk översĂ€ttning av tal pĂ„ flera sprĂ„k â och mer. Metoden kan ocksĂ„ hjĂ€lpa till att skapa personliga talgrĂ€nssnitt som ger individer som har förlorat möjligheter. förmĂ„gan att tala, liknande den datoriserade röst som Stephen Hawking anvĂ€nde för att kommunicera, men mycket mer uttrycksfull.
“Vi har arbetat i det hĂ€r omrĂ„det under en ganska lĂ„ng tid”, sĂ€ger Shehzeen Hussain, en Ph.D. student vid UC San Diego Jacobs School of Engineering och en av tidningens huvudförfattare. “Vi ville titta pĂ„ utmaningen att inte bara syntetisera tal utan att lĂ€gga till uttrycksfull mening till det talet.”
Befintliga metoder saknar detta arbete pÄ tvÄ sÀtt. Vissa system kan syntetisera uttrycksfullt tal för en specifik talare genom att anvÀnda flera timmars trÀningsdata för den talaren. Andra kan syntetisera tal frÄn bara nÄgra minuters taldata frÄn en talare som aldrig har stött pÄ tidigare; men de kan inte generera uttrycksfullt tal och översÀtter bara text till tal. DÀremot Àr den metod som utvecklats av UC San Diego-teamet den enda som med minimal trÀning kan generera uttrycksfullt tal för ett Àmne som inte har varit en del av dess trÀningsuppsÀttning.
Forskarna flaggade tonhöjden och rytmen i talet i trÀningsprover, som en proxy för kÀnslor. Detta gjorde det möjligt för deras kloningssystem att generera uttrycksfullt tal med minimal trÀning, Àven för röster som det aldrig hade stött pÄ tidigare.
“Vi visar att vĂ„r föreslagna modell kan fĂ„ en ny röst att uttrycka, uttrycka, sjunga eller kopiera stilen pĂ„ ett givet referenstal”, skriver forskarna.
Deras metod kan lÀra sig tal direkt frÄn text; rekonstruera ett talprov frÄn en mÄltalare; och överföra talets tonhöjd och rytm frÄn en annan uttrycksfull talare till klonat tal för mÄltalaren.
Teamet Àr medvetet om att deras arbete kan anvÀndas för att göra deepfake-videor och ljudklipp mer exakta och övertygande. Som ett resultat planerar de att slÀppa sin kod med en vattenstÀmpel som kommer att identifiera talet som skapats av deras metod som klonat.
“Expressiv röstkloning skulle bli ett hot om du kunde skapa naturliga intonationer”, sĂ€ger Paarth Neekhara, tidningens andra huvudförfattare och doktor. student i datavetenskap vid Jacobsskolan. “Den viktigaste utmaningen att ta itu med Ă€r upptĂ€ckten av dessa medier och vi kommer att fokusera pĂ„ det hĂ€rnĂ€st.”
SjÀlva metoden behöver fortfarande förbÀttras. Den Àr partisk mot engelsktalande och kÀmpar med högtalare med stark accent.
Kan vi uppfatta kön utifrÄn barns röster?
Mer information:
Paarth Neekhara et al, Expressive Neural Voice Cloning. arXiv:2102.00151v1 [cs.SD]arxiv.org/abs/2102.00151
Ljudexempel: expressivecloning.github.io/
TillhandahĂ„lls av University of California â San Diego
Citat:Ny metod för att göra AI-genererade röster mer uttrycksfulla (2022, 5 januari)hÀmtad 5 januari 2022 frÄn https://techxplore.com/news/2022-01-method-ai-generated-voices.html
Detta dokument Àr föremÄl för upphovsrÀtt. Bortsett frÄn all rÀttvis handel i syfte att privata studier eller forskning, fÄr ingen del reproduceras utan skriftligt tillstÄnd. InnehÄllet tillhandahÄlls endast i informationssyfte.