Mājas Audio Es dzirdu mirušus cilvēkus? dabiskās valodas tehnoloģija atdzīvina pagātnes un tagadnes balsis

Es dzirdu mirušus cilvēkus? dabiskās valodas tehnoloģija atdzīvina pagātnes un tagadnes balsis

Satura rādītājs:

Anonim

Mūsdienās lielākajā daļā datoru balsu ir kļūdaini. Jūs, iespējams, pārāk nedomājat par kiborgiem un robotiem, kad tālrunī dzirdat "droid", kas palīdz veikt rēķina apmaksu vai pajautājat, kuru departamentu vēlaties. Bet ko tad, ja pēkšņi dzirdētu, kā Kurts Kobains pamudina jūs uz kartes informāciju? Vai Džons F. Kenedijs stāsta jums par agrīnās balsošanas brīnumiem? Vai arī Elvijs iegūst jūsu vārdu un adresi pirms ielaušanās “riecienā, degošas mīlestības riecienā?”


Tas viss būtu … mazliet dīvaini, bet vēl aizraujošāk ir tas, ka tehnoloģija būtībā jau ir šeit. Tikai pirms apmēram desmit gadiem mūs pārsteidza datora spēja vispār pat sarunāties. Tagad mēs gatavojamies stāvēt ar bezmaksas diapazonu, datoru ģenerētām balsīm, kas skan tāpat kā mums zināmie ļaudis.

Lielas izmaiņas NLP

Ja pievēršat uzmanību dabiskās valodas apstrādes (NLP) laukam, iespējams, esat dzirdējis par dažiem jaunākajiem sasniegumiem, kas pārsniedz konservētu virtuālo asistentu balsu veidus, ko tagad dzirdam mūsu globālās pozicionēšanas sistēmās (GPS) un automatizētajā biznesā tālruņa līnijas.


NLP sākums prasīja daudz pētījumu par cilvēka runas vispārīgo mehāniku. Pētniekiem un inženieriem vajadzēja identificēt atsevišķu fonētiku, salocīt tos lielākos frāžu un teikumu ģenerēšanas algoritmos un pēc tam visu mēģināt pārvaldīt meta līmenī, lai ģenerētu kaut ko īstu. Laika gaitā NLP vadītāji to apguva un sāka veidot uzlabotus algoritmus, lai saprastu cilvēku teikto. Apvienojot šos divus, uzņēmumi nāca klajā ar šodienas virtuālo palīgu un pilnībā digitālo rēķinu apmaksas ierēdņu vadītājiem, kuru manierēšana - kaut arī kaitinoša - joprojām ir pārsteidzoša, kad pārstājat domāt par darbu, kas viņos iegāja.


Tagad daži uzņēmumi pārsniedz vispārīgo virtuālo balsi, lai apkopotu specifiskāku personalizētu rezultātu. Tam nepieciešams iziet cauri konkrētas personas leksikonam un savākt lielu daudzumu unikālu balss video, pēc tam pielietot šo arhīvu sarežģītajiem fonētikas, uzsvara, kadences un visiem pārējiem sīkajiem niansēm, kuras valodnieki bieži sagrupē zem plašās “prosodijas” plakāta.


Iznāk balss, kuru klausītāji domā kā “piederīgu” konkrētai personai - vai nu kādam, kuru viņi pazīst un ar kuru ir runājuši, vai kādam, kura balsi viņi atpazīst personas slavas rezultātā.


Sākot no Elvisa līdz Martinam Luteram Kingam, ikviena balsi tagad var “klonēt” šādā veidā - ar nosacījumu, ka ir ievērojams iepriekš ierakstīts viņu runas ieraksts. Izmantojot vēl detalizētāku analīzi un manipulācijas ar atsevišķām mazām skaņām, uzņēmumi spēj izgatavot kāda cilvēka balss virtuālu oglekļa kopiju, kas daudz līdzinās reālai.

Aizraujoši “Teksts uz balsi” darbi vietnē VivoText

Piemēram, VivoText ir viens uzņēmums, kas strādā, lai radikāli pārveidotu mākslīgo cilvēku balsi visu veidu kampaņās, sākot ar audiogrāmatām un beidzot ar interaktīvo balss reakciju (IVR). Vietnē VivoText pētniecības un producentu grupas strādā pie procesiem, kas teorētiski varētu īpaši atkārtot mirušo slavenību, piemēram, paša Ol 'Blue Eyes, balsis.


"Lai klonētu Frenka Sinatras balsi, mēs faktiski iziesim cauri viņa ierakstītajam mantojumam, " saka "VivoText" izpilddirektors Geršons Silberts, runājot par to, kā šāda veida tehnoloģija varētu darboties.


Pašlaik VivoText strādā, lai arhivētu to cilvēku balsis, kuri joprojām ir pie mums, piemēram, NPR korespondents Neāls Konans, kurš ir parakstījies par paraugu šāda veida IT pionieru projektam. Reklāmas videoklipā redzams, ka VivoText darbinieki cītīgi veido fonētiskā koda moduļus, izmantojot Conan nodrošināto balss ievadi. Pēc tam viņi izveido modeļus teksta pārrunas (TTS) rīkiem, kas rada dramatiski cilvēcīgu un personificētu rezultātu.


Pēc VivoText stratēģijas un biznesa attīstības viceprezidenta Bena Feiblemana teiktā, dators darbojas fonēmas līmenī (izmantojot mazākās unikālās runas daļas), lai atbilstu prosodiskam modelim individuālai cilvēka balsij.


"Tas zina, kā balss runā, " saka Feiblemens, piebilstot, ka, izmantojot "vienības izvēli", dators izvēlas vairākus gabalus, lai saliktu vienu īsu vārdu, piemēram, kur vārdam "piektdiena" ir pieci komponenti, kas palīdz attīstīties īpašs uzsvars un tonālais rezultāts.

Mākslīgā balss mārketingā

Tātad, kā tas darbojas mārketingā? VivoText produkti varētu būt ārkārtīgi noderīgi, veidojot produktus, piemēram, audiogrāmatas, kuri varētu sasniegt mērķauditoriju. Piemēram, cik daudz efektīvāka būtu Elvisa balss, salīdzinot ar vienu no mūsdienu vispārīgajām, automātiskajām balsīm, ja tā tiktu izmantota ar izklaidi saistītu produktu pārdošanai?


Vai kā būtu politikā? Feibleman strādā pie dažādām idejām, kā izmantot šādus projektus, lai uzlabotu mārketingu uzņēmumiem vai citām pusēm, kurām nepieciešama efektīvāka ziņojumapmaiņa.


"Ja jūs zināt kādu politiķi, kurš kandidē uz prezidentu, tam varētu būt, ka 10 miljoni štata vēlētāju saņem personisku zvanu no kandidāta, pateicas viņiem par atbalstu, pasaka viņiem, kur viņiem jāiet balsot, laika apstākļi un visas atgriezeniskās saites. naktī pirms vēlēšanām, "sacīja Feiblemans.

Jūsu balss dzīvo

Visai šai tehnoloģijai ir vēl viens acīmredzams pielietojums. Dabiskās valodas uzņēmumi, piemēram, VivoText, varētu izveidot personisku pakalpojumu, kas visus klienta balss datus augšupielādētu produktā, kas šai personai ļautu “runāt mūžīgi”.


Praktiska ieviešana, iespējams, radītu vairākus jautājumus par to, kā dzirdam un internalizējam runas. Piemēram, kas nepieciešams, lai skaņas straume skanētu tieši tāpat kā kāds? Cik labi mums ir jāzina cilvēks, lai atpazītu noteiktu balsi? Un interesanti, kas notiek, ja dabiskās valodas pakalpojums rada neapstrādātu karikatūru, nevis pārliecinošu mīmiku?


Rezultātu novērtēšana, saka Feiblemens, bieži ir atkarīga no konteksta apsvēršanas. Piemēram, viņš saka, ka bērni, klausoties stāstu, parasti neuzdod jautājumus par to, kas runā. Viņi vienkārši vēlas vairāk. Bet arī daudzi pieaugušie var nedomāt par to, kas ar viņiem runā, ņemot vērā konkrētu scenāriju, piemēram, pasīvu apraidi vai tālruņa ziņojumu. Turklāt datoru ir vieglāk apmānīt pa tālruni, jo slāpētā skaņa var maskēt kļūmes vai citas neatbilstības starp datora rezultātiem un cilvēka balsi.


"Jums nerodas jautājums par balss autentiskumu, " saka Feiblemans.

2525. gadā

Tā kā uzņēmumi virzās uz priekšu izstrādājot produktus un pakalpojumus un atbildot uz šiem jautājumiem, "dzīvas runas" tehnoloģijas varētu mūs virzīt uz tehnoloģiju un cilvēka prāta konverģenci, ko klasiski sauc par mākslīgo intelektu (AI).


Ja datori var runāt tāpat kā mēs, viņi, iespējams, var pievilināt citus lietotājus domāt, ka viņi domā tāpat kā mēs, iedziļinoties lielākajā singularitātes principā, kā mūsu leksikā iesūtījis Džons fon Neimans, 1950. gadu tehnoloģiju pionieris, kuru evaņģelizējuši rakstnieki. un domātāji, piemēram, Ray Kurzweil. Kurzweil 2005. gada grāmata “Singularity ir tuvu” dažus satrauc un citus biedē. Kurzweil prognozēja, ka līdz 2045. gadam "intelekts" kā fenomens kļūs ļoti neatdalīts no cilvēka smadzenēm un migrēs uz tehnoloģiju, izpludinot līnijas starp mašīnām un viņu cilvēku meistariem.


Nemirstīga Zagera un Evansa dziesmas "In Year 2525" dziesmu tekstos (neviens nedara tik rāpojošas sci-fi balādes kā šie puiši) …


Gadā 4545

Jums nevajadzēs zobus, nevajadzēs

Tavas acis

Jūs neatradīsit košļāt lietu

Neviens neskatīsies uz tevi


Gadā 5555

Jūsu rokas pieklīst pie sāniem

Jūsu kājas neko nedarīja

Kāda mašīna to dara jūsu labā


Vai datoru balsis ir solis šajā virzienā? Tā kā jauns veids, kā izmantot ārpakalpojumus dažām cilvēka ķermeņa funkcijām (vai, biežāk, simulēt tās), šāda veida tehnikas attīstība ir viens no lielākajiem - un, iespējams, par maz ziņots - sasniegumiem horizontā, aplūkojot atsevišķu nākotni. . (par "savdabību", vai datori spēs atdarināt cilvēka prātu?)

Es dzirdu mirušus cilvēkus? dabiskās valodas tehnoloģija atdzīvina pagātnes un tagadnes balsis