Aplikazio kopurua eta ahots-interfazeen garrantzia azkar hazten ari da

Edukia

lau handiak
Amerikarrek erosi nahi dute
Garbitu, labean, garbitu!
Kontzeptu zaharra. Iritsi al da azkenean bere garaia?
teknikoki zaila den galdera
Ahotsa? Arte grafikoak? Edo agian biak?
Kontuz segurtasunarekin!

Portland-en (Oregon) estatubatuar familia batek duela gutxi jakin zuen Alexen ahots-laguntzaileak bere txat pribatuak grabatu eta lagun bati bidali zizkiola. Hedabideek Danielle bikoiztutako etxearen jabeak kazetariei esan die ez duela "inoiz gehiago gailu hau konektatuko, ezin baita fidatu".

Alexa, Echo (1) bozgorailuek eta AEBetako hamarnaka milioi etxetan dauden beste tramankuluek eskaintzen dutena, erabiltzaileak bere izena edo "dei-hitza" entzutean hasten da grabatzen. Horrek esan nahi du telebistako iragarki batean "Alexa" hitza aipatzen bada ere, baliteke gailua grabatzen hastea. Horixe da kasu honetan gertatu dena, dio Amazon hardware banatzaileak.

"Gainerako elkarrizketa ahots laguntzaileak mezu bat bidaltzeko komando gisa interpretatu zuen", esan zuen konpainiak ohar batean. "Noizbait, Alexak ozen galdetu zuen: "Nori?" Egurrezko zoruari buruzko familiaren elkarrizketaren jarraipena makinak bezeroaren kontaktuen zerrendako elementu gisa hauteman behar zuen. Hori da behintzat Amazonek uste duena. Horrela, itzulpena istripu sorta batera murrizten da.

Antsietatea, ordea, geratzen da. Zerbaitegatik, oraindik gustura sentitzen ginen etxe batean, nolabaiteko “ahots moduan” sartu behar dugulako, ikusi zer esaten dugun, zer igortzen duen telebistak eta, noski, zer bularrean dagoen bozgorailu berri honek. dio tiraderak. gu.

Hala ere, Teknologia akatsak eta pribatutasun kezkak izan arren, Amazon Echo bezalako gailuen ospearen gorakadarekin, jendea bere ahotsa erabiliz ordenagailuekin elkarreragiteko ideiara ohitzen hasi da..

Werner Vogels, Amazoneko CTO, 2017 amaieran AWS re:Invent saioan adierazi zuenez, teknologiak orain arte mugatu du gure ordenagailuekin elkarreragiteko gaitasuna. Google-n teklatua erabiliz idazten ditugu gako-hitzak, oraindik hori baita makinan informazioa sartzeko modurik ohikoena eta errazena.

esan zuen Vogelsek. -

lau handiak

Telefonoan Google bilatzailea erabiltzean, ziurrenik, hitz egiteko dei batekin mikrofono seinale bat nabaritu dugu aspaldi. Hau Google orain (2), bilaketa-kontsulta bat agindu, mezu bat ahots bidez sartzeko, etab erabil daitekeena. Azken urteotan, Google, Apple eta Amazon asko hobetu dira. ahotsa ezagutzeko teknologia. Alexa, Siri eta Google Assistant bezalako ahots-laguntzaileek zure ahotsa grabatzeaz gain, esaten diezuna ulertzen dute eta galderei erantzuten diete.

Google Now doan dago erabilgarri Android erabiltzaile guztientzat. Aplikazioak, adibidez, alarma ezarri dezake, eguraldi iragarpena egiaztatu eta ibilbidea Google maps-en egiazta dezake. Google Now-en elkarrizketa-luzapena Google Laguntzailea () – ekipamenduaren erabiltzaileari laguntza birtuala. Batez ere etxeko gailu mugikor eta adimendunetan dago eskuragarri. Google Now ez bezala, bi norabideko truke batean parte har dezake. Laguntzailea 2016ko maiatzean estreinatu zen Google mezularitza aplikazioaren parte gisa, Allo, baita Google Home ahots bozgorailuan ere (3).

3. Google Home

IOS sistemak bere laguntzaile birtuala ere badu, Siri, hau da, Appleren iOS, watchOS, tvOS homepod eta macOS sistema eragileekin barne hartzen duen programa. Siri iOS 5 eta iPhone 4s-ekin debutatu zuen 2011ko urrian Let's Talk iPhone konferentzian.

Softwarea elkarrizketa-interfaze batean oinarritzen da: erabiltzailearen hizkera naturala antzematen du (iOS 11rekin komandoak eskuz ere sar daitezke), galderei erantzuten die eta zereginak burutzen ditu. Ikaskuntza automatikoaren sarrerari esker, denboran zehar laguntzaile bat lehentasun pertsonalak aztertzen ditu erabiltzaileari emaitza eta gomendio esanguratsuagoak emateko. Sirik Interneteko konexio etengabea behar du - hemen informazio iturri nagusiak Bing eta Wolfram Alpha dira. iOS 10ek hirugarrenen luzapenetarako laguntza sartu zuen.

Lau handietako beste bat Cortana. Microsoft-ek sortutako laguntzaile pertsonal adimenduna da. Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android eta iOS plataformetan onartzen da. Cortana Microsoft Build Developer Conference-n aurkeztu zen lehen aldiz, 2014ko apirilean, San Frantziskon. Programaren izena Halo joko serieko pertsonaia baten izenetik dator. Cortana ingelesez, italieraz, gaztelaniaz, frantsesez, alemanez, txineraz eta japonieraz dago eskuragarri.

Lehen aipatutako programaren erabiltzaileak Alexa hizkuntza-murrizketak ere kontuan hartu behar dituzte - laguntzaile digitalak ingelesez, alemanez, frantsesez eta japonieraz bakarrik hitz egiten du.

Amazon Virtual Assistant Amazon Lab126-k garatutako Amazon Echo eta Amazon Echo Dot bozgorailu adimendunetan erabili zen lehen aldiz. Ahots-interakzioa, musika erreproduzitzea, egiteko-zerrenda sortzea, alarma ezarpena, podcast-a erreproduzitzea, audio-liburuak erreproduzitzea eta denbora errealeko eguraldia, trafikoa, kirolak eta albisteak bezalako beste informazio batzuk (4). Alexa-k hainbat gailu adimendun kontrola ditzake domotika sistema bat sortzeko. Amazon dendan erosketa erosoak egiteko ere erabil daiteke.

4. Erabiltzaileek zertarako erabiltzen dute Echo (Ikerketen arabera)

Erabiltzaileek Alexa esperientzia hobetu dezakete Alexa "trebetasunak" () instalatuta, hirugarrenek garatutako eginbide gehigarriak, normalean aplikazio gisa aipatzen direnak, hala nola eguraldia eta audio programak beste ezarpen batzuetan. Alexa gailu gehienek zure laguntzaile birtuala aktibatzeko aukera ematen dizute esnatzeko pasahitz batekin, izenekoa.

Amazonek behin betiko nagusitzen du bozgorailu adimendunen merkatuan (5). IBM, 2018ko martxoan zerbitzu berria aurkeztu zuena, lehen lauetan sartzen saiatzen ari da Watsonen laguntzailea, ahots kontrola duten laguntzaile birtualen sistema propioak sortu nahi dituzten enpresentzat diseinatua. Zein da IBM irtenbidearen abantaila? Enpresako ordezkarien arabera, lehenik eta behin, pertsonalizatzeko eta pribatutasuna babesteko askoz aukera handiagoak.

Lehenik eta behin, Watson Assistant ez da markakoa. Enpresek plataforma honetan soluzio propioak sor ditzakete eta marka propioarekin etiketatu.

Bigarrenik, beren laguntza-sistemak entrenatu ditzakete beren datu-multzo propioak erabiliz, eta IBMk dioenez, sistema horri ezaugarriak eta komandoak gehitzea errazten du beste VUI (ahots-erabiltzaile-interfazea) teknologiak baino.

Hirugarrenik, Watson Assistant-ek ez dio IBM-i erabiltzaileen jarduerei buruzko informaziorik ematen - plataformako soluzioen garatzaileek datu baliotsuak eurentzat bakarrik gorde ditzakete. Bien bitartean, gailuak eraikitzen dituen edonork, Alexa-rekin adibidez, jakin behar du bere datu baliotsuak Amazonen amaituko direla.

Watson Assistant-ek hainbat inplementazio ditu dagoeneko. Harman-ek erabili zuen sistema, adibidez, Maserati concept car-erako ahots-laguntzaile bat sortu zuen (6). Municheko aireportuan, IBMko laguntzaile batek Pepper robot bat gidatzen du bidaiariei mugitzen laguntzeko. Hirugarren adibidea Chameleon Technologies da, non ahots teknologia erabiltzen den etxeko neurgailu adimendun batean.

6. Watson Laguntzailea Maserati concept car-ean

Honen azpian dagoen teknologia ere ez dela berria gehitzea merezi du. Watson Assistant-ek lehendik dauden IBM produktuen, Watson Conversation eta Watson Virtual Agenten enkriptatze-gaitasunak ditu, baita hizkuntza-analisirako eta txateetarako APIak ere.

Amazon ahots adimendunen teknologian liderra ez ezik, negozio zuzen bihurtzen ari da. Hala ere, enpresa batzuek Echo integrazioa askoz lehenago esperimentatu dute. Sisense, BI eta analitika industriako konpainiak, Echo integrazioa aurkeztu zuen 2016ko uztailean. Bestalde, Roxy startup-ak ahots bidez kontrolatutako software eta hardware propioa sortzea erabaki zuen ostalaritzarako. Urte hasieran, Synqq-k oharrak hartzeko aplikazio bat aurkeztu zuen, ahotsa eta hizkuntza naturalaren prozesamendua erabiltzen dituen oharrak eta egutegiko sarrerak gehitzeko teklatuan idatzi beharrik gabe.

Enpresa txiki hauek guztiek asmo handiak dituzte. Batez ere, hala ere, jakin zuten erabiltzaile guztiek ez dituztela beren datuak Amazon, Google, Apple edo Microsoft-era transferitu nahi, hauek baitira ahots bidezko komunikazio plataformak eraikitzeko eragile garrantzitsuenak.

Amerikarrek erosi nahi dute

2016an, ahots bidezko bilaketak Google mugikorreko bilaketa guztien % 20 izan ziren. Teknologia hau egunero erabiltzen duten pertsonek bere erosotasuna eta multiataza aipatzen dituzte abantaila handienen artean. (adibidez, autoa gidatzen duzun bitartean bilatzailea erabiltzeko gaitasuna).

Visiongain-eko analistek 1,138 milioi dolarrekoa dela kalkulatzen dute laguntzaile digital adimendunen egungo merkatuko balioa.Gero eta gehiago daude horrelako mekanismoak. Gartnerren arabera, 2018 amaierarako jada Gure interakzioen %30 teknologiarekin ahots sistemekin elkarrizketen bidez izango da.

IHS Markit ikerketa-enpresa britainiarrak kalkulatzen du AI-ak bultzatutako laguntzaile digitalen merkatua 4 mila milioi gailutara iritsiko dela urte honen amaierarako, eta kopuru hori 2020 milioira igo daiteke 7rako.

eMarketer eta VoiceLabs-en txostenen arabera, 2017 milioi estatubatuarrek ahots-kontrola erabili zuten gutxienez hilean behin 35,6an. Horrek esan nahi du ia %130eko igoera aurreko urtearekiko. Laguntzaile digitalen merkatua soilik 2018an haziko dela espero da 23an. Horrek esan nahi du dagoeneko erabiliko dituzula. 60,5 milioi estatubatuar, euren ekoizleentzako diru konkretua ekarriko duena. RBC Capital Marketsek kalkulatzen du Alexa interfazeak 2020 mila milioi dolarreko diru-sarrerak sortuko dituela Amazonentzat 10rako.

Garbitu, labean, garbitu!

Ahots-interfazeak gero eta ausartago sartzen ari dira etxetresna elektrikoen eta kontsumo-elektronikaren merkatuetan. Dagoeneko iazko IFA 2017 erakusketan ikusi ahal izan zen hori.Neato Robotics konpainia estatubatuarrak, adibidez, etxe adimendunetako hainbat plataformetako batera konektatzen den robot-aspiragailu bat aurkeztu zuen, Amazon Echo sistema barne. Echo bozgorailu adimendunarekin hitz eginez, makinari zure etxe osoa garbitzeko agindu diezaiokezu eguneko edo gaueko ordu zehatzetan.

Ahotsarekin aktibatutako beste produktu batzuk erakutsi zituzten ikuskizunean, Turkiako Vestel konpainiak Toshiba markarekin saltzen dituen telebista adimendunetatik hasi eta Beurer konpainia alemaniarrak egindako manta berotuak. Gailu elektroniko horietako asko urrunetik ere aktibatu daitezke telefono adimendunak erabiliz.

Hala ere, Bosch-eko ordezkarien arabera, goiz da esateko etxeko laguntzaileen aukeretatik zein izango den nagusi. IFA 2017-n, Alemaniako talde tekniko batek Echo-ra konektatzen diren garbigailuak (7), labeak eta kafe-makinak erakutsi zituen. Boschek bere gailuak Google eta Apple ahots plataformekin bateragarriak izatea nahi du etorkizunean.

7. Amazon Echo-ra konektatzen den Bosch garbigailua

Fujitsu, Sony eta Panasonic bezalako enpresak AI-n oinarritutako ahots-laguntzaile irtenbideak garatzen ari dira. Sharp teknologia hori gehitzen ari da merkatuan sartzen diren labeei eta robot txikiei. Nippon Telegraph & Telephone hardware eta jostailugileak kontratatzen ari da ahots bidez kontrolatutako adimen artifizialaren sistema egokitzeko.

Kontzeptu zaharra. Iritsi al da azkenean bere garaia?

Izan ere, Ahots Erabiltzaile Interfazearen (VUI) kontzeptuak hamarkada luzeak daramatza. Duela urte Star Trek edo 2001: A Space Odyssey ikusi zuenak ziurrenik espero zuen 2000. urte inguruan denok ordenagailuak gure ahotsarekin kontrolatuko genituela. Gainera, ez ziren zientzia-fikziozko idazleak soilik ikusi interfaze mota honen potentziala. 1986an, Nielseneko ikertzaileek 2000. urterako erabiltzaile-interfazeen aldaketarik handiena zein izango zen uste zuten informatikako profesionalei galdetu zieten. Gehienetan ahots-interfazeen garapena adierazi zuten.

Badaude konponbide hori itxaroteko arrazoiak. Hitzezko komunikazioa da, azken finean, jendeak pentsamenduak kontzienteki trukatzeko modurik naturalena, beraz, gizaki eta makina elkarrekintzarako erabiltzea orain arteko irtenbiderik onena dirudi.

Lehen VUIetako bat, izenekoa zapata-kutxa, 60ko hamarkadaren hasieran sortu zuen IBMk. Gaur egungo ahotsa ezagutzeko sistemen aitzindaria izan zen. Hala ere, VUI gailuen garapena konputazio-potentziaren mugek mugatuta zegoen. Giza hizkera denbora errealean analizatzeak eta interpretatzeak esfortzu handia eskatzen du, eta berrogeita hamar urte baino gehiago behar izan dira benetan posible izan den puntura iristeko.

Ahots-interfazea zuten gailuak 90eko hamarkadaren erdialdean ekoizpen masiboan agertzen hasi ziren, baina ez zuten ospea lortu. Ahots kontrola (markatzea) zuen lehen telefonoa izan zen Philips Spark1996an kaleratua. Hala ere, gailu berritzaile eta erabilerraz hau ez zegoen muga teknologikoetatik libre.

Ahots interfaze formaz hornitutako beste telefono batzuk (RIM, Samsung edo Motorola bezalako enpresek sortutakoak) aldizka merkaturatzen dira, erabiltzaileek ahots bidez markatzeko edo testu-mezuak bidaltzeko aukera emanez. Horiek guztiek, ordea, agindu zehatzak memorizatu eta behartu eta artifizial batean ahoskatzea eskatzen zuten, garai hartako gailuen gaitasunetara egokituta. Horrek akats ugari sortu zituen, eta horrek, aldi berean, erabiltzaileen atsekabea eragin zuen.

Hala ere, orain informatikaren aro berri batean sartzen ari gara, non ikaskuntza automatikoaren eta adimen artifizialaren aurrerapenek elkarrizketaren potentziala desblokeatzen duten teknologiarekin elkarreragiteko modu berri gisa (8). Ahots-interakzioa onartzen duten gailuen kopurua VUIren garapenean eragin handia izan duen faktore garrantzitsu bat bihurtu da. Gaur egun, munduko biztanleriaren ia 1/3ak baditu dagoeneko jokabide horietarako erabil daitezkeen telefono adimendunak. Badirudi erabiltzaile gehienak azkenik prest daudela ahots-interfazeak egokitzeko.

8. Ahots interfazearen garapenaren historia modernoa

Hala ere, ordenagailu batekin libreki hitz egin baino lehen, A Space Odyssey-ko heroiek egin bezala, hainbat arazo gainditu behar ditugu. Makinak oraindik ez dira oso onak hizkuntza ñabardurak maneiatzen. Gainera jende asko oraindik deseroso sentitzen da bilaketa-motor bati ahots-aginduak ematen.

Estatistikek erakusten dute ahots-laguntzaileak etxean edo lagun minen artean erabiltzen direla batez ere. Elkarrizketatuetako inork ez du onartu toki publikoetan ahots bidezko bilaketak erabiltzea. Hala ere, litekeena da blokeo hori desagertzea teknologia honen hedapenarekin.

teknikoki zaila den galdera

Sistemek (ASR) jasaten duten arazoa hizkeraren seinale batetik datu erabilgarriak ateratzea eta pertsona batentzat esanahi jakin bat duen hitz jakin batekin lotzea da. Sortzen diren soinuak desberdinak dira bakoitzean.

Hizketa-seinalearen aldakortasuna bere propietate naturala da, eta horri esker, adibidez, azentu edo intonazio bat ezagutzen dugu. Ahotsa ezagutzeko sistemaren elementu bakoitzak zeregin zehatz bat du. Prozesatutako seinalean eta bere parametroetan oinarrituta, eredu akustiko bat sortzen da, hizkuntza ereduarekin lotzen dena. Errekonozimendu-sistemak eredu-kopuru txiki edo handi batean oinarrituta funtziona dezake, eta horrek zehazten du lan egiten duen hiztegiaren tamaina. Izan daitezke hiztegi txikiak banakako hitzak edo aginduak ezagutzen dituzten sistemen kasuan, baita datu-base handiak hizkuntza-multzoaren baliokidea edukiz eta hizkuntza-eredua (gramatika) kontuan hartuta.

Lehenik eta behin, ahots-interfazeek dituzten arazoak hizkera ondo ulertu, zeinetan, adibidez, sekuentzia gramatikal osoak baztertzen diren askotan, akats linguistiko eta fonetikoak, akatsak, hutsuneak, hizkeraren akatsak, homonimoak, justifikatu gabeko errepikapenak... gertatzen dira ACP sistema hauek guztiek azkar eta fidagarritasunez funtzionatu behar dute. Horiek dira behintzat itxaropenak.

Zailtasun-iturria aintzatespen-sistemaren sarreran sartzen diren hizkera aitortua ez den seinale akustikoak ere badira, hau da. era guztietakoak interferentziak eta zarata. Kasurik errazenean, behar dituzu iragazi. Zeregin honek ohikoa eta erraza dirudi; azken finean, hainbat seinale iragazten dira eta elektronika ingeniari bakoitzak badaki zer egin egoera horretan. Hala ere, kontu handiz eta kontu handiz egin behar da hizketa-aitorpenaren emaitza gure itxaropenak beteko baditu.

Gaur egun erabiltzen den iragazketari esker, hizketa-seinalearekin batera, mikrofonoak jasotzen duen kanpoko zarata eta ahots-seinalearen beraren barne-propietateak kentzea ahalbidetzen da, zeinak zaildu egiten baitu hura ezagutzeko. Hala ere, arazo tekniko askoz konplexuagoa sortzen da aztertutako hizkeraren seinalearen interferentzia... beste hizkera-seinale bat denean, hau da, inguruan eztabaida ozenak, adibidez. Galdera hau literaturan deitzen den bezala ezagutzen da. Honek dagoeneko metodo konplexuak erabiltzea eskatzen du, deiturikoak. deskonboluzioa (argitzen) seinalea.

Hizketa-aitorpenaren arazoak ez dira hor amaitzen. Merezi du konturatzea hizkerak hainbat informazio mota daramala. Giza ahotsak sexua, adina, jabearen izaera desberdinak edo bere osasun egoera iradokitzen du. Ingeniaritza biomedikoko sail zabal bat dago hizkera-seinalean aurkitzen diren fenomeno akustiko bereizgarrietan oinarritutako hainbat gaixotasunen diagnostikoaz arduratzen dena.

Aplikazioak ere badaude, non hizketa-seinale baten analisi akustikoen helburu nagusia hiztuna identifikatzea edo bera dela esaten duena egiaztatzea den (ahotsa, gakoaren ordez, pasahitza edo PUK kodea). Hau garrantzitsua izan daiteke, batez ere eraikin adimendunen teknologietarako.

Ahotsa ezagutzeko sistema baten lehen osagaia da mikrofono. Dena den, mikrofonoak jasotzen duen seinaleak gutxi erabili ohi du. Ikerketek erakusten dute soinu-uhinaren forma eta ibilbidea asko aldatzen direla pertsonaren, hizketa-abiaduraren eta, neurri batean, solaskidearen aldartearen arabera; neurri txiki batean, ahozko aginduen edukia islatzen dute.

Beraz, seinalea behar bezala prozesatu behar da. Akustikak, fonetikak eta informatika modernoak elkarrekin tresna sorta oparoa eskaintzen dute, hizketa-seinale bat prozesatu, aztertu, ezagutu eta ulertzeko erabil daitekeen. Seinalearen espektro dinamikoa, deiturikoa espektrograma dinamikoak. Lortu nahiko errazak dira, eta espektrograma dinamiko baten moduan aurkezten den hizkera nahiko erraza da antzematen, irudiak ezagutzeko erabiltzen diren teknikak erabiliz.

Hizketaren elementu sinpleak (adibidez, komandoak) espektrograma osoen antzekotasun soilagatik antzeman daitezke. Adibidez, ahots bidez aktibatutako telefono mugikorren hiztegi batek hamarnaka edo ehunka hitz eta esaldi baino ez ditu, normalean aurrez pilatuta, erraz eta eraginkortasunez identifikatu ahal izateko. Hau nahikoa da kontrol-zeregin errazetarako, baina aplikazio orokorra asko mugatzen du. Eskemaren arabera eraikitako sistemek, oro har, ahotsak bereziki prestatuta dauden hiztun espezifikoak soilik onartzen dituzte. Beraz, sistema kontrolatzeko ahotsa erabili nahi duen norbait berririk badago, ziurrenik ez dute onartuko.

Eragiketa honen emaitzari deitzen zaio 2-W espektrograma, hau da, bi dimentsioko espektro bat. Bloke honetan arreta jartzea merezi duen beste jarduera bat dago - segmentazioa. Oro har, etengabeko hizketa-seinale bat bereizita ezagutu daitezkeen zatietan zatitzeaz ari gara. Diagnostiko indibidual horietatik bakarrik egiten da osotasunaren aitorpena. Prozedura hau beharrezkoa da, ez baita posible hizkera luze eta konplexua bat-batean identifikatzea. Bolumen osoak idatzita daude hizketa-seinale batean zein segmentu bereizteko, beraz, orain ez dugu erabakiko segmentu bereizgarriak fonemak (soinu baliokideak), silabak edo agian alofonoak izan behar diren.

Errekonozimendu automatikoaren prozesuak objektuen ezaugarri batzuei egiten die erreferentzia beti. Parametro ezberdinetako ehunka multzo probatu dira hizketa-seinalerako. Hizketa-seinalea izan da. aitortutako markoetan banatuta eta edukitzea hautatutako ezaugarriakhorren bidez, fotograma hauek aitorpen prozesuan aurkezten dira, egin dezakegu (fotograma bakoitzeko bereizita) sailkapen, hau da. markoari identifikatzaile bat esleitzea, etorkizunean irudikatuko duena.

Hurrengo etapa markoak hitz bereizietan biltzea - gehienetan deitutakoan oinarrituta. Markov eredu inplizituen eredua (HMM-). Gero hitzen muntaia dator esaldiak osatu.

Orain Alexa sistemara itzuli gaitezke une batez. Bere adibideak pertsona baten makinaren "ulermen"-etapa anitzeko prozesu bat erakusten du, zehatzago esanda: berak emandako agindu bat edo egindako galdera.

Hitzak ulertzea, esanahia ulertzea eta erabiltzailearen asmoa ulertzea gauza guztiz desberdinak dira.

Beraz, hurrengo urratsa NLP moduluaren lana da (), zeinaren zeregina erabiltzailearen asmoaren aitorpena, hau da. agindu/galderaren esanahia esandako testuinguruan. Asmoa identifikatzen bada, orduan trebetasun eta trebetasun deritzonak esleitzea, hau da, laguntzaile adimendunak onartzen duen eginbide espezifikoa. Eguraldiari buruzko galdera baten kasuan, eguraldiaren datu iturriak deitzen dira, eta hori hizketan prozesatu behar da (TTS - mekanismoa). Ondorioz, erabiltzaileak egindako galderaren erantzuna entzuten du.

Ahotsa? Arte grafikoak? Edo agian biak?

Interakzio-sistema moderno ezagunenak izeneko bitartekari batean oinarritzen dira erabiltzailearen interfaze grafikoa (interfaze grafikoa). Zoritxarrez, GUI ez da produktu digital batekin elkarreragiteko modurik nabarmenena. Horrek eskatzen du erabiltzaileek lehenik interfazea nola erabiltzen ikastea eta informazio hori ondoko elkarrekintza bakoitzean gogoratzea. Egoera askotan, ahotsa askoz erosoagoa da, VUI-rekin elkarreragin dezakezulako gailuarekin hitz eginda. Erabiltzaileak zenbait komando edo interakzio-metodo memorizatzera eta memorizatzera behartzen ez dituen interfazeak arazo gutxiago eragiten ditu.

Jakina, VUI hedatzeak ez du esan nahi interfaze tradizionalagoak alde batera uztea; aitzitik, interfaze hibridoak egongo dira eskuragarri, elkarreragiteko hainbat modu konbinatzen dituztenak.

Ahots-interfazea ez da egokia testuinguru mugikorreko zeregin guztietarako. Horrekin, auto bat gidatzen duen lagun bati deituko diogu, eta SMS bat bidaliko diogu ere, baina azken transferentziak egiaztatzea zailegia izan daiteke, sistemara transmititzen den () eta sistemak (sistema) sortzen duen informazio kopurua dela eta. Rachel Hinman-ek Mobile Frontier liburuan iradokitzen duen moduan, VUI erabiltzea eraginkorrena bihurtzen da sarrera- eta irteera-informazio kopurua txikia den zereginak burutzean.

Internetera konektatutako telefono bat erosoa da, baina deserosoa ere bada (9). Erabiltzaile batek zerbait erosi edo zerbitzu berri bat erabili nahi duen bakoitzean, beste aplikazio bat deskargatu eta kontu berri bat sortu behar du. Hemen sortu da ahots-interfazeak erabiltzeko eta garatzeko eremu bat. Erabiltzaileak hainbat aplikazio instalatzera edo zerbitzu bakoitzerako kontu bereiziak sortzera behartu beharrean, adituek diote VUI-k zeregin astun hauen zama AI bidezko ahots-laguntzaile batera eramango duela. Erosoa izango da jarduera gogorrak egitea. Aginduak bakarrik emango dizkiogu.

9. Ahots interfazea telefono adimendunaren bidez

Gaur egun, telefono bat eta ordenagailu bat baino gehiago daude Internetera konektatuta. Termostato adimendunak, argiak, bolak eta IoT-n integratutako beste gailu asko ere sarera konektatuta daude (10). Horrela, gure inguruan haririk gabeko gailuak daude gure bizitza betetzen dutenak, baina guztiak ez dira modu naturalean sartzen erabiltzailearen interfaze grafikoan. VUI erabiltzeak gure ingurunean erraz integratzen lagunduko dizu.

10. Ahots interfazea Gauzen Internetarekin

Ahotsaren erabiltzaile-interfazea sortzea laster diseinatzaile-gaitasun nagusi bihurtuko da. Benetako arazoa da hau - ahots-sistemak ezartzeko beharrak diseinu proaktiboan gehiago zentratzera bultzatuko zaitu, hau da, erabiltzailearen hasierako asmoak ulertzen saiatzean, elkarrizketaren fase guztietan bere behar eta itxaropenak aurreikusten.

Ahotsa datuak sartzeko modu eraginkorra da; erabiltzaileek sistemari komandoak azkar igor diezazkiokete beren baldintzetan. Bestalde, pantailak informazioa bistaratzeko modu eraginkorra eskaintzen du: sistemak informazio kopuru handia bistaratzeko aukera ematen du aldi berean, erabiltzaileen memoriaren zama murriztuz. Logikoa da sistema bakarrean konbinatzeak pozgarria dela.

Amazon Echo eta Google Home bezalako bozgorailu adimendunek ez dute pantaila bisualik eskaintzen. Distantzia ertaineko ahots-ezagutzaren zehaztasuna nabarmen hobetuz, esku libreko funtzionamendua ahalbidetzen dute, eta horrek malgutasuna eta eraginkortasuna areagotzen ditu - desiragarriak dira dagoeneko ahots-kontrola duten telefonoak dituzten erabiltzaileentzat ere. Hala ere, pantailarik ez egotea muga handia da.

Soinuak soilik erabil daitezke erabiltzaileei komando posibleen berri emateko, eta irteera ozen irakurtzea neketsua bihurtzen da zeregin oinarrizkoenetan izan ezik. Sukaldatzen ari zaren bitartean tenporizadorea ezartzea ahots-komando batekin oso ona da, baina zenbat denbora falta den galdetzea ez da beharrezkoa. Eguraldi iragarpen erregularra lortzea erabiltzailearen memoriaren proba bihurtzen da, eta aste osoan hainbat gertakari entzun eta xurgatu behar ditu, pantailatik begirada batean jaso beharrean.

Diseinatzaileek dagoeneko egin dute soluzio hibridoa, Echo Show (11), oinarrizko Echo bozgorailu adimendunari bistaratzeko pantaila bat gehitu diona. Horrek ekipamenduaren funtzionaltasuna asko zabaltzen du. Dena den, Echo Show-ek oraindik askoz ere gutxiago da telefonoetan eta tabletetan aspaldidanik eskuragarri egon diren oinarrizko funtzioak betetzeko. Ezin du (oraindik) sarean nabigatu, iritziak erakutsi edo Amazon erosketa-orga baten edukia erakutsi, adibidez.

Ikusizko pantaila, berez, modu eraginkorragoa da jendeari soinua baino informazio ugari emateko. Ahotsaren lehentasunarekin diseinatzeak ahotsaren interakzioa asko hobetu dezake, baina epe luzera, interakziorako ikusizko menua nahi gabe ez erabiltzea esku bat bizkarrean lotuta borrokatzea bezalakoa izango da. Ahots eta pantaila-interfaze adimentsuen amaierako konplexutasuna dela eta, garatzaileek serio aztertu beharko lukete interfazeen ikuspegi hibrido bat.

Hizketa sortzeko eta ezagutzeko sistemen eraginkortasuna eta abiadura areagotzeak aplikazio eta arlo hauetan erabiltzeko aukera eman du, adibidez:

• militarrak (ahots-aginduak hegazkinetan edo helikopteroetan, adibidez, F16 VISTA),

• Testu transkripzio automatikoa (hizketa testura),

• informazio sistema interaktiboak (Prime Speech, ahots-atariak),

• gailu mugikorrak (telefonoak, telefonoak, tabletak),

• robotika (Cleverbot - ASR sistemak adimen artifizialarekin konbinatuta),

• automobilgintza (autoen osagaien esku libreko kontrola, hala nola Blue & Me),

• etxeko aplikazioak (smart home system).

Kontuz segurtasunarekin!

Automobilgintza, etxetresna elektrikoak, berokuntza/hozte eta etxeko segurtasun sistemak eta etxetresna elektriko ugari ahots-interfazeak erabiltzen hasi dira, askotan AI-n oinarrituta. Fase honetan, makinekin milioika elkarrizketetatik lortutako datuak bidaltzen dira informatika-hodeiak. Argi dago merkaturatzaileei interesatzen zaiela. Eta ez haiek bakarrik.

Symantec-en segurtasun adituen azken txosten batek gomendatzen du ahots-komandoen erabiltzaileek ez ditzatela kontrolatzeko segurtasun-eginbideak, esate baterako, ateen sarrailak, eta are gutxiago etxeko segurtasun-sistemak. Gauza bera gertatzen da pasahitzak edo isilpeko informazioa gordetzearekin. Adimen artifizialaren eta produktu adimendunen segurtasuna ez da oraindik behar adina aztertu.

Etxeko gailuek hitz guztiak entzuten dituztenean, sistema hackeatzeko eta gaizki erabiltzeko arriskua kezka handia bihurtzen da. Erasotzaile batek sare lokalera edo hari lotutako helbide elektronikoetara sarbidea lortzen badu, gailu adimendunaren ezarpenak alda daitezke edo fabrikako ezarpenetara berrezarri daitezke, eta horrek informazio baliotsua galtzea eta erabiltzailearen historia ezabatzea ekarriko du.

Beste era batera esanda, segurtasuneko profesionalek beldur dira ahots bidezko AI eta VUI ez ote diren oraindik nahikoa adimentsuak balizko mehatxuetatik babesteko eta ezezagun batek zerbait eskatzen duenean ahoa itxita edukitzeko.