Síntesis de fala

De Wikipedia
Saltar a: navegación, buscar
Stephen Hawking ye una de les persones más famoses n'emplegar un sintetizador de voz pa comunicase

La síntesis de fala ye la producción artificial del fala. El sistema computarizado que ye usáu con esti propósitu ye llamáu ordenador de fala o sintetizador de voz y puede ser implementáu en productos software o hardware. Un sistema text-to-speech (TTS) convierte'l llinguaxe de testu normal en fala; otros sistemes recreen la representación simbólica llingüística como trescripciones fonétiques en fala.[1]

La fala sintetizada pue ser creada al traviés de la concatenación de fragmentos de fala grabaos que son almacenaos nuna base de datos. Los sistemes difieren nel tamañu de les unidaes de fala almacenaes; un sistema qu'almacena fonos y difonos dexa un mayor rangu de sonido pero escarez de claridá. Pa usos específicos, el tamañu del almacenamientu de palabres completes o oraciones dexa una mayor calidá d'audiu. De manera alternativa, un sintetizador puede incorporar un modelu de tracto vocal o otres característiques de la voz humana pa recrear dafechu una voz "sintética".[2]

La calidá d'un sintetizador de voz xulgar pola semeyanza que tenga cola voz humana y la so habilidá pa ser entendíu con claridá. Un programa de conversión de testu en fala intelixible dexa que les persones con discapacidáes visuales o dificultaes pa lleer puedan escuchar testos nun ordenador. Munchos sistemes operativos tienen sintetizadores de voz integraos dende principios de los noventa.

Diagrama d'un sistema TTS típicu

Un sistema o "motor" de testu a fala (TTS) ta compuestu de dos partes:[3] un front-end y back-end. El front-end tien dos tarea principales. Primero, convertir el testu con calteres, númberos, símbolos y abreviaciones nel so equivalente en palabres escrites. Esti procesu ye llamáu como "normalización del testu", "pre-procesamientu" o "tokenización", darréu'l front-end asigna una trescripción fonética a cada palabra, marca y estrema el testu en unidad prosódiques, como frases, clauses y oraciones. El procesu d'asignar trescripciones fonétiques a les palabres ye llamáu conversión "testu a fonema" o "grafema a fonema". La información de trescripciones fonétiques o prosódiques preparen la información de la representación simbólica llingüística que ye la resultancia del front-end. El back-end, comúnmente referíu como'l "sintetizador", convierte la representación simbólica llingüística en soníu. En dellos sistemes, esta parte inclúi'l cómputu de "intención prosódica" (tonu del perfil, duración de los fonemes),[4] el cual ye implementáu na voz de salida.

Hestoria[editar | editar la fonte]

Primero que el procesamiento de señal electrónicu fuera inventáu, hubo quien intentaron construyir máquines p'asonsañar la fala humana. Dalgunes de les primeres lleendes de la esistencia de los "Brazen Heads" arreyaron a Montés II (d. 1003 AD), Alberto Magno (1198–1280) y Roger Bacon (1214–1294).

En 1779 el científicu danés Christian Kratzenstein, mientres trabayaba en Academia de Ciencies de Rusia, construyó modelos del tracto vocal humanu que podíen reproducir los soníos de los cinco vocales (en notación el de Alfabetu Fonéticu Internacional pal inglés, son [aː], [yː], [iː], [oː] y [oː]).[5] Esto foi siguíu pola "Wolfgang von Kempelen's Speaking Machine" operada por fuelles fecha por Wolfgang von Kempelen de Bratislava, Hungría, descrita nun testu en 1791.[6] Esta máquina integró modelos de llabios y llingua, dexando producir consonantes, según vocales. En 1837 Charres Wheatstone produció un "máquina parlante" basada nel diseñu de Von Kempelen, y en 1857, M. Faber construyó la máquina "Euphonia". El diseñu de Wheatstone foi emplegáu por Paget en 1923.[7]

Na década de los trenta, los llaboratorios Bell desenvolvieron el vocoder, que automáticamente analizaba la fala al traviés de la so nota fundamental y resonancies. Del so trabayu col vocoder, Homer Dudley desenvolvió un sintetizador operáu por un tecláu llamáu The Voder, que foi esibíu na New York World's Fair de 1939.[8]

El "Pattern playback" foi construyíu pol Dr. Franklin S. Cooper y los sos colegues nos llaboratorios Haskins a finales de los cuarenta y rematáu nos cincuenta. Hubo delles versiones d'esti dispositivu de hardware, pero solo una esiste. La máquina convierte les imaxes de patrones acústicos en fala de la manera en forma d'una espectrograma a soníu. Usando esti dispositivu, Alvin Liberman y los sos colegues llograron afayar indicadores acústicos pa la percepción de segmentos fonéticus (vocales y consonantes).[9]

Los sistemes dominantes nos ochentas y noventas yeren el sistema DECtalk, basáu nel trabayu de Dennis Klatt en MIT,[10] y el sistema de los llaboratorios Bell;[11] que dempués se convertiría nun de los primeros sistemes multi-llinguaxes independientes, faciendo un usu estensivu de los métodos de procesamientu de llinguaxes naturales.

Los primeres sintetizadores de fala teníen un soníu robóticu y teníen poca inteligibilidad. La calidá de la fala sintetizada foi ameyorada, pero l'audiu de salida de la síntesis de fala contemporanea entá ye estremable de la fala humana.

Por cuenta de la proporción de costo-rendimientu, los sintetizadores de fala convirtiéronse cada vez más baratos y accesibles pa les persones, más xente va ser beneficiada pol usu de programes texto-fala.[12]

Dispositivos electrónicos[editar | editar la fonte]

L'ordenador y el sintetizador de voz usáu por Stephen Hawking en 1999

Los primeros sistemes d'ordenador basaos na síntesis de voz fueron creaos nos cincuenta. El primer sistema xeneral d'inglés de testu-fala foi desenvueltu por Noriko Umeda et al. en 1968 en Llaboratoriu Electrotecnico en Xapón.[13] En 1961, el físicu John Larry Kelly, Jr y el so colega Louis Gerstman[14] usaron un ordenador IBM 704 pa sintetizar la voz, un eventu importante na hestoria de los llaboratorios Bell. El sintetizador de voz de Kelly (vocoder) reprodució'l cantar "Daisy Bell" col acompañamientu musical de Max Mathews. De casualidá, Arthur C. Clarke taba visitando al so amigu y colega John Pierce nos llaboratorios Bell en Murray Hill. Clarke taba tan impresionáu pola demostración que la usó na escena clímax pa la so novela 2001: A Space Odyssey,[15] onde l'ordenador HAL 9000 canta'l mesmu cantar cuando pon a dormir al astronauta David Bowman.[16] Pese al ésitu de la síntesis de voz electrónica pura, entá se continua investigando sobre los sintetizadores de voz mecánicos.[17]

Dispositivos móviles electrónicos incluyendo síntesis de voz empezaron a apaecer nos setentas. Unos de los primeres foi la calculadora pa ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976.[18][19] Otros dispositivos fueron producíos con fines educativos como'l "Speak & Spell", creáu por Texas Instruments en 1978.[20] Fidelity llanzó una versión parlante del so axedrez electrónicu en 1979.[21] El primer videoxuegu n'incluyir la síntesis de voz foi'l arcade shoot 'em up, Stratovox, de Sunsoft.[22] Otru de los primeros exemplos ye la versión arcade de Berzerk del mesmu añu. El primera xuegu electrónicu multijugador n'usar la síntesis de voz foi "Milton" de Milton Bradley Company, [23] la cual produció'l dispositivu en 1980.

Tecnoloxíes del sintetizador[editar | editar la fonte]

Les cualidaes más importantes de los sistemes de síntesis de voz son la "naturalidá" y la "inteligibilidad". La naturalidá describe qué tan cerca l'audiu de salida esta de la voz humana, ente que la inteligibilidad ye'l grau d'entendimientu que tien l'audiu. El sintetizador de voz ideal ye tantu natural como intelixible. Los sistemes de síntesis de voz usualmente traten de maximizar estes característiques.[24]

Los dos tecnoloxíes primaries que xeneren formes d'ondes sintétiques de voz son la "síntesis concatenativa" y la "síntesis de formates". Cada tecnoloxía tien les sos fortaleces y debilidaes, dependiendo del so usu podrá determinase qu'acercamientu va ser usáu.[25]

Síntesis concatenativa[editar | editar la fonte]

La síntesis concatenativa ta basada na concatenación (o unión) de segmentos d'una voz grabada. Xeneralmente, la síntesis concatenativa produz el soníu más natural d'una voz sintetizada. Sicasí, les diferencies ente les variaciones naturales na fala y la naturaleza de les técniques automatizadas pa segmentación de formes d'onda delles vegaes resulta en glitches oyibles nel audiu de salida. Esisten trés sub-tipos de síntesis concatenaitva.

Síntesis de selección d'unidaes[editar | editar la fonte]

La síntesis de selección d'unidaes emplega bases de datos de voces grabaes. Mientres la creación de la base de datos, cada enunciáu grabáu ye sementado en: fonos, difonos, medios fonos, sílabas, morfemas, palabras, frases y oraciones. De normal la división en segmentos ye fecha con ayuda d'un sistema de reconocencia de la fala modificáu, usando representaciones visuales como la forma d'onda y un espectrograma.[26] Un índiz de les unidaes de voz na base de datos ye creáu basáu na segmentación y en parámetros acústicos como la frecuencia fundamental (tonu), duración, posición de la sílaba y fonemes cercanos. Mientres el tiempu d'execución, l'enunciáu deseyáu ye creáu determinando la mayor cadena posible d'unidaes (selección d'unidaes). Esti procesu ye lleváu a cabu usando un árbol de decisión.

La selección d'unidaes dexa una naturalidá mayor por cuenta de qu'emplega un menor procesamientu dixital de señales (DSP) na fala grabada. El procesamientu dixital de señales usualmente causa que'l soníu de la voz nun sía tan natural, anque dellos sistemes empleguen una pequena cantidá de procesamientu de la señal nel puntu de la concatenación p'afaer la forma d'onda. L'audiu de salida de la meyor selección d'unidaes usualmente ye indistinguible de les voces humanes reales, especialmente en contestos con sistemes TTS. Sicasí, un mayor naturalidá rique de bases de datos de selección d'unidaes bien grandes, en dellos sistemes aportando a de gigabytes de datos grabaos, representando docenes d'hores de voz.[27] Tamién los algoritmos de selección d'unidaes son conocíos por escoyer segmentos d'un llugar menos ideal (ej. les palabres pequenes nun son clares) entá cuando una meyor opción esiste na base de datos.[28] Apocayá, el investigadores han propuestos dellos métodos automatizados pa detectar segmentos non naturales nos sistemes de síntesis de selección d'unidaes.[29]

Síntesis de difonos[editar | editar la fonte]

La síntesis de difonos usa una base de datos de voz mínima que contien tolos difonos (transiciones ente soníos) qu'asoceden nel llinguaxe. El númberu de difonos depende de la fonotáctica del llinguaxe: por casu, nel idioma español esisten alredor de 800 difonos y nel alemán 2500. Na síntesis de difonos, solo un exemplu de cada difono ye almacenáu na base de datos de voces. Nel tiempu d'execución, la prosodia oxetivos d'una oración ye superpuesta nestes unidaes mínimes al traviés de técniques de procesamiento dixital de señal como la codificación predictiva llineal, PSOLA[30] o MBROLA[31] o técniques más recién como la codificación del tonu nel dominiu de la fonte emplegáu la tresformada de cosenu discreta.[32] La síntesis de difonos sufre de glitches soníos de la síntesis concatenativa y el soníu de naturaleza robótica de la síntesis de formantes y tien poques ventayes sobre cualesquier otru acercamientu más qu'el so tamañu. El so usu n'aplicaciones comerciales menguó, anque sigue siendo investigada debíu'l so númberu d'aplicaciones en software gratuitu.

Síntesis de dominiu específicu[editar | editar la fonte]

La síntesis de dominiu específicu concatena palabres y frases pre-grabaes pa crear enunciaos completos. Ye usada n'aplicaciones onde la variedá de los testos del sistemes esta llindada a una salida d'audiu nun dominiu particular, como los anuncios nun calendariu de tránsitu o reportes del clima.[33] La tecnolóxica ye bien simple d'implementar y foi emplegada de manera comercial per dellos años en dispositivos como calculadores o relóes parlantes. El nivel de naturalidá d'estos sistemes puede ser bien alto por cuenta de que la variedá los tipos d'oraciones esta llindada y llogren tar mui cerca de la prosodia y entonación de les grabaciones orixinales.

Por cuenta de que estos sistemes tán llindaos poles palabres y frases nes sos bases de datos, nun son emplegaos pa propósitos xenerales y solo pueden sintetizar combinaciones de palabres y frases a los que fueron programaos. L'adherencia de les palabres cola naturalidá del llinguaxe puede causar problemes, nun siendo que les variaciones sían tomada en cuenta. Por casu nos dialectos non róticos del inglés les palabres "r" como "clear" /ˈklɪə/ usualmente son pronunciaes cuando la siguiente palabra tien un vocal na so primer lletra (ej. "clear out" pronúnciase como /ˌklɪəɾˈʌʊt/). Como nel idioma francés, delles de les postreres consonantes nun son silencioses si son siguíes por una palabra qu'empiece con una vocal, l'efectu ye llamáu Liaison. Esta alternación nun puede ser reproducida por sistema simple de concatenación, que rique una complexa gramática sensible al contestu adicional.

Síntesis de formantes[editar | editar la fonte]

La síntesis de formates nun utiliza amueses de voz humana mientres el tiempu d'execución. Nel so llugar, l'audiu de salida ye creáu a partir de la síntesis aditiva y un modelu acústicu (síntesis por aciu modeláu físicu).[34] Parámetros como la frecuencia fundamental, fonación y niveles de ruiu son variaos al traviés del tiempu pa crear una forma d'onda d'una voz artificial. Esti metíu dalguna vegaes ye llamáu síntesis basa en riegles; sicasí, esisten sistemes de concatenación que tamién tienen componentes basaos en riegles.

Dellos sistemes basaos na tecnoloxía de síntesis de formantes xeneren una voz artificial con soníu robóticu que nun podría ser confundida cola voz humana. Sicasí, la naturalidá máxima nun ye l'oxetivu de los sistemes de síntesis de voz, los sistemes de síntesis de formantes tienen ventayes sobre otros sistemes de concatenación. La fala al traviés de la síntesis de formantes pue ser intelixible, inclusive a grandes velocidaes, evitando glitches acústicos comunes nos sistemes de concatenación. La fala sintetizada a grandes velocidaes ye usada por persones con dificultaes visuales pa salear de manera más fluyida n'ordenadores usando un llector de pantalla. Los sintetizadores de formantes son programes pequenos en comparanza a los sistemes de concatenación por cuenta de que nun tienen una base de datos d'amueses de voz. Pueden ser emplegaos en sistemes embedidos onde la memoria y el poder del microprocesador son llindaos. Por cuenta de que los sistemes basaos en formantes tienen completu control sobre tolos aspeutos del audiu de salida, una amplia variedá de prosodies y entonaciones pueden ser xeneraes, pa tresmitir non solo entrugues o declaraciones, sinón una variedá d'emociones y entonaciones na voz.

Dellos exemplos de síntesis de formantes, non en tiempu real pero con gran precisión nel control de la entonación, atopar en trabayos de finales de los setenta por Texas Instruments col xuguete "Speak & Spell" y a finales de los ochentas en arcades de la compañía SEGA[35] y otros xuegos de arcade de Atari[36] usando chips TMS5220 LPC de Texas Instrument. Crear la entonación apropiada yera difícil y les resultancies teníen que ser empataos en tiempu real cola interfaces texto-voz.[37]

Síntesis articulatoria[editar | editar la fonte]

La síntesis articulatoria referir a les técniques computacionales pa síntesis de la fala basaes nos modelos del tracto vocal humanu y los procesos d'articulación qu'asoceden. El primera sintetizador articulatoriu frecuentemente usáu n'esperimentos de llaboratoriu foi desenvueltu nos llaboratorios Haskins a mediaos de los setenta por Philip Rubin, Tom Baer y Paul Mermelstein. Esti sintetizador, conocíu como ASY, taba basáu en modelos del tracto vocal desenvueltu nos llaboratorios Bell nos sesentas y setentas por Paul Mermelstein, Cecil Coker y los sos colegues.

Apocayá, los modelos de síntesis articulatoria nun fueren incorporaos en sistemes de síntesis de voz comerciales. Una esceición notable ye'l sistema basáu en NeXT, originalmente desenvueltu y puestu a la vienta por Trillium Sound Research, una división de la compañía de la Universidá de Calgary, onde enforma de la investigación foi llevada a cabu. Siguiente a la desapaición de NeXT (empecipiada por Steve Jobs a finales de la década de los ochenta y fundiera con Apple Computer en 1997), el software Trillium foi publicáu baxu GNU Xeneral Public License, col so trabayu siguiendo como gnuspeech. El sistema, puestu a la vienta en 1994, dexa una conversión de testu-fala basada nuna completa articulación usando una guía d'ondes o una llínea de tresmisión análoga de la voz humana y conductos nasales controlaos pol "modelu distintivu de rexón" de Carré.

Síntesis basada en modelos HMM[editar | editar la fonte]

La síntesis basada en HMM ye un métodu de síntesis basáu en modelos ocultos de Márkov, tamién llamada síntesis estadística paramédica. Nesti sistema, el espectru de frecuencies (tracto vocal), la frecuencia fundamental (fonte de la voz) y la duración (prosodia) de la fala son modelaos de manera simultánea por HMM. Les formes d'onda de la fala son xenerada polos HMM basaos nun criteriu máxima verosimilitud.[38]

Síntesis d'ondes sinusoidales[editar | editar la fonte]

La síntesis d'ondes sinusoidales ye una técnica pa síntesis de voz al traviés del remplazo de formates (principales bandes d'enerxía) con tonos puros.[39]

Desafíos[editar | editar la fonte]

Desafíos de la normalización de testos[editar | editar la fonte]

El procesu de normalización de testos escasamente ye directu. Los testos tán llenos de heteronomías, númberus y abreviaciones que riquen d'una espansión nuna representación fonética. Hai munches palabres n'inglés que son pronunciaes de manera distinta basaes nel so contestu. Por casu, "My latest project is to learn how to better project my voice" n'inglés la palabra "project" contien dos pronunciaciones.

La mayoría de los sistemes de testu-fala (TTS) nun xeneren representaciones semántiques de los testos d'entrada, polo que los sos procesos pueden resultar erróneos, con poco entendimientu y computacionalmente inefectivos. Como resultáu delles técniques heurísticas son usaes pa predicir la manera apropiada de desambiguar homografías como esaminar les palabres cercanes usando estadístiques alrodiu de la frecuencia d'usu.

Apocayá los sistemes TTS empezaron a usar HMM pa xenerar "etiquetaos gramaticales" p'ayudar a desambiguar les homografíes. Esta técnica ye hasta ciertu puntu efectiva pa dellos casos sobre como "read" tien de ser pronunciáu como "rede" dando a entender una conxugación en pasáu. Les tases d'erros típicos usando HMM d'esta manera tán per debaxo del cinco per cientu. Estes técniques tamién funcionen pa la mayoría de los llinguaxes europeos, anque l'entrenamientu nel corpus llingüísticu ye frecuentemente difícil nestos llinguaxes.

Decidir como convertir númberos ye otru problema que los sistemes TTS enfrenten. Ye un desafíu simple de programación convertir un númberu a palabres (a lo menos nel idioma inglés), como "1325" convertir en "mil trescientos venticinco". Sicasí, los númberu asoceden en distintos contestos; "1325" puede lleese como "unu trés dos cinco", "trelce venticinco" o "unu trescientos venticinco". Un sistema TTS usualmente puede inferir como espandir un númberu basáu nes palabres cercanos, númberu y la puntuación, delles vegaes el sistema dexa una manera d'especificar el contestu si ye ambiguu.[40] Los númberos romanos pueden ser lleíos de distintes maneres dependiendo'l contestu.

De manera similar, les abreviaciones pueden resultar ambigues. Por casu, la abreviación "in" de "pulgues" puede ser estremada pola palabra "in" (en) o na dirección n'inglés "12 St John St." usa la mesma abreviación para "street" (cai) y "saint" (San). Los sistemes TTS con front ends intelixentes pueden realizar predicciones correctes alrodiu de l'ambigüedá de les abreviaciones, ente qu'otros ufierten la mesma resultancia en tolos casos, dando resultaos ensin sentíu (y dacuando risibles) como "co-operation" interpretáu como "company operation".

Desafíos de testu a fonemes[editar | editar la fonte]

Los sistemes de síntesis de voz empleguen dos acercamientos básicos pa determinar la pronunciación d'una palabra basaos na so escritura, un procesu'l cual ye comúnmente llamáu testu-fonema o conversión de grafema a fonema (fonema ye'l términu usáu na llingüística pa describir los soníos distintivos nel llinguaxe). L'acercamientu más simple de la conversión testu-fonema ye al traviés de diccionarios, onde un diccionariu ampliu que contien toles palabres d'un llinguaxe y la so correcta pronunciación almacenada pol programa. Determinar la correcta pronunciación de cada palabra ye cuestión de verificar cada palabra nel diccionariu y remplazarla pola pronunciación especificáu pol diccionariu. Otru acercamientu ye al traviés de les riegles, onde les riegles de pronunciación son aplicaes a les palabres pa determinar la correcta pronunciación basándose na so escritura.

Cada acercamientu tien les sos ventayes y desventaxes. L'acercamientu basáu nun diccionariu ye rápidu y precisu, pero falla dafechu cuando una palabra nun s'atopa n'este. De manera que el diccionariu crez, tamién lo fai'l tamañu memoria que rique la síntesis del sistema. Per otra parte, l'acercamientu basáu en riegles trabaya con cualquier tipu de testu d'entrada, pero la complexidá de les riegles crez de manera sustancial cuando'l sistema detecta pronunciaciones o escritures irregulares. (Considere la palabra n'inglés "of", que ye la única onde se pronuncia la "f"). Como resultancia, casi tolos sistemes de síntesis de voz usen una combinación d'estos acercamientos.

Llinguaxes con ortografía fonética tienen un sistema d'escritura regular y la predicción de la pronunciación de les palabres basada na so ortografía ye esitosa. Los sistemes de síntesis pa llinguaxes onde ye común l'usu del métodu de riegles de manera estensiva, recurriendo a diccionarios pa delles palabres, como nomes estranxeros y préstamos llingüísticos, que les sos traducciones nun son obvies a partir de la so escritura. Per otra parte, los sistemes de síntesis de voz pa llinguaxes como'l idioma inglés, que tien sistemes d'escritura desaxeradamente irregular, tienden a recurrir a diccionarios y usar métodos de riegles solo pa palabres inusuales o que nun tán nos sos diccionarios.

Evaluación de desafíos[editar | editar la fonte]

La consistente evaluación de los sistemes de síntesis de voz puede resultar difícil por cuenta de la falta d'aceptación un criteriu d'evaluación universal. Distintes organizaciones usen comúnmente distintos datos de voz. La calidá de los sistemes de síntesis de voz tamién depende del grau calidable na técnica de producción (que puede arreyar grabaciones dixitales o analóxiques) y la so facilidá pa reproducir la voz. La evaluación de los sistemes de síntesis de voz tuvo comprometida poles diferencies ente les técniques de producción y reproducción.

Dende 2005, sicasí, dellos investigadores empezaron hai evaluar la síntesis de voz usando una fueya de datos de voz de mancomún.[41]

Prosodia y conteníu emocional[editar | editar la fonte]

Ver tamién: Prosodia

Un estudiu na revista Speech Communication por Amy Drahota y los sos colegues na Universidá de Portsmouth en Reinu Uníu, reporta que les persones qu'escuchen les grabaciones de voz pueden determinar, en distintos niveles, si l'emisor taba sonriendo o non.[42][43][44] Suxurióse que la identificación de les característiques vocales qu'amuesen un conteníu emocional pueden ayudar a faer el soníu de la síntesis de voz más natural. Una de les cuestiones rellacionaes ye'l tonu de les oraciones, dependiendo de cuando ye afirmativu, interrogativu o una oración de exclamación. Una de les técniques pal cambéu de tonu[45] usa la tresformada de cosenu discreta nel dominiu de la fonte (borrafa de predicción llineal). Tales técniques pal cambéu sincronizáu de tonu riquen una señalización previa de los tonos na base de datos de la síntesis de voz usando técniques como la estracción de dómines usando un índiz de consonantes oclusives aplicáu a la predicción llineal integrada residual de les rexones de voz.[46]

Hardware dedicáu[editar | editar la fonte]

Primeres tecnoloxíes (non disponibles)

  • Icofono
  • Votrax
    • SC-01A **

SC-02 / SSI-263 / "Artic 263"

TMS5200

    • MSP50C6XX - Vendíu a Sensory, Inc. en 2001[47]

Actuales (en 2013)

  • Magnevation SpeakJet (www.speechchips.com) TTS256 Hobby and experimenter.
  • Epson S1V30120F01A100 (www.epson.com) IC DECTalk Based voice, Robotic, Inglés y español.
  • Textspeak TTS-EM (www.textspeak.com)

Mattel[editar | editar la fonte]

La consola de videoxuegos Intellivision de Mattel, que ye un ordenador qu'escarez de tecláu, dexaba un módulos de síntesis de voz llamáu Intellivoice en 1982. Incluyía'l chip de síntesis de voz SP0256 Narrator nun cartuchu. El Narrator tenía 2KB de Read-Only Memory (ROM) y yera utilizáu pa guardar una base de datos de palabres xenériques que podíen ser combinaes pa faer frases nos xuegos de Intellivision. Desque'l chip Orator puede aceptar datos d'una memoria esterna, cualquier palabra adicional o frase riquida pue ser almacenada dientro del cartuchu. Los datos consisten en cadenes de testu de coeficiente de filtros analóxicos pa modificar el comportamientu del modelu de tracto vocal del chip, en llugar d'amueses dixitales.

SAM[editar | editar la fonte]

Tamién llanzáu en 1982, Software Automatic Mouth foi'l primera software sintetizador de voz comercial. Darréu foi usáu pa la base del Macintalk. El programa nun s'atopaba disponible pa ordenadores Macintosh Apple (incluyendo Apple II y Llisa), sinón pa modelos de Atari y Commodore 64. La versión d'Apple riquía de hardware adicional pa la conversión dixital analóxicu, anque yera posible utilizar la salida d'audiu del ordenador (con distorsión) si la tarxeta nun taba presente. El Atari fixo usu d'un chip d'audiu POKEY. La reproducción de voz nel Atari de normal deshabitaba los pidimientos d'interrupción y apagaba el chip ANTIC mientres la salida d'audiu. La salida atopábase por demás aburuyada cuando la pantalla taba prendida. El Commodore 64 usaba'l chip d'audiu SID.

Atari[editar | editar la fonte]

El primer sistema de síntesis de voz integráu nun sistema operativu foi pa los ordenadores 1400XL/1450XL diseñáu por Atari usando'l chip Votrax SC01 en 1983. Los ordenadores 1400XL/1450XL usaben Finite State Machine para lleve a cabu la síntesis de voz n'inglés.[48] Sicasí, los ordenadores 1400XL/1450XL yeren rares.

Los ordenadores Atari ST yeren vendíes col "stspeech.tos" nun disquete.

Apple[editar | editar la fonte]

El primera sintetizador de voz integráu nun sistema operativu foi'l MacInTalk de Apple. El software taba llicenciáu por desarrolladores terceros como Joseph Katz y Mark Barton (darréu, SoftVoice, Inc.) y la primer versión foi presentada mientres la introducción de la computadora Macintosh en 1984. El demo presentáu en xineru, que emplegaba de síntesis de voz basada nel software SAM, riquía de 512KB de memoria RAM. Como resultancia, nun podía correr nuna memoria RAM de 128KB, presente nes primeres Mac.[49] El demo foi lleváu a cabu con un prototipu de 512KB, anque esto nun foi reveláu a l'audiencia lo que creo mayores mires pa la Macintosh. A principios de los noventa, Apple espandió les sos capacidaes ufiertando un sistema con un ampliu soporte pa la función testu-fala cola introducción d'ordenadores más rápidos basaes en PowerPC, incluyó una mayor calidá de la voz reproducida. Apple tamién introdució'l reconocencia de la fala nos sos sistemes los cualos dexaben un set de comandos fluyíos. Más apocayá, Apple incorporó amueses de voces. Empezando como un interés, el sistema de voz Macintosh d'Apple evolucionó a un programa completu, PlainTalk, pa persones con problemes rellacionaos cola vista. VoiceOver foi introducíu en Mac VOS X Tiger (10.4). Mientres 10.4 (Tiger) y los primeros llanzamientos de 10.5 (Leopard) solo esistía una voz nes Mac VOS X. Dende 10.6 (Snow Leopard), l'usuariu puede escoyer ente un ampliu rangu de múltiples voces. VoiceOver tien característiques como soníos d'inhalación ente oración, según claridá en velocidaes mayores en comparanza al PlainTalk. Mac VOS X tamién inclúi'l software "say", una aplicación de llínea de comandos que convierte'l testu en voz. Amestar estándar de AppleScript inclúin el software say que dexa qu'un script utilice les voces instalaes y controle el tonu, la velocidá y modulación del testu faláu.

El sistema operativu iOS d'Apple, usáu nel iPhone, iPad y iPod Touch usa la síntesis de voz de VoiceOver p'accesibilidá.[50] Delles aplicaciones tamién empleguen síntesis de voz pa facilitar el saléu, lleer página web o traducir testu.

AMIGÁIVOS[editar | editar la fonte]

El segundu sistema operativu n'incluyir una capacidaes avanzaes de síntesis de voz foi AMIGÁIVOS, introducíu en 1985. La síntesis de voz foi llicenciada por Commodore International dende SoftVoice, Inc., quien tamién desenvolvió'l sistema texto-voz MacinTalk. Incluyía un sistema completu de emulación de voz americana pal idioma inglés, con voces femenines y masculines y marcadores de "estrés", foi posible al traviés del chipset de Amiga.[51] El sistema de síntesis foi estremáu nun dispositivu de narración, que yera responsable de modular y concatenar fonemes, y una llibrería de traducción la cual traducción el testu n'inglés a fonemes al traviés d'un conxuntu de riegles. AMIGÁIVOS tamién incluyía procesador de fala d'altu nivel que dexaba a los usuariu reproducir testu al traviés de llínees de comandos. La síntesis de voz dacuando yera usada por programes de terceros, particularmente procesadores de testu y software educativu. El software de síntesis caltúvose intactu dende'l primer llanzamientu d'AMIGÁIVOS y Commodore eventualmente removería la síntesis de voz a partir d'AMIGÁIVOS 2.1.

Magar la llimitación de los fonemes d'inglés americanu, una versión non oficial con síntesis de voz de dellos idiomes foi desenvuelta. Esto faía usu d'una versión estendida de llibrar del traductor la cual podía traducir a un númberu de llinguaxes, a partir de les riegles de cada llinguaxe.[52]

Microsoft Windows[editar | editar la fonte]

Ver tamién: Microsoft Agent

Sistemes modernos d'escritoriu de Windows pueden implementar componentes SAPI 1-4 y SAPI 5 pa sofitar la síntesis de voz y el reconocencia de la fala. SAPI 4.0 tuvo disponible como una opción adicional para Windows 95 y Windows 98. Windows 2000 amestó'l Microsoft Narrator, una utilidá pa texto-voz pa les persones que tuvieren dalguna discapacidá visual. Programes de tercera como CoolSpeech, Textaloud y Ultra Hal pueden realizar delles xeres de texto-voz como lleer testu dende un sitiu web específicu, corréu electrónicu, documentu de testu, testu introducíu pol usuariu, etc. Non tolos programes pueden usar la síntesis de voz de manera directa.[53] Dellos programes pueden emplegar estensiones pa lleer testu.

Microsoft Speech Server ye un paquete de voces pa síntesis y reconocencia basada nun servidor. Ta diseñáu pal so usu en rede con aplicaciones web y centros de llamaes.

Text-to-Speech (TTS) referir a l'habilidá de los ordenadores pa lleer testu. Un Motor TTS convierte'l testu escritu nuna representación fonética, darréu convierte la representación n'ondes de soníu que pueden ser escuchaes. Motores TTS con distintos llinguaxes, dialectos y vocabularios especializaos tán disponibles al traviés de terceros.[54]

Android[editar | editar la fonte]

La versión 1.6 de Android amestó soporte pa los sintetizadores de voz (TTS).[55]

Internet[editar | editar la fonte]

Na actualidá, esisten un númberu de aplicaciones, plug-ins y gadgets que pueden lleer mensaxes directamente dende un veceru de corréu electrónicu y página web dende un navegador web o Google Toolbar como Text to Voice que ye un complementu de Firefox. Dellos software especializaos pueden narrar RSS. Per otra parte, el narradores RRS simplifiquen la información unviada dexando a los usuarios escuchar les sos fontes de noticies favorites y convertiles en podcasts. Esisten llectores RSS en casi cualesquier PC conectada a internet. Los usuarios pueden descargar arquivos d'audiu xeneraos a dispositivos portátiles, ej. cola ayuda d'un receptor de podcast y escuchalos mientres camines, cuerres, etc.

Un creciente campu nel internet basada en TTS son les tecnoloxíes de sofitu como 'Browsealoud' d'una compañía de Reinu Uníu y Readspeaker. Dexen la funcionalidad TTS a cualesquier (por cuestiones d'accesibilidá, convencía, entretenimientu o información) con accesu a un navegador d'internet. El proyectu Pediaphon foi creáu en 2006 pa permiter un saléu web similar a la basada en interface TTS en Wikipedia.[56]

Otros trabayos tán en desenvolvimientu nel contestu de W3C al traviés de W3C Audiu Incubator Group col sofitu de BBC y Google Inc.

Otros[editar | editar la fonte]

  • Siguíu del fracasu comercial del hardware Intellivoice, los desarrolladores de videoxuegos emplegaron el software de síntesis de voz con moderación pa futuros xuegos. Un famosu exemplu ye la narración introductoria del videoxuegu Super Metroid de Nintendo pal Super Nintendo Entertainment System. Otros de los primeros sistemes n'utilizar la síntesis de software en videoxuegos son Atari 5200 (Baseball) y Atari 2600 (Quadrun y Open Sesame).
  • Dalgunos llectores de y-books, como Amazon Kindle, Samsung Y6, PocketBook eReader Pro, enTourage eDGe y Bebook Neo.
  • El BBC Micro incorporó'l chip de síntesis de voz TMS5220 de Texas Instruments.
  • Dellos modelos de computadores Texas Instruments producíes en 1979 y 1981 (Texas Instruments TI-99/4 y TI-99/4A) yeren capaces de la síntesis de testu-fonema o recitar palabres completes y frases (testu-diccionariu), usando'l popular periféricu Speech Synthesizer. TI usó un codec propiu pa completar les frases xeneraes n'aplicaciones, principalmente xuegos.[57]
  • VOS/2 Warp 4 de IBM incluyía'l VoiceType, un precursor del IBM ViaVoice.
  • Sistemes qu'operen con software gratuitu y open source incluyendo Linux son variaos ya inclúin programes open-source como Festival Speech Synthesis System, que usa la síntesis basada en difonos (puede usar un númberu llindáu de voces MBROLA) y gnuspeech el cual emplega la síntesis articulatoria[58] de Free Software Foundation.
  • Les unidaes GPS producíes por Garmin, Magellan, TomTom y otros empleguen la síntesis de voz pal saléu d'automóviles.
  • Yamaha produjó un sintetizador en 1999, el Yamaha FS1R el cual incluyía capacidaes de síntesis de formantes. Secuencies hasta de 512 formantes de vocales individuales y consonantes podía ser almacenaes y reproducíes, dexando frases curties sintetizaes.

Llinguaxes de marcáu de síntesis de voz[editar | editar la fonte]

Un númberu de llinguaxes de marcáu fueron establecíos pa la interpretación de testu como voz nun formatu de compilación XML. El más recién ye'l Speech Synthesis Markup Language (SSML), que convirtióse nun encamientu W3C en 2004. Sistemes de llinguaxe de marcáu de síntesis de voz antiguos inclúin el Java Speech Markup Language (JSML) y SABLE. Anque cada unu d'estos foi propuestu como un estándar, nengunu d'ellos foi adoptáu llargamente.

Los llinguaxes de marcáu de síntesis de voz son estremaos de los llinguaxes de marcáu de diálogu. VoiceXML, por casu, inclúi tags rellacionaos al reconociendo de voz, manexu de diálogu y marcáu, amás de marcáu de síntesis de voz.

Aplicaciones[editar | editar la fonte]

La síntesis de voz foi una de les ferramientes vitales de tecnoloxíes de sofitu y la so aplicación nesta área ye significante y de gran usu. Dexa que les barreas ambientales sían removíes pa persones con distintes discapacidáes. L'aplicación con mayor usu fueron los llector de pantalla llectores de pantalla pa persones con discapacidáes visuales, pero los sistemes de texto-voz agora son comúnmente usaos por persones con dislexa y otres dificultaes pa la llectura, según pa los neños. Tamién son frecuentemente emplegaos p'ayudar a aquellos con discapacidáes comunicatives usualmente al traviés d'una voz d'ayuda.

Les técniques de síntesis de voz son usaes en productos d'entretenimientu como xuegos o animaciones. En 2007, Animo Limited anunció'l desenvolvimientu d'una aplicación de software basada na síntesis de voz de FineSpeech, explícitamente enfocada a consumidores na industria del entretenimientu, dexando xenerar narraciones y llínees de diablu desalcuerdu a les especificaciones del usuariu.[59] L'aplicación maureció en 2008 cuando NEC Biglobe anunció un serviciu web que dexaba a los usuarios crear frases estremar de voces de los personaxes de Code Geass: Lelouch of the Rebellion R2,[60]

El testu-voz atopó nueves aplicaciones fora del mercáu de l'ayuda a los discapacitaos. Por casu, la síntesis de voz , combinada col reconocencia de voz, dexa la interacción con dispositivos móviles al traviés de interfaces de procesamientu de llinguaxes naturales. Tamién foi usáu como un segundu llinguaxe d'alquisición. Voki, por casu, ye una ferramienta educativo creada por Oddcast que dexa a los usuarios escoyer el so propiu avatar, usando distintos acentos. Pueden ser unviaos al traviés de mail o ser asitiaos en sitio web o redes sociales.

APIs[editar | editar la fonte]

Múltiples compañíes ufierten APIs TTS a'l consumidores p'acelerar el desenvolvimientu de nueves aplicaciones usando la tecnoloxía TTS. Les compañíes qu'ufierten APIs TTS inclúin a AT&T, IVONA, Neospeech, Readspeaker y YAKiToMe!. Pal desenvolvimientu d'aplicación pa móviles, el sistema operativu Android ufiertó una API TTS por un llargu tiempu. De manera recién, con iOS7, Apple empezó a ufiertar d'igual manera una API TTS.

Vease tamién[editar | editar la fonte]

Referencies[editar | editar la fonte]

  1. (1987) From Text to Speech: The MITalk system. Cambridge University Press.
  2. "An articulatory synthesizer for perceptual research" (1981). Journal of the Acoustical Society of America 70 (2): 321–328. doi:10.1121/1.386780. 
  3. (1997) Progress in Speech Synthesis. Springer.
  4. "Assignment of segmental duration in text-to-speech synthesis" (April 1994). Computer Speech & Language 8 (2): 95–128. doi:10.1006/csla.1994.1005. 
  5. History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006
  6. Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine," J. B. Degen, Wien). Plantía:De icon
  7. Mattingly, Ignatius G. (1974). "Speech synthesis for phonetic and phonological models". Current Trends in Linguistics 12: 2451–2487. 
  8. (2007) «2», Speech Science Primer: Physiology, Acoustics, and Perception of Speech (en inglés), 24.
  9. «The Pattern Playback» (inglés). Consultáu'l 3 de xunetu de 2015.
  10. Klatt, Dennis (April 1987), “How Klattalk became DECtalk: An Academic's Experiences in the Business World”, The official proceedings of Speech Tech '87 (New York: Media Dimensions Inc./Penn State): 293-294, <http://searchworks.stanford.edu/view/6824203> 
  11. (1997) Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. Springer.
  12. Kurzweil, Raymond (2005). The Singularity is Near. Penguin Books.
  13. Klatt, D. (1987) "Review of Text-to-Speech Conversion for English" Journal of the Acoustical Society of America 82(3):737-93
  14. «Louis Gerstman, 61, a Specialist In Speech Disorders and Processes». New York Times. 21 de marzu de 1992. http://www.nytimes.com/1992/03/21/nyregion/louis-gerstman-61-a-specialist-in-speech-disorders-and-processes.html. 
  15. «Arthur C. Clarke Biography». Archiváu dende l'orixinal, el 11 d'avientu de 1997. Consultáu'l 11 d'avientu de 1997.
  16. «Where "HAL" First Spoke (Bell Labs Speech Synthesis website)». Bell Labs. Archiváu dende l'orixinal, el 29 d'abril de 2011. Consultáu'l 17 de febreru de 2010.
  17. Anthropomorphic Talking Robot Waseda-Talker Series
  18. TSI Speech+ & other speaking calculators
  19. Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide"Usu incorreutu de la plantía enllaz rotu (enllaz rotu disponible n'Internet Archive; ver el historial y la última versión).
  20. Breslow, et al. United States Patent 4326710: "Talking electronic game" April 27, 1982
  21. Voice Chess Challenger
  22. Gaming's Most Important Evolutions, GamesRadar
  23. "Far-out phonemes." Popular Mechanics (Tech Front Lines). Jun 1981
  24. Gahlawata, M., Malika, A., Bansalb, P. Natural Speech Synthesizer for Blind Persons Using Hybrid Approach’’. Procedia Computer Science, 2014, p. 86
  25. Schröder, M., Emotional Speech Synthesis: A Review’’. University of the Saarland, 2001, p.1
  26. Alan W. Black, Perfect synthesis for all of the people all of the time. IEEE TTS Workshop 2002.
  27. John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
  28. Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, Section 5.6 on page 54.
  29. William Yang Wang and Kallirroi Georgila (2011). Automatic Detection of Unnatural Word-Level Segments in Unit-Selection Speech Synthesis, IEEE ASRU 2011.
  30. «Pitch-Synchronous Overlap and Add (PSOLA) Synthesis». Archiváu dende l'orixinal, el 22 de febreru de 2007. Consultáu'l 28 de mayu de 2008.
  31. T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings, 1996.
  32. R Muralishankar, A.G.Ramakrishnan and P Prathibha. Modification of Pitch using DCT in the Source Domain. "Speech Communication", 2004, Vol. 42/2, pp. 143-154.
  33. L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology, September 1993.
  34. Dartmouth College: Music and Computers, 1993.
  35. como Astru Blaster, Space Fury y Star Trek: Strategic Operations Simulator
  36. como Star Wars, Firefox, Return of the Jedi, Road Runner, The Empire Strikes Back, Indiana Jones and the Temple of Doom, 720°, Gauntlet, Gauntlet II, A.P.B., Paperboy, RoadBlasters, Vindicators Part II, Escape from the Planet of the Robot Monsters
  37. John Holmes and Wendy Holmes (2001). Speech Synthesis and Recognition, 2nd, CRC.
  38. «The HMM-based Speech Synthesis System». Hts.sp.nitech.ac.j. Consultáu'l 22 de febreru de 2012.
  39. "el_1981.pdf Speech perception without traditional speech cues" (22 de mayu de 1981). Science 212 (4497): 947–949. doi:10.1126/science.7233191. PMID 7233191. 
  40. «Speech synthesis». World Wide Web Organization.
  41. «Blizzard Challenge». Festvox.org. Consultáu'l 22 de febreru de 2012.
  42. Smile -and the world can hear you. University of Portsmouth. 9 de xineru de 2008. Archivado del original el 17 de mayu de 2008. https://web.archive.org/web/20080517102201/http://www.port.ac.uk/aboutus/newsandevents/news/title,74220,en.html. 
  43. «Smile - And The World Can Hear You, Even If You Hide». Science Daily. January 2008. http://www.sciencedaily.com/releases/2008/01/080111224745.htm. 
  44. "The vocal communication of different kinds of smile" (2008). Speech Communication 50 (4): 278–287. doi:10.1016/j.specom.2007.10.001. 
  45. "Modification of pitch using DCT in the source domain" (February 2004). Speech Communication 42 (2): 143–154. doi:10.1016/j.specom.2003.05.001. Retrieved on 7 d'avientu de 2014. 
  46. "Epoch extraction based on integrated linear prediction residual using plosion index" (December 2013). IEEE Trans. Audiu Speech Language Processing 21 (12): 2471–2480. doi:10.1109/TASL.2013.2273717. Retrieved on 19 d'avientu de 2014. 
  47. EE Times. "TI will exit dedicated speech-synthesis chips, transfer products to Sensory." June 14, 2001.
  48. «1400XL/1450XL Speech Handler External Reference Specification» (PDF). Consultáu'l 22 de febreru de 2012.
  49. «It Sure Is Great To Get Out Of That Bag!». folclor.org. Consultáu'l 24 de marzu de 2013.
  50. «iPhone: Configuring accessibility features (Including VoiceOver and Zoom)». Apple. Consultáu'l 29 de xineru de 2011.
  51. Miner, Jay et al. (1991). Amiga Hardware Reference Manual, 3rd, Addison-Wesley Publishing Company, Inc..
  52. «Translator Library (Multilingual-speech version)» (30 de xunu de 1995). Archiváu dende l'orixinal, el 26 de febreru de 2012. Consultáu'l 9 d'abril de 2013.
  53. «Accessibility Tutorials for Windows XP: Using Narrator». Microsoft (29 de xineru de 2011). Consultáu'l 29 de xineru de 2011.
  54. «How to configure and use Text-to-Speech in Windows XP and in Windows Vista». Microsoft (7 de mayu de 2007). Consultáu'l 17 de febreru de 2010.
  55. Jean-Michel Trivi (23 de setiembre de 2009). «An introduction to Text-To-Speech in Android». Android-developers.blogspot.com. Consultáu'l 17 de febreru de 2010.
  56. Andreas Bischoff, The Pediaphon - Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones, PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575-579 ISBN 0-7695-2932-1, 2007
  57. «Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002». Mindspring.com. Consultáu'l 17 de febreru de 2010.
  58. «gnuspeech». Gnu.org. Consultáu'l 17 de febreru de 2010.
  59. «Speech Synthesis Software for Anime Announced». Anime News Network (2 de mayu de 2007). Consultáu'l 17 de febreru de 2010.
  60. «Code Geass Speech Synthesizer Service Offered in Japan». Animenewsnetwork.com (9 de setiembre de 2008). Consultáu'l 17 de febreru de 2010.

Enllaces esternos[editar | editar la fonte]






Síntesis de habla