Што се синтисајзери на говор? Најдобрите синтисајзери за говор. Говорни синтисајзери со руски гласови. Како да користите синтисајзер за говор? Капетан на синтисајзер за говор

eSpeak
Тип синтисајзер за говор
Автор Џонатан Дадингтон
Напишано на C++
операционен систем Linux и други слични на UNIX, Windows
Прво издание 2006
Најновата верзија 1.48.04 (6 април)
држава неактивни
Лиценца GNU GPL
Веб-страница

ОС

Постојат верзии на eSpeak за оперативни системи како што се Microsoft Windows, Mac OS X, Linux, RISC OS, а неговиот изворен код во C++ е исто така достапен. Дополнително, официјалната документација на синтисајзерот дава инструкции како да се состави за Windows Mobile. Програмата има едно значајно ограничување - генерирањето глас е можно само во WAV-датотека.

Покрај тоа, eSpeak се користи во мобилните оперативни системи Android, почнувајќи од верзијата 1.6 и Maemo, но овие проекти не се лично надгледувани од развивачот и нема соодветни пакети на официјалната веб-страница eSpeak, а верзијата на Android има број на значајни грешки при работа на некои јазици, особено руски.

Поддржани јазици

eSpeak поддржува околу пет дузина различни јазици. За време на инсталацијата, од корисникот се бара да посочи кои дијалекти е заинтересиран да ги поддржи.

Подолу е листа на јазици поддржани од синтисајзерот eSpeak и нивните симболи што се користат во неговите поставки.

  • Албански - кв
  • англиски (американски) - en-us
  • Англиски (британски со северен акцент) - en-n
  • Англиски (британски со акцент од Западен Мидленд) - en-wm
  • Англиски (класичен британски) - en
  • Англиски (општо говорен) - en-rp
  • англиски (шкотски) - en-sc
  • Ерменски (западен) - хи-запад
  • Ерменски (класичен) - хи
  • африканс - af
  • босански - бс
  • Велшки - cy
  • унгарски - ху
  • виетнамски - vi
  • Холандски - nl
  • Гласови на МБРОЛА (глас ххх) - мб-ххх
  • грчки - ел
  • старогрчки - грц
  • Индонезиски - ид
  • Исландски - е
  • Шпански (класичен) - es
  • шпански (латиноамерикански) - es-la
  • Италијански - тоа
  • Каталонски - околу
  • Кинески (кантонски) - zh-yue
  • Кинески (мандарински) - ж
  • курдски - ку
  • латински - ла
  • Латвиски - лв
  • Лојбан - јбо
  • Македонски - мк
  • Германски - де
  • Норвешки - не
  • полски - мн
  • Португалски (Бразилски) - pt
  • Португалски (европски) - pt-pt
  • романски - ро
  • Руски - ру
  • српски - с.р
  • словачки - ск
  • словенечки - sw
  • Тамилски - та
  • турски - тр
  • фински - фи
  • Француски - фр
  • Хинди - здраво
  • хрватски - ч
  • чешки (говорен) - cs
  • шведски - св
  • Есперанто - ео

Списокот на поддржани јазици може да се прошири и со помош на гласовни библиотеки MBROLA, кои може да се поврзат со eSpeak.

eSpeak и MBROLA

MBROLA е специјален дифоничен алгоритам за синтеза на говор, врз основа на кој се создадени многу различни софтверски производи со вклучување на технологијата текст-во-говор (TTS). Овој проект го држи рекордот меѓу другите технологии за синтеза на говор по бројот на различни јазици за кои е користен. Иако гласовите на MBROLA сè уште не се создадени за некои заеднички јазици, вклучувајќи го и рускиот.

eSpeak може да работи заедно со MBROLA, што овозможува користење на гласовните библиотеки на овој проект како составен дел на самиот eSpeak. Ова ви овозможува дополнително да ја проширите листата на поддржани јазици за синтетизирање на говор од текст.

Можете да ја користите комбинацијата eSpeak и MBROLA на оперативни системи како што се Windows, Linux и Mac OS X.

Сепак, не сите гласовни библиотеки MBROLA поддржуваат интеграција со eSpeak.

Принципи на имплементација

Зборовите од влезниот текст за синтеза се подложени на две фази на обработка:

  • зборот во буквата репрезентација се претвора во низа фонеми;
  • се генерира звучен сигнал врз основа на добиената низа.

Правилата за добивање на низа од фонеми се чуваат во форма "A, B, C = D". Каде што B е буквата за која станува збор, A и C се околниот контекст на таа буква во зборот, а D е фонемата во која таа буква може да се претвори. Контекстот на животната средина може да се определи или со специфични букви или со специјални знаци што означуваат групи на букви. Правилата за синтисајзер овозможуваат двосмислена дефиниција на таквите синџири. За да се реши оваа нејаснотија, синтисајзерот му доделува приоритет на секое правило, кој се пресметува врз основа на бројот на букви вклучени во правилото и степенот на специфичност во дефинирањето на еколошкиот контекст. Правилата исто така може да ги специфицираат разликите во преводот во зависност од стресот.

Во eSpeak, звуците на самогласки секогаш се синтетизираат, гласните согласки се создаваат со мешање синтетизирани звуци со претходно снимени гласовни звуци, а сите други звуци едноставно се снимаат, на пример, [sh].

Секој звук, освен безгласните согласки, е претставен со низа формати. Покрај информациите за форматите, секоја фонема има информации за нејзината амплитуда, времетраење на звукот и доцнење пред следната фонема. Врз основа на овие параметри, звукот на самогласка се синтетизира со помош на алгоритми имплементирани во синтисајзерот. Информациите за фонемите и форматите се чуваат во посебни датотеки, кои исто така потоа се компајлираат во бинарен формат.

Услужната алатка eSpeak Edit е испорачана со синтисајзерот. Ова е GUI апликација напишана со помош на библиотеката WXLib. Ви овозможува визуелно да уредувате готови фонеми. Фонемата е претставена како крива график, каде што форматите може да се избираат последователно и нивните вредности, како што се фреквенцијата, висината и ширината, може да се менуваат. Благодарение на овие способности, врз основа на готови фонеми, можете да добиете нови, попрецизни звуци за одреден јазик. Во исто време, некои од фонемите не можат да се добијат со менување на постоечките. На пример, при развивањето на делот на руски јазик на eSpeak, звукот [р] беше специјално снимен, бидејќи немаше достоен аналог за него на други јазици.

Проекти кои користат eSpeak

Додатоци од трета страна

Некои јазици немаат едноставни и универзални правила за градење на писмен говор, а eSpeak бара дополнителни компоненти за да произведе висококвалитетна синтеза на овие јазици. За да се избегне зголемување на големината на главниот пакет eSpeak, овие компоненти се дистрибуираат посебно. Особено, во рускиот јазик не постојат општи правила со кои се утврдува нагласениот слог со зборови. Во овие случаи, eSpeak се обидува да го одреди стресот на зборот, но дадениот изговор често не е правилен. За да се реши овој проблем, постои специјален проширен речник за изговор, кој мора да се инсталира одделно од главниот пакет eSpeak.

Покрај рускиот, компонентите за корекција на говорот eSpeak од трета страна се достапни и за кинески (Putonghua и кантонски).

Овие речници можете да ги преземете од официјалната веб-страница на проектот.

VoiceFabric е Интернет услуга која ви овозможува да ги изразите сите текстуални информации во синтетизиран глас.
Демо синтеза со различни гласови е достапна на веб-страницата voicefabric.ru, со нејзина помош можете да го оцените квалитетот на синтезата. Денес има 8 гласови на располагање (женски и машки), кои можат да зборуваат 3 јазици (руски, англиски, казахстански).

Синтезата на говор од МРЦ е корисна кога е неопходно да се персонализираат појдовните гласовни пораки. Решението ви овозможува целосно да ги напуштите услугите на звучник и претходно да снимате аудио клипови во менито IVR, односно напишаниот текст веднаш се претвора во звучна снимка и му се изразува на клиентот преку телефонската линија.

Исто така, користејќи синтетизирани гласови, можете да гласовте книги, видеа и да снимате гласовни картички без да ја изгубите „природната“ интонација. Voicefabric гарантира правилно поставување на акценти, правилно читање на кратенки, бројки, кратенки.

Можете да се регистрирате на веб-страницата voicefabric.ru и да добиете бесплатни секунди за синтеза, како и пристап до софтверскиот интерфејс на услугата.

Внимание! Оваа страница користи JavaScript технологија, која е оневозможена во вашиот прелистувач. За целосно да работите со ресурсот, се препорачува да ја овозможите оваа функција во поставките на вашиот интернет прелистувач. Сепак, целата содржина на страницата е достапна и во режим на оневозможен JavaScript, така што активирањето на оваа поставка не е неопходно, иако се препорачува.


Синтисајзер за говор Капетан

„Speech synthesizer Captain“ е синтисајзер компатибилен со MS SAPI4. Поддржува синтеза на говор на руски и украински. Поддршката за украинскиот јазик се заснова на замена на украинските фонеми со фонеми со сличен звук на рускиот јазик.

Синтисајзерот е создаден на алофонска основа на еден од десетте гласови на софтверскиот комплекс TTS „Speaking Mouse Home“, кој беше развиен од Клубот за гласовни технологии во научниот парк на Московскиот државен универзитет во 1995 година. Со наследство, овој синтисајзер го доби името на својот прототип од „Speaking Mouse Home“ - Капетан.

Покрај рускиот и украинскиот јазик, Капетанот може да работи и со англиски, германски и француски јазик, како и одделно да чита повеќејазични текстови: секој јазик со соодветен глас на синтисајзерот. Посебното читање на повеќејазични документи и поддршка за англиски, германски и француски јазик се врши преку употреба на дополнителен модул заснован на синтисајзерот eSpeak, но употребата на овој модул не е неопходна за работата на капетанот. Поддршка за руски и украински јазици може да се обезбеди без да се инсталира. Овој модул за проширување на можностите на Капетан е веќе вклучен во архивата, која можете да ја преземете од нашата веб-страница, така што неговото посебно преземање, како што е опишано во придружната документација на самиот синтисајзер, не е потребно.

Синтисајзерот има машки глас со добра разбирливост на говорот, но низок природен звук. Предностите вклучуваат голема работна брзина, мала големина и мала искористеност на капацитетот на системот. Сепак, „Капетан“ има и голем број на недостатоци:

  • Синтисајзерот практично не ја поддржува функцијата за прилагодување на висината на говорот.
  • За време на работата, понекогаш може да се појават феномени на „голтање“ на звукот.
  • Одвреме-навреме, синтисајзерот може да молчи за време на работата или да почне да го чита само првиот дел од редовите на текстот. Во овој случај, за да се вратите во нормална работа, се препорачува да се рестартира синтисајзерот.

Овој синтисајзер може да бара системска компонента за да работи.

Научивме да препознаваме говор, иако, засега, само англиски, нема да застанеме, ќе одиме понатаму, поточно во спротивна насока - текстот ќе го претвориме во гласовен говор.

Најпопуларните и слободни синтисајзери за говор што ги познавам и со кои сум имал практично искуство: фестивал, eSpeak, OpenMary.
Да ги погледнеме сите 3 по ред.

фестивал

ОС: Linux
Руски јазик:
да (машки глас)
Веб-страница: http://www.cstr.ed.ac.uk/projects/festival/

Прилично напреден синтисајзер, доаѓа со следните јазични пакети: англиски (на англиски и американски изговор), велшки и шпански. Има и други пакети како што се кастилски шпански, чешки, фински, хинди, италијански, марати, полски, руски и телугу. Фестивалот е вклучен со неколку дистрибуции на Линукс. Синтисајзерот доста добро го разбира рускиот јазик; ако си поигрувате со правописот на зборовите и интерпункциските знаци, можете да постигнете сосема здрав говор.

Инсталација

Веќе има многу материјали на мрежата за инсталирање на фестивалот и додавање руски јазик, затоа нема да навлегувам во многу детали, само ќе кажам дека ќе треба да го инсталирате самиот фестивал (инсталиран од складиштето - фестивал) и пакетот за руски јазик, кој исто така е инсталиран од складиштето (festvox-ru), тогаш треба малку да ја прилагодите конфигурацијата. Има добра статија за ова прашање.

Употреба

Во конзолата:

Ехо „Здраво“ | фестивал --tts --јазик руски

eSpeak

ОС: Linux, Windows, Mac OS X, RISC OS
Руски јазик:
да (машки глас)
Веб-страница:

Едноставен, компактен, софтверски синтисајзер за говор. Според информациите, eSpeak се користи во мобилните оперативни системи Андроид, почнувајќи од верзијата 1.6 и Maemo. Верзиите за Windows и Linux редовно се ажурираат заедно со изворниот код, а кај другите платформи работите се полоши. Поддржани се многу јазици, вклучувајќи руски, англиски, француски, шпански, итн. Ако го споредиме рускиот говор, eSpeak е инфериорен во однос на фестивалот, англискиот, францускиот и германскиот се на исто ниво.

Инсталација

Во некои дистрибуции, Linux eSpeak е веќе инсталиран, ако не, може да се инсталира и едноставно од конзолата (espeak), или ја преземаме саканата верзија од, на пример, во случај на Windows.

Употреба

Во конзолата:

Зборувајте „Здраво свето! -вру -с 100

Каде:
-v јазик (ru, en, de)
-с брзина (80-450)

OpenMary

ОС: Linux, Windows, Mac OS X
Руски јазик:
да (машки глас)
Веб-страница:
http://mary.opendfki.de

Млад и сè уште не многу популарен синтисајзер, но во исто време многу функционален и напреден. Напишано во Java, што овозможува да биде независен од платформата. Работи на принципот клиент-сервер. Има напредни додатоци за говор, со кои можете да наведете интонација, тембр и брзина за секој збор. Доаѓа со клиент напишан во истата Java, со графички интерфејс.

Инсталација

Инсталирањето е прилично лесно и не бара никаков напор, преземете го инсталерот на Java (не заборавајте дека Java е потребна) . Стартувајте го инсталаторот и следете ги упатствата. Во одредена фаза од инсталацијата, ќе биде побарано да ги изберете јазичните пакети што ќе ги користиме. , За себе избрав руски и англиски.

Употреба

Одете во директориумот за инсталација, одете во папката Кантаи стартувајте го серверот - марисервер.Штом се стартува серверот, стартувајте го клиентот - мариклиент.

Ако сè е направено правилно, по притискање на копчето „Play“ треба да можете да го слушнете изговорот на напишаниот текст. Во папката со примери, директориумот погоре, има примери на имплементации на клиентот за различни јазици.

Заклучок

Фестивал:за просечни домашни и корпоративни проекти (информирање за времето, читање писма, „јазик“ за ботови итн.).
eSpeak:за спроведување на мали задачи (известување за тековното време, информирање за сообраќајниот метеж, бројот на букви во поштенското сандаче, слободен простор на хард дискот итн.).
OpenMary:за големи проекти (паметни домашни системи, гласовно пренесување на програми, читање големи текстови).

Се чини дека синтисајзерите за говор инсталирани на компјутери или мобилни уреди веќе не се толку необични програми како порано. Благодарение на модерната технологија, обичен десктоп компјутер може да го репродуцира човечкиот глас.

Како функционираат синтисајзерите за говор? Каде се користат? Кој е најдобриот синтисајзер за говор? Одговорите на овие и други прашања се претставени во оваа статија.

Општ концепт

Говорните синтисајзери се специјални програми кои се состојат од голем број модули кои обезбедуваат можност за преведување на отчукувани текстови во реченици изговорени со човечки глас. Не треба да мислите дека целата база на зборови и фрази е снимена од вистински луѓе во професионални студија. Физички е невозможно да се заврши таква задача. Библиотека со толку голем број фрази не може да се инсталира на ниту еден модерен компјутер, а камоли на мобилни телефони. За таа цел, програмерите создадоа технологија Текст во говор.

Опсег на примена

Говорните синтисајзери се користат при изучување странски јазици, слушање текстови на страниците на книгите, креирање вокални делови, издавање барања за пребарување во форма на изговорени фрази итн.

Какви видови програми постојат? Во зависност од опсегот на примена, комуналните услуги може да се поделат на 2 вида: обични што го претвораат внесениот текст во говор и специјални вокални модули што се користат во музичките апликации.

Предности и недостатоци

Во моментов, компјутерот синтетизира човечки говор само приближно. Во наједноставните програми, можете да ги набљудувате проблемите со звукот и правилното поставување на стресот со различни зборови. Синтисајзерите за говор инсталирани на мобилни уреди трошат многу енергија. Често е можно да се забележи неовластено преземање на дополнителни модули.

Предностите вклучуваат леснотија на перцепција. На многу корисници им е многу полесно да асимилираат аудио информации од кој било друг вид.

Најдобрите синтисајзери за говор со руски гласови

Програмата RHVoice ја создаде Олга Јаковлева. Стандардната верзија на апликацијата вклучува 3 гласови. Поставките се многу едноставни. Програмата може да се користи и како самостојна апликација, компатибилна со SAPI5, и како дополнителен модул за екран.

Синтисајзерот за говор Acapela се разликува од неговите аналози по својот идеален изговор на текст. Апликацијата поддржува повеќе од 30 јазици во светот. Во бесплатната верзија, достапен е само 1 женски глас.

Вокализаторот често се користи во центрите за повици. Корисникот може да го прилагоди акцентот, гласноста и брзината на читање. Доколку е потребно, се вчитуваат дополнителни речници. Во апликацијата има 1 женски глас. Говорниот мотор автоматски се интегрира во програми за читање книги во електронски формат.

Услужната алатка eSpeak поддржува над 50 јазици. Недостаток на програмата е што зачувува звучни датотеки само во формат WAV, што бара многу простор на вашиот хард диск.

Апликацијата Фестивал е моќна алатка за синтеза на говор што поддржува дури и фински и хинди.

Инсталација на програмата

Како да се користи овој тип на апликација? Прво треба да ја инсталирате програмата. Компјутерски оперативни системи користат стандарден инсталатер, во кој корисникот треба само да го избере јазичниот модул поддржан од алатката. Инсталаторот за мобилни уреди може да се преземе од официјалната веб-страница, Google Play и App Store. Инсталирањето на апликацијата се случува автоматски.

Прво лансирање на програмата

Во оваа фаза, корисникот треба само да го постави стандардниот јазик. Понекогаш треба да го забележите квалитетот на звукот. Стандардната верзија подразбира фреквенција на земање примероци од 4410 Hz, длабочина од 16 бита и брзина од 128 kbps. Во мобилниот оперативен систем, бројките може да бидат помали. Специфичен глас се користи како основа.

Филтрите и еквилајзерите ви помагаат да го постигнете саканиот звук. Корисникот има три опции за превод на текст. Тој може да пишува реченици на тастатурата, да го вклучи аудиото од постоечка датотека или да инсталира екстензија на прелистувачот што ја претвора содржината на веб-страниците во говор. Доволно е да се забележи потребниот тек на дејствување, темброт на гласот и јазикот на кој ќе се зборува текстот. За да го започнете процесот на репродукција, кликнете на копчето „Start“.

Работа со сложени програми

Во музичките апликации, поставките се многу посложени. Во говорниот модул на програмата FL Studio, корисникот може да избере неколку типови гласови, како и да го одреди тонот и брзината на репродукција. Нагласите се ставаат пред слоговите користејќи го симболот „_“. Со помош на таков синтисајзер за говор, можете да создадете само роботски глас.

Vocaloid е апликација од професионален тип. Покрај вообичаените параметри, корисникот може да избере артикулација и глисандо. Алатката има база на податоци со професионални вокали. Ако сакате, можете да приспособите цели реченици за да одговараат на белешките. Само библиотеката со вокали зафаќа повеќе од 4 GB во компресирана форма.

„Google Speech Synthesizer“: што е оваа програма?

Во мај 2014 година, компанијата им овозможи на корисниците можност да пробаат нов бесплатен производ. Што е Google Speech Synthesizer на Android? Ова е програма што чита текст на екранот на мобилен уред или таблет. Сега нема потреба да инсталирате комунални услуги од трети страни за кои е потребна лиценца. „Google Speech Synthesizer“ се користи при читање е-книги, слушање на правилен изговор на зборови и активирање на апликацијата TalkBack.

Новата верзија на програмата Google Speech Synthesizer 3.1 сега поддржува англиски, италијански, шпански, корејски, германски, холандски, полски, португалски, руски и француски. Каде можам да најдам гласовни пакети? Тие се преземаат од самата апликација.

Предности и недостатоци на производот од Google

Карактеристиките на женскиот глас што зборува руски се неговиот јасен, гласен звук и мазна интонација. Брзината на репродукција може да се прилагоди во поставките на програмата. Корисниците кои користат TalkBack и локализацијата на рускиот јазик на оперативниот систем Android треба да бидат претпазливи кога се префрлаат на синтисајзерот за говор ако апликацијата претходно стандардно била поставена на друг глас. Може да имате проблеми со одржување на аудитивната контрола на вашиот мобилен уред. Речиси сите гласови, освен рускиот, не можат да обработуваат реченици на кирилица.

Меѓу недостатоците, може да се забележи задоцнета реакција на читање текстови што се состојат од фрази на различни јазици. Рускиот глас се одликува со метални ноти на тембр. Може да слушнете штракање на ниски фреквенции. Предностите вклучуваат стабилност на апликацијата и прифатлив квалитет на читање англиски зборови.

„Google Speech Synthesizer“: како да ја користите програмата

За да може алатката да работи како што треба, треба да ја ажурирате на најновата верзија. За да го активирате процесот на изговарање текст, треба да ги отворите поставките. Во делот „јазик и внесување“, треба да го проверите полето „синтеза на говор“. Треба да се забележи и линијата „стандарден систем“. Не заборавајте дека и гласовните пакети во самата програма треба да се ажурираат.

Проблеми при работа со алатката

Доколку е потребно, корисникот може да ја оневозможи апликацијата. Во наједноставните комунални услуги, копчето за стоп се наоѓа во самата програма. Деактивирањето на наставката инсталирана во прелистувачот се врши со оневозможување на додатокот или целосно отстранување на приклучокот. Може да се појават проблеми и при користење на програмата на мобилен телефон. Факт е дека синтисајзерот за говор автоматски започнува да ги вчитува јазичните модули што не му се потребни на корисникот.

Овој процес одзема многу време и значително го троши сообраќајот. Како можам да го оневозможам Google Speech Synthesizer на мојот мобилен уред и да се ослободам од овој проблем? Прво треба да ги отворите поставките на апликацијата. Потоа треба да го изберете делот „јазик и гласовно внесување“. Следно, треба да ја означите последната линија.

Откако го избравте гласовното пребарување, треба да кликнете на крстот до ставката „офлајн препознавање говор“. Потоа се препорачува да се избрише кешот на апликацијата. Следно, треба да го рестартирате мобилниот телефон. За целосно да ја исклучите алатката, треба да го отворите делот „апликации“ во поставките, да изберете синтисајзер за говор од списокот и да кликнете на копчето „стоп“.

Деинсталирање програма

Се случува корисникот воопшто да не користи Google Speech Synthesizer. Дали е можно да се отстрани алатката од мобилен уред? За да го направите ова, треба да отворите Google Play. Потоа треба да го изберете синтисајзерот за говор од списокот со инсталирани програми и да кликнете на копчето „избриши“.

Резултати

Апликациите со едноставен интерфејс се погодни за обични корисници и лица со посебни потреби. Ова може да биде или RHVoice или Google Speech Synthesizer. Руски глас ќе го прочита текстот прикажан на екранот. На просечниот корисник не му треба повеќе.

На музичарите им се препорачува да дадат предност на професионалната програма Vocaloid. Апликацијата има дополнителни гласовни библиотеки и многу различни опции. Програмата ќе ви овозможи да добиете природен звук. На крајот на краиштата, за музичарите е толку важно што компјутерската синтеза не е забележлива за увото.

Споделете со пријателите или заштедете за себе:

Се вчитува...