IT 경제 건강정보 라이프스타일

[TTS 프로그램 추천 - 프로소디(Prosody) 음성합성 프로그램] 


- [음성 합성(speech synthesis)]이란, 인간의 음성을 인공적으로 만들어 내는 것으로, 음성 정보 처리의 한 분야입니다. 


음성 합성기에 의해 합성된 음성을 [합성 음성]이라고 부르며, 대부분 텍스트(문장)를 음성으로 변환할 수 있으므로 자주 [텍스트 음성 합성] 또는 [Text-To-Speech(TTS)]라고도 불립니다. 


덧붙여 가성을 합성하는 것은 [가성 합성]이라고 부르며, 음성을 다른 개인 혹은 캐릭터의 음성으로 변환하는 수법은 [성질 변환]이라고 부릅니다.



- TTS 프로그램으로 성우가 없어도 각종 텍스트를 간편하게 음성으로 변환, 출력할 수 있습니다만 최대 단점이 대부분의 TTS는 목소리의 톤같이, 음낮이 조절이 안 돼서 누구나 들으면 [아, 이거 프로그램으로 만든 목소리구만]이라고 단번에 맞출 정도로 음성변환이 너무 딱딱합니다.



이런 식으로 누구나 프로그램으로 만든 기계음이라는 걸 알 수 있을 정도입니다. 말 그대로 텍스트를 음성으로 변환한 것에 대한 의미... 그게 다입니다.



유튜브에 영상을 만들어 업로드할때 이런 TTS 프로그램을 쓰기도 참 제약이 많습니다.


예전과는 다르게 최근에는 저렇게 로보트가 말하는 것 마냥 뻔한 음성합성 프로그램을 사용하면, 유튜브에선 좋게 생각하질 않습니다. 아마도 봇(BOT)이나 뭔가 좋지 않은 의도로 만든다고, 유튜브의 알고리즘은 그렇게 평가를 해버립니다.


소위 말하는 [노딱(노란딱지)]같이 수익이 확 줄어들거나, 아예 수익창출 신청때 거부 당할수도 있습니다.  



물론, 이렇게 전문 or 아마추어 성우 분들이 커미션으로 목소리를 제공하나 영상을 한 두개 제작이 아닌, 수십개 혹은 영상 전체에 목소리를 입혀야 한다면 이 목소리 녹음 비용도 만만치 않습니다. 수십만원 돈이 순식간에 빠져나가는 것입니다.


그렇다고, 나 자신의 목소리로 녹음을 하려니 자신도 없고... 과정도 번거롭습니다. 영상 촬영하랴, 목소리 녹음하랴, 그걸 또 편집하랴...


- 이러한 문제를 해결해주기 위해 등장한 것이 바로, [휴멜로]에서 개발한 TTS 프로그램 프로소디(Prosody)입니다! 일단 아래 소개 영상 한 번 보시죠.



프로소디는 TTS 프로그램의 최고 단점인 어색한 목소리를 마치, 사람이 감정을 실어서 말하는 것 처럼 최대한 자연스럽게 뽑아낼 수 있습니다. TTS 특유의 어색함을 딥러닝을 통해서 극복했다고 합니다.


 

참고로 프로소디 공식 홈페이지로 들어가시면, 해당 프로그램을 무료로 체험할 수 있으며 위 스샷처럼 해당 프로그램을 맛보기로 바로 확인 하실 수 있습니다만... 홈페이지 체험판은 작동이 안되서 직접 해당 프로그램 체험판을 다운받아서 직접 시연 해보겠습니다.




일단 프로소디 홈페이지로 이동, 우측 상단의 사람 모양 아이콘을 클릭합니다.



해당 화면이 나오면, 아래의 [회원가입]을 클릭합니다.



모두 동의를 하신뒤, 아래의 회원가입 배너 클릭.



가입정보를 입력한 뒤, 아래의 회원가입 배너를 클릭합니다.



정상적으로 회원가입이 되었다는 팝업창과 함께 가입할 때 기입한 이메일로 확인 메일이 옵니다.

계정을 활성화시켜야 최종 가입이 완료됩니다.



이메일 인증에서 인증하기를 클릭합니다.



이렇게 인증이 완료되었으면, 다시 홈페이지 첫 화면으로 돌아가서 로그인을 해줍니다.



로그인을 하면, 이렇게 대시보드가 나옵니다.



프로소디 무료 버전은 다음과 같은 혜택 & 제약이 있습니다.


  • 월 4,000자

  • TTS 생성 가능 계정 개수: 1개

  • 감정, 음길이, 높낮이 조절가능



유료 버전은 다음과 같은 가격과 혜택이 있습니다.


  • 기본: 월 12,450원/ 월 24,000자 생성 가능(영상의 50%를 음성으로 채울 경우, 월 최대 40분 분량 생성 가능)/ TTS 생성 가능한 계정 1개

  • 프로: 월 49,500원/ 월 120,000자(영상의 50%를 음성으로 채울 경우, 월 최대 200분 분량 생성 가능)/ TTS 생성 가능한 계정 3개


흠... 기본 기준으로, 5분 짜리 영상을 만든다고 치면 8개 정도 서비스를 받을 수 있겠네요.



이제 해당 제품을 다운받아서 설치 후, 사용까지 해봅시다. 

다시 홈페이지 처음 화면으로 돌아가서, 다운로드 항목을 클릭합니다.



해당 화면이 나오면, [프로소디 체험판 다운로드하기]를 클릭하세요. 곧바로 다운로드 됩니다.

참고로 해당 TTS 프로그램은 아래와 같은 지원 환경이 필요합니다.


  • Window 10

  • .Net Framework 4.0이상

  • Intel 혹은 AMD 듀얼프로세서, >1GHZ Processor

  • 1920x1080 이상의 해상도

  • RAM 2GB 이상

  • 잔여 드라이브 공간 1GB 이상



설치 프로그램을 실행하면, 이렇게 어떤 언어를 선택할지 물어보는 항목이 나옵니다.

한글/영어 둘 중에 하나를 선택하시고 OK를 누르세요.



다음 -> 동의함을 각각 클릭 해주세요.



폴더 지정을 해준뒤, 설치를 클릭하시면 곧바로 설치가 시작됩니다.

프로그램 자체가 가벼운지 금방 설치가 완료됩니다.



자, 이제 Prosody 1.2.1 실행을 해봅시다.



프로소디를 실행하시면 이렇게 로그인 화면이 나옵니다.

아까 회원가입 할때 ID랑 비밀번호를 입력하신뒤, 로그인을 클릭하세요.



여기선 잘 보이지 않으시겠으나, 화면이 저렇게 나옵니다.

기능이 복잡해 보이나 막상 건드려보면 별 것 없습니다.



[음성 선택] 항목에서는 여러분이 음성 변환으로 출력하길 원하시는 캐릭터를 고르시면 됩니다.

다만, 무료버전에서는 병찬, 주영, 샘, 케이틀린 4종류만 감정 설정이 가능한 것 같습니다. 나머지 캐릭터는 다 중립 상태입니다.



  • 속도: 말 그대로 음성 속도를 조절 할 수 있습니다.

  • 높낮이: 음성 높낮이 조절이 가능합니다.

  • 감정 기본 설정: 기본적으로 중립으로 세팅되어있으며, 행복, 슬픔, 화남, 차분, 실망, 흥분, 졸림, 공포 등 9가지 감정이 설정되어 있습니다.

  • 성별 설정: 해당 캐릭터의 목소리 성별을 남/여로 설정 가능합니다.

  • 언어 설정: 한국어/미국식 영어/영국식 영어 로 설정 가능합니다.


여기서 성별, 언어 설정은 추천하지 않습니다.



나머지 메뉴도 이런식으로 배치가 되어 있습니다. 

어떻게 사용하는 것인지 음성 변환을 한번 해봅시다.



저는 주영으로 한번 해보겠습니다. 아래 텍스트 입력 부분에 스샷처럼 텍스트를 입력한뒤, 아래의 [음성 생성]을 클릭합니다.



그러면 이런식으로 입력한 텍스트가 날짜/시간과 함께 우측에 표시가 됩니다.

해당 부분을 클릭하시면, 아래 스샷같이 EDIT 항목으로 넘어갑니다.



이렇게 EDIT 화면이 나옵니다. 여러분이 변환한 음성을 듣고 싶으시면, 빨간 네모로 표시한 메뉴 중 재생 버튼을 클릭하면 목소리가 나옵니다.

그리고 음정이나 길이 조정도 세세하게 여러분이 직접 조정하실 수 있습니다.



제가 만든 음성을 직접 들려드리겠습니다.

파일 메뉴에서 모든 음성 내보내기 항목을 선택합니다.



폴더를 지정해주시면 곧바로 해당 음성이 추출됩니다.



해당 음성 파일은 WAV 형식으로 이렇게 무사히 잘 추출되었습니다.



위 파일이 아까 중립으로 설정한 텍스트 음성 변환 파일입니다. 한번 들어보세요.

중립이라서 감정이 없는 사람 같습니다.



이번에는 화남 감정으로 해보겠습니다.

들어보시면 아시겠지만, 오? 생각보다 진짜 화가 난 것 같습니다.



이번에는 여러가지 버전으로 올려보겠습니다. 듣고 비교해보시죠^^


행복

차분

슬품

실망

흥분

졸림

공포


기계음 같은 잡음이 조금 들리긴 해도, 기존의 TTS 프로그램과 비교하면 장족의 발전 아닙니까?

지금은 초기버전이라서, 나중에 하나하나 개선이 되면 지금보다 훨씬 자연스러운 음성합성이 될 것이라 기대가 됩니다^^



이런 식으로 프로소디는 다양하게 이용이 가능합니다.

마지막으로 음정 등 제 마음대로 건드려 본 음성합성을 올려보겠습니다^^




개인적으로 괜찮은 TTS 프로그램 같습니다. 유튜브나 프로그램 제작시 음성일 필요하시면, 해당 프로그램을 공부하셔서 적재적소에 사용하시면 좋을 듯 합니다.



마침 제가 즐겨보는 뻘짓연구소 채널에서 이번 TTS 프로그램을 다루었네요.

해당 영상도 한번 보시길 권합니다. 제가 적은 것 보다 훨씬 설명이 잘 되었네요^^


이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band