TTS(Text 를 이용한 Speech 구현)
Amazon AWS의 A.I(Artificial Intelligence) Services
Amazon Polly 소개
- 말하기와 접근성을 높이기 위한 Application 을 생성
- 사용하기 쉽고 독립적인 장치를 위한 Solution 제공
- 목소리는 품질이 높고 자연스러운 사람의 연설
- 언어당 여러 목소리로 24개 언어 지원
- 생성된 음성을 오디오파일로 저장하고 배포
- 텍스트를 생생한 음성으로 변환하는 클라우드 서비스
- 참여와 접근성을 높여주는 애플리케이션을 개발
- 여러 언어를 지원하며 다양한 실제 음성이 포함되어 있어서 여러 위치에서 고객에게 적합한 음성을 사용하는 음성 지원 애플리케이션을 개발
- 합성한 텍스트에 대해서만 비용을 지불합니다. 또한 Amazon Polly에서 생성된 음성을 캐시하거나 MP3 다운로드를 하여 추가 요금 없이 재생
- 일반적인 사용 사례에는 뉴스리더, 게임, 전자 학습 플랫폼, 시각 장애가 있는 사람을 위한 접근성 애플리케이션, 빠르게 성장하는 사물 인터넷(IoT) 세그먼트 등과 같은 모바일 애플리케이션이 포함되나 제한없음
뉴스레터 가입
클라우드 관련 최신 소식을 업데이트 받으실 수 있습니다.
Amazon Polly 특징
- 정확한 텍스트 processing
- 높은 지능
- Speech Synthesis Markup Language(SSML) 지원
- 맞춤 연설을 위한 dictianoris (Lexicons) 지원
- 자연스러운 텍스트의 육성 연설 생성
Amazon Polly 이점
- 우수한 품질 – 동급 최고의 TTS(Text-to-Speech) 기술을 사용하여 자연 음성을 정확한 발음으로 합성(약어, 두문자어 확장, 날짜/시간 해석, 명확한 동음이의어 구별 포함).
- 짧은 지연시간 – 빠른 응답 시간을 보장하므로 대화 시스템과 같은 짧은 지연시간을 요구하는 사용 사례에 실행 가능한 옵션
- 다양한 언어 및 음성 포트폴리오 지원 – 수십 가지 음성과 다양한 언어를 지원하며 대부분의 언어에서 남성 및 여성 음성 옵션을 제공
- 비용 효율성 – 사용별 지불 모델은 설정 비용이 없습니다. 따라서 소규모로 시작하여 애플리케이션의 성장에 따라 규모를 확장
- 클라우드 기반 솔루션 – 디바이스 기반 Text-to-Speech 솔루션을 사용하려면 충분한 컴퓨팅 리소스, 매우 높은 CPU 전력, RAM 및 디스크 공간이 필요 따라서 개발 비용이 높고 태블릿, 스마트폰 등과 같은 디바이스에서 전력 소비 높음. 반면에 클라우드에서 수행되는 Text-to-Speech 변환은 로컬 리소스 요구사항을 획기적으로 줄여줌. 따라서 모든 사용 가능한 언어와 음성을 최상의 품질로 지원. 또한 음성 개선 사항이 모든 최종 사용자에게 즉시 제공되므로 디바이스에 대한 추가 업데이트가 불필요
Amazon Polly 장점
- 자연스러운 음성 – 12개 언어로 자연적인 남성 및 여성 음성을 다양하게 제공합니다. Amazon Polly의 유창한 텍스트 발음으로 글로벌 청중을 대상으로 고품질 음성을 제공
- 음성 저장 및 재배포 – Amazon Polly에서는 생성된 음성을 추가 비용 없이 무제한으로 재생할 수 있습니다. MP3 및 OGG와 같은 표준 형식으로 음성 파일을 생성하여 클라우드로부터 또는 오프라인 재생용 앱 또는 장치를 사용하여 로컬에서 제공
- 실시간 스트리밍 – 실제 같은 음성과 대화 사용자 경험을 제공하기 위해서는 일관되게 빠른 응답 시간이 요구됩니다. Amazon Polly API로 텍스트를 전송하면 Amazon Polly API가 오디오를 스트림으로 애플리케이션에 반환하므로 즉시 음성을 재생
- 음성 출력 사용자 지정 및 제어 – Amazon Polly 음성을 필요에 가장 적합하게 수정 – Amazon Polly는 어휘 및 SSML 태그를 지원하여 사용자가 발음, 볼륨, 피치, 속도 등 음성의 여러 측면을 제어
- 저렴한 비용 – 종량 요금제, 저렴한 변환 문자당 비용, 무제한 재생 등 애플리케이션을 음성화하는 비용 효과적인 방법을 제공
사용예
- 교육: Language learning applications (24 languages)
- 게이밍: Test in-game dialogs without needing a voice actor
- 콘텐츠 생성: Read news channel content aloud
- Telephony: Generated speech is used as Voice Response
지원언어
유럽 지역
- Danish
- Dutch
- British English
- French
- German
- Icelandic
- Italian
- Norwegian
- Polish
- Portuguese
- Romanian
- Russian
- Spanish
- Swedish
- Turkish
- Welsh
- Welsh English
미주지역
- Brazilian Portuguese
- Canadian French
- English (US)
- Spanish (US)
아시아태평양
- AustralianEnglish
- Indian English
- Japanese
- Korean
지원언어
유럽 지역
- Danish
- Dutch
- British English
- French
- German
- Icelandic
- Italian
- Norwegian
- Polish
- Portuguese
- Romanian
- Russian
- Spanish
- Swedish
- Turkish
- Welsh
- Welsh English
미주지역
- Brazilian Portuguese
- Canadian French
- English (US)
- Spanish (US)
아시아태평양
- AustralianEnglish
- Indian English
- Japanese
- Korean
콘텐츠 생성 아키텍처 예제
사용 방법
Amazon Polly 시작하기
- EC2 Management Console 접속 ▶︎ Amazon Polly
- AWS Management Console ▶︎ Amazon Polly ▶︎ 시작하기 ▶︎ 텍스트 투 스피치
- 음성듣기
- AWS Management Console ▶︎ Amazon Polly ▶︎ 시작하기 ▶︎ 텍스트 투 스피치
- MP3 다운로드
- AWS Management Console ▶︎ Amazon Polly ▶︎ 시작하기 ▶︎ 텍스트 투 스피치
- AWS Management Console ▶︎ Amazon Polly ▶︎ 시작하기 ▶︎ 텍스트 투 스피치
이용 가격
- 사용한 만큼 비용을 지불하는 종량제.
- 100 만 문자 당 4.0 USD
- 한 자당 0.000004 USD(요청 1,000건, 요청당 문자 1,000개, 문자 100만개,- 23시간 8분 기준 4.00 USD)
- 일반적인 이메일 메시지 (문자 3,100개, 4분기준 0.02 USD)
- 일반적인 신문 기사(문자 6,500개, 3 Page, 9분 기준 0.03 USD)
- Amazon Polly가 생성한 음성 파일 저장 가능
- 추가 비용없이 재사용
- 무료 이용 범위 :
- 첫 번째 음성 요청에서 12 개월 동안 매월 500 만 문자
AWS에 대해 더 알고 싶으세요?
베스핀글로벌의 AWS 전문 엔지니어가 답해드립니다.