;
  • 26 Feb, 2022
  • 70
  • Tin tức

Văn bản thành tiếng nói (Text-to-Speech) đến TTS adaptation?

Với tiếng Việt, các nghiên cứu TTS  cũng đã sử dụng các kỹ thuật tiên tiến nhất là Tacotron 2, Fastspeech2 kết hợp với một vocoder như HifiGAN/WaveGlow  tạo ra giọng nói nhân tạo chất lượng cao với ngữ điệu tự nhiên như con người. Tuy nhiên một thách thức của tổng hợp tiếng nói là khả năng tổng hợp tiếng nói theo phong cách và ngữ điệu tùy ùy với một lượng nhỏ mẫu học, các kỹ thuật này còn gọi là TTS adaptation (thích nghi TTS).

Thích nghi TTS là một tính năng quan trọng của TTS có thể tổng hợp giọng nói của bất kỳ người dùng nào. Nó được gọi là các thuật ngữ khác nhau trong học thuật và công nghiệp, chẳng hạn như  thích nghi giọng nói (voice adaptation), nhân bản giọng nói (voice cloning) , tùy chỉnh giọng nói (custom voice). Thích nghi TTS đã là một chủ đề nghiên cứu nóng. Rất nhiều các công trình trong ngành tổng hợp thông số kỹ thuật thống kê đã nghiên cứu sự thích nghi giọng nói, và thử thách nhân bản giọng nói gần đây cũng thu hút rất nhiều người tham gia. Tuy nhiên các nghiên cứu này mới dành cho các ngôn ngữ phổ biến như tiếng Anh, Trung, Nhật.

Hình 1: Ứng dụng giải pháp thích nghi tiếng nói Adapt-TTS đọc báo cáo hội nghị tự động tại một số đơn vị (nguồn Viện HLKHCN VN)

Chúng tôi đã nghiên cứu và phát triển thành công giải pháp tổng hợp tiếng nói dựa trên công nghệ thích nghi tiên tiến nhất trên thế giới, cho phép tạo ra giọng nói của bất kỳ ai chỉ với 1 vài giây (hoặc 1 câu) mẫu tiếng nói, ngoài ra hệ thống đặc biệt nổi trội khi tổng hợp được với nhiều ngôn ngữ khác nhau (tiếng Anh, tiếng Trung, tiếng Nhật), có thể dễ dang thay đổi đặc trưng giọng. Các giải pháp này mở ra khả năng ững dụng to lớn so với các hệ thống TTS truyền thống đang có trên thị trường: Thuyết minh lồng tiếng đa giọng/đa ngữ điệu, hệ thống thông báo bằng tiếng nói đa dạng ngữ điệu/ngôn ngữ, truyện đọc truyền cảm hơn với đa ngữ điệu theo từng nhân vật.