MuST-C: kho tàng ngữ liệu dịch nói

MuST-C: kho tàng ngữ liệu dịch nói

MuST-C: kho tàng ngữ liệu dịch nói

Giới thiệu về MuST-C

MuST-C (Multilingual Speech Translation Corpus) là một kho tàng ngữ liệu lớn, trải rộng trên nhiều lĩnh vực. Dữ liệu thu thập hiện chỉ được trích xuất từ các bài thuyết trình của TED, bao gồm ba dạng là âm thanh, văn bản Tiếng Anh và bản dịch sang các ngôn ngữ khác. MuST-C có thể được ứng dụng để xây dựng mô hình dịch thuật trực tiếp từ ngôn ngữ gốc dưới dạng âm thanh sang ngôn ngữ đích dưới dạng văn bản. Công cụ này có thể chuyển ngữ nội dung sang 8 thứ tiếng, với cơ sở dữ liệu âm thanh đã dịch của mỗi ngôn ngữ lên tới 504 giờ.

Công nghệ dịch máy đã cho thấy bước tiến ngoạn mục trong vài năm qua, biến các công cụ dịch thuật trực tuyến trở thành trợ lý đắc lực trong cuộc sống hàng ngày. Dù rất hữu dụng trong việc dịch văn bản, nhưng các công cụ tự động vẫn chưa “đủ thuyết phục” để có thể xử lý nội dung dạng âm thanh. Nguyên nhân nằm ở cấu trúc của hệ thống dịch nói (spoken language translation – SLT). Hệ thống này được tích hợp công nghệ tự động nhận biết giọng nói (automatic speech recognition – ASR) và dịch máy (Machine Translation – MT). 

ASR có thể mắc lỗi, dù đang ngày càng hoàn thiện nhờ vào sự phát triển công nghệ AI, dẫn đến sự khác biệt đáng kể giữa dữ liệu đầu vào và câu nói thực tế. Hệ quả là, bản dịch có thể mang ý nghĩa khác hẳn với nghĩa ban đầu, ví dụ:

  • Nhận biết lời nói → Phá hủy bãi biển đẹp
  • Ghép một phổi → Hát về ca cấy ghép dài

Có nhiều giải pháp khả thi khác nhau đang được nghiên cứu và phát triển để giúp giảm thiểu sai sót:

Cải thiện AS

Phương án 1: Thiết kế chương trình dịch máy nhằm ứng phó với các sai lỗi của ASR

Phương án 2: Tránh tình trạng bỏ sót trong hệ thống ASR thông qua phương pháp tiếp cận đầu cuối trực tiếp

Phương án đầu tiên cũng chính là phương án hiển nhiên nhất. Trong lúc bạn đọc bài viết này, hàng trăm nhà nghiên cứu có lẽ đang nỗ lực để cải thiện ASR. Phương án thứ hai nghe có vẻ thú vị, nhưng liên tục sửa chữa những sai sót như trong ví dụ trên là nhiệm vụ bất khả thi đối với sức người. Do đó, chúng ta sẽ nói về phương án dịch thuật đầu cuối, chủ đề nghiên cứu mới nhất trong hai phương án trên. Phương pháp này được phát triển dựa trên ý tưởng hết sức đơn giản: phụ đề không thể có sai sót nếu nó không tồn tại.

Dịch nói đầu cuối được xây dựng dựa trên mô hình học tập sâu theo trình tự, có khả năng xử lý các hàm phức tạp với độ chính xác cao, nhưng đòi hỏi lượng dữ liệu lớn. Do sự khan hiếm dữ liệu đào tạo dùng cho SLT, hiệu quả của phương pháp tiếp cận đầu cuối hiện vẫn còn thua xa phương pháp tích hợp ASR và MT, vốn sở hữu các nguồn lực sẵn có từ cả hai công nghệ này.

MuST-C (Kho tàng ngữ liệu dịch nói) đại diện cho những đóng góp mới nhất của đội ngũ phát triển công cụ dịch máy tại Fondazione Bruno Kessler trong việc giải quyết vấn đề này. MuST-C là kho ngữ liệu được xây dựng tự động từ các bài thuyết trình Tiếng Anh của TED. Phiên bản hiện nay của MuST-C bao gồm phụ đề của các bài thuyết trình và bản dịch phụ đề sang 8 ngôn ngữ: Hà Lan, Pháp, Đức, Ý, Bồ Đào Nha, Rumani, Nga và Tây Ban Nha.

Cách xây dựng MuST-C

MuST-C được tạo ra bằng phương pháp được lấy cảm hứng từ công tác xây dựng Librispeech Tăng cường, kho ngữ liệu mở rộng của Librispeech dành cho công cụ dịch thuật ASR từ Tiếng Anh sang Tiếng Pháp.

Hành trình bắt đầu từ một “đống hỗn độn” tất cả các bài thuyết trình mà TED đã đăng tải cho đến tháng 4 năm 2018. Đi kèm mỗi đoạn video là phần phụ đề và bản dịch ra nhiều thứ tiếng do con người thực hiện. Tất cả bản dịch đều được thực hiện bởi các tình nguyện viên với quy trình dịch không mang tính tập trung. Nói cách khác, mỗi video sẽ chỉ được dịch sang ngôn ngữ đích nếu tình nguyện viên cảm thấy hứng thú. Hệ quả chính là các ngôn ngữ khác nhau có số lượng video được dịch khác nhau. Hệ quả thứ hai là tính sẵn có của các bản dịch tăng theo thời gian.

Để xây dựng kho ngữ liệu, từng câu văn trong ngôn ngữ đích được sắp xếp tương ứng với câu tiếng Anh bằng công cụ Gargantua. Sau đó, tài liệu tiếng Anh được sắp xếp tương ứng với các phân đoạn âm thanh. Quá trình gỡ băng và dịch thuật có thể mắc lỗi, và dù có độ chính xác cao, nhưng các công cụ tự động không hoàn hảo. Vì vậy, do chất lượng sắp xếp là ưu tiên hàng đầu trong việc xây dựng kho ngữ liệu chất lượng cao, hai bộ lọc được áp dụng để loại bỏ bản dịch chất lượng quá thấp cùng hai dạng bản gốc tương ứng. Bộ lọc đầu tiên loại bỏ tất cả các bài thuyết trình không thể xác định tối thiểu 15% số từ. MuST-C không cung cấp tài nguyên cho các cuộc hội thoại đa chiều và chỉ bao gồm những bài thuyết trình mà hệ thống ASR tiên tiến có thể xử lý ở mức tương đối tốt.

Bộ lọc thứ hai được áp dụng ở cấp phân đoạn nhằm loại bỏ các phân đoạn không thể xác định bất kỳ từ nào. Do đó, nếu bạn sử dụng MuST-C, hãy lưu ý rằng một số bài thuyết trình không bao gồm nội dung đầy đủ. Cách làm này duy trì độ chính xác cao và không phải là một sai lỗi.

Một số thống kê

Kho ngữ liệu dịch nói hỗ trợ dịch thuật đa ngôn ngữ là kết quả của quá trình trích xuất. Cơ sở dữ liệu âm thanh đã dịch của cặp ngôn ngữ Anh-Bồ Đào Nha gồm 385 giờ. Đây là con số thấp nhất trong các cặp, nhưng vẫn cao hơn 40% so với kho ngữ liệu lớn nhất từng được công bố trước đây: kho ngữ liệu Anh-Đức IWSLT gồm 273 giờ dịch TED, được thiết kế dựa trên một hệ thống khác. Cơ sở dữ liệu Anh-Tây Ban Nha lớn nhất gồm hơn 500 giờ dịch nói.

Trong báo cáo NAACL 2019, một mô hình xây dựng dựa trên bộ dữ liệu IWSLT được so sách với chính mô hình đó nhưng dựa trên kho ngữ liệu Anh-Đức của MuST-C, mỗi cơ sở dữ liệu chỉ bao gồm một tập con cho một bài thuyết trình. Trên thực tế, do kho ngữ liệu của MuST-C lớn hơn của IWSLT, sử dụng tất cả dữ liệu trong so sánh sẽ là khập khiễng. Hiệu quả của MuST-C trong hệ thống ASR và SLT cao hơn rất nhiều, với điểm WER trong ASR giảm 10 đơn vị và điểm BLEU đối với SLT tăng khoảng +50%. Thuật toán sắp xếp trong MT nhất quán hơn, kéo theo kết quả cải thiện thấp hơn (+3.31 BLEU).

Báo cáo cũng trình bày kết quả SLT cơ bản theo từng ngôn ngữ đích. Bên cạnh các biến động thường gặp trong quá trình tối ưu hóa mô hình tư duy cho từng ngôn ngữ, khác biệt về hiệu suất còn phù hợp với: i) độ khó tương đối của từng ngôn ngữ đích (ví dụ, tiếng Nga khó hơn do thường xuyên biến đổi) và ii) số lượng biến số về dữ liệu đào tạo sẵn có (ví dụ, bộ dữ liệu tiếng Pháp là lớn nhất). Nhìn chung, những khác biệt có thể giải thích này cho thấy phương pháp xây dựng kho ngữ liệu mang lại chất lượng đồng nhất trên tất cả các ngôn ngữ trong MuST-C.

Triển vọng tương lai của MuST-C

Dựa vào những thống kê trên, có thể khẳng định MuST-C là ứng viên có khả năng thúc đẩy nghiên cứu SLT, đặc biệt là đối với các phương pháp tiếp cận đầu cuối. Ngoài ra, phương pháp đang áp dụng có thể dễ dàng mở rộng sang nhiều cặp ngôn ngữ khác, giúp tăng số lượng bản dịch TED. Nhờ đó, dù phiên bản đầu tiên của MuST-C đã cho thấy sự cải thiện đáng kể về tính khả dụng của bộ dữ liệu, nhưng ngay từ bây giờ đội ngũ phát triển đã bắt tay vào thực hiện phiên bản mở rộng với dữ liệu và ngôn ngữ đích đa dạng hơn.

Hành trình dịch thuật ngôn ngữ nói đầu cuối chỉ mới bắt đầu!