Chuyên mục
Đang trực tuyến : | 6408 |
Tổng truy cập : | 57,998 |
Thông tin kết quả nhiệm vụ KH&CN
Phát triển hệ thống dịch đa ngữ giữa tiếng Việt và một số ngôn ngữ khác (12/03/2025)
Hiện nay do hội nhập quốc tế, Việt Nam và ngày càng nhiều nước trên thế giới có quan hệ ngoại giao và kinh tế ở tầm sâu rộng. Hơn nữa, nhiều công ty của các nước sang đầu tư tại Việt Nam và ngược lại rất nhiều công ty Việt Nam sang đầu tư ở nước khác nên lượng văn bản song ngữ giữa Việt Nam và các nước khác ngày càng lớn, hơn nữa nguồn nhân lực phiên dịch khan hiếm và giá thành dịch thuật rất cao (đặc biệt với các ngôn ngữ Nhật, Trung, Lào, Khmer,…). Do vậy, việc có hệ dịch tự động từ tiếng Việt Nam ra các ngôn ngữ khác và ngược lại là rất cần thiết. Trước thực tế đó, Trường Đại học Công nghệ (Đại học Quốc gia Hà Nội) chủ trì thực hiện đề tài Phát triển hệ thống dịch đa ngữ giữa tiếng Việt và một số ngôn ngữ khác, TS. Nguyễn Văn Vinh làm chủ nhiệm.
Khái quát về các phương pháp sử dụng hệ dịch đa ngữ cho ngôn ngữ hạn chế tài nguyên.
Mục tiêu của đề tài là nghiên cứu làm chủ công nghệ dịch máy dịch văn bản đa ngữ tiếng Việt và ngôn ngữ khác; phát triển phương pháp thu thập kho ngữ liệu song ngữ cho các cặp ngôn ngữ; xây dựng kho ngữ liệu song ngữ cho các cặp ngôn ngữ Việt - Trung, Việt - Lào, Việt - Khmer; xây dựng phương pháp dịch máy cho các cặp ngôn ngữ có tài nguyên hạn chế và thử nghiệm trên cặp ngôn ngữ Việt - Lào và Việt - Khmer; xây dựng hệ thống dịch máy Client - Server và ứng dụng trong một số lĩnh vực cụ thể.
Nghiên cứu về hệ thống dịch văn bản đa ngữ, sử dụng mô hình dịch máy mạng nơ-ron cho thấy, phương pháp này cần một mô hình dịch máy duy nhất để dịch những cặp ngôn ngữ trong dữ liệu huấn luyện và các cặp ngôn ngữ không xuất hiện trong dữ liệu huấn luyện. Kết quả thực nghiệm cho thấy phương pháp này có khả năng nâng cao chất lượng cho các cặp ngôn ngữ ít tài nguyên và là một giải pháp hứa hẹn cho các cặp ngôn ngữ không có tài nguyên hoặc có tài nguyên hạn chế. Tuy nhiên chất lượng dịch cho các cặp ngôn ngữ có tài nguyên hạn chế vẫn chưa thực sự tốt, cùng với đó là chất lượng của các cặp nhiều tài nguyên bị giảm sút theo. Do đó, đề tài nghiên cứu và trình bày các công cụ hỗ trợ trong xử lý tiếng Trung, Lào và Khmer.
Nghiên cứu cho thấy, các phương pháp xác định ngôn ngữ là tạo ra một mô hình ngôn ngữ n-gram từ các bộ dữ liệu học cho mỗi ngôn ngữ, với đại diện tiêu biểu là mô hình Tri-gram. Khi muốn xác định ngôn ngữ cho một đoạn văn bản phải xây dựng tập tần suất n-gram cho đoạn văn bản đó rồi so sánh với tập ngôn ngữ mà đã tính toán khi huấn luyện hệ thống. Tương đương với phương pháp trên là phương pháp xác định ngôn ngữ cho đoạn văn bản dựa trên chuỗi Markov. Các mô hình này dự đoán rằng mỗi chữ cái trong bảng chữ cái xảy ra với một xác suất cố định. Một mô hình có thể được tạo ra từ một đoạn văn bản cụ thể bằng cách đếm số lần xuất hiện của mỗi chữ cái trong văn bản đó và sử dụng xác suất của nó để xây dựng kết quả dự đoán khi đưa vào một chuỗi văn bản; giá trị dự đoán này sử dụng để so sánh xem đoạn văn bản này thuộc ngôn ngữ nào. Tương tự phương pháp nêu trên là việc sử dụng Naïve Bayes. Phương pháp này xác định ngôn ngữ cho đoạn văn bản dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học và nhiều lĩnh vực khác trong các công cụ tìm kiếm, các bộ lọc mail,… Phát triển lên từ các phương án trên là phương pháp hỗ trợ vectơ. Ý tưởng của phương pháp là cho trước một tập huấn luyện được biểu diễn trong không gian vectơ, trong đó mỗi một văn bản được xem như một điểm trong không gian này. Cùng với các phương pháp được nêu trên, còn có phương pháp sử dụng các thuật toán thống kê không xây dựng ra các mô hình, tiêu biểu là phương pháp láng giềng gần nhất là phương pháp khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều năm qua. Một phương pháp phân loại khác được gọi là bộ phân loại tích lũy tần số đơn giản hơn có thể được sử dụng thay cho các phương pháp phân loại khác. Phương pháp tương tự là phân loại chuỗi theo quy trình thống kê thứ hạng, khi thực hiện mã hóa xâu từ Unicode, số lượng của N-gram được lưu trữ và đếm số lần xuất hiện. Kết hợp các phương pháp trên, nghiên cứu xây dựng các mô hình dựa theo luật để hỗ trợ đưa ra kết quả phù hợp nhất, ví dụ công cụ Lingua. Một phương pháp đặc biệt được đưa ra là so sánh giá trị nén của văn bản đầu vào với giá trị nén tổng hợp của văn bản trong một tập các ngôn ngữ có thể xác định. Bên cạnh đó, phương pháp sử dụng thuật toán EM để giải quyết các vấn đề xảy ra trong các mô hình n-gram truyền thống như việc không xác định được các đoạn văn bản bên ngoài dữ liệu đã học. Ngoài các phương pháp sử dụng thông tin từ ngữ và N-gram để xác định ngôn ngữ theo cách thông thường không xét đến thứ tự, có thể xét đến thứ tự. Bên cạnh đó, với sự phát triển của các mô hình sử dụng mạng neuron, có thể ứng dụng các phương pháp mới để xây dựng các mô hình và đạt được kết quả tốt hơn. Sự phát triển của mô hình học sâu có thể áp dụng để đạt được kết quả cao nhất và kết hợp với các phương pháp phân lớp thống kê thông thường.
Nghiên cứu cũng xây dựng API xác định ngôn ngữ và công cụ tách từ với phương pháp tách từ tiếng Trung (dựa vào từ vựng, dựa vào tri thức ngôn ngữ) dựa vào công cụ Zpar, tách từ tiếng Lào sử dụng công cụ tách từ tiếng Khmer, công cụ gán nhãn từ loại tiếng Trung và tiếng Lào, tiếng Khmer. Nghiên cứu triển khai thử nghiệm và cho kết quả thử nghiệm đạt trên 90%. Tiếp tục triển khai đề tài, nhóm nghiên cứu đề xuất phương pháp xây dựng kho ngữ liệu với việc thu thập dữ liệu song ngữ, xây dựng công cụ thu thập cơ sở dữ liệu song ngữ và đơn ngữ (công cụ crawler dữ liệu song ngữ, công cụ crawler dữ liệu đơn ngữ, công cụ gióng hàng văn bản, công cụ gióng hàng câu, công cụ quản lý cơ sở dữ liệu song ngữ và đơn ngữ. Trên cơ sở đó, nhóm tác giả xây dựng được kho ngữ liệu song song đa ngôn ngữ chất lượng cao có dóng hàng cầu gồm trên 500.000 cặp câu Việt - Trung, trên 150.000 cặp câu Việt - Lào, trên 150.000 cặp câu Việt - Khmer. Bên cạnh đó, nhóm tác giả đã trình bày tổng quan về kho ngữ liệu song ngữ, đơn ngữ; cách xây dựng kho ngữ liệu song ngữ và đơn ngữ; các kho ngữ liệu song ngữ, đơn ngữ thu được của đề tài và kết quả thống kê trên trên các kho ngữ liệu đó. Có thể khẳng định, đây là các kho ngữ liệu có chất lượng cao bởi được xây dựng theo một quy trình được thiết kế logic, chặt chẽ, nhất quán và bài bản; được xử lý cẩn thận ở tất cả các khâu, từ khâu chọn dữ liệu đầu vào (các website song ngữ có chất lượng), tới khâu xử lý bán tự động (thu thập dữ liệu, gióng hàng văn bản, gióng hàng đoạn, gióng hàng câu) và cuối cùng là khâu gióng hàng thủ công (kiểm tra từng cặp câu bởi các chuyên gia ngôn ngữ). Các kho ngữ liệu này được sử dụng để xây dựng và phát triển các hệ thống dịch máy song ngữ và đa ngữ giữa tiếng Việt với tiếng Trung, tiếng Lào, tiếng Khmer và chia sẻ cho cộng đồng nghiên cứu các ứng dụng trong xử lý ngôn ngữ tự nhiên.
Việc triển khai thử nghiệm và đánh giá các phương pháp được trình bày cho thấy, việc triển khai trên hệ thống itrithuc và nhận được kết quả phân tích từ phía các chuyên gia đánh giá độc lập. Chất lượng hệ thống dịch máy của đề tài cao hơn trung bình trên 12 điểm BLEU so với mức đăng ký xây dựng hệ thống máy đã được phê duyệt. Hệ dịch máy đa ngôn ngữ của đề tài cho chất lượng dịch tốt, bản dịch ngắn gọn, trôi chảy và dễ hiểu. Hệ thống dịch máy này phù hợp để áp dụng rộng rãi trong việ hỗ trợ dịch thuật hai chiều ở các cặp ngôn ngữ Việt Nam – Khmer, Việt Nam – Trung Quốc, Việt Nam – Lào. Hệ thống triển khai trên itrithuc đảm bảo đáp ứng nhu cầu sử dụng liên tục, hạn chết những lỗi gây gián đoạn tới hệ thống, đáp ứng yêu cầu của đề tài. Bên cạnh đó, việc xây dựng tài liệu quản lý và sử dụng hệ thống là vô cùng quan trọng, bởi nó sẽ có ích trong quá trình bảo trì về sau, giúp các quản trị viên dễ dàng phát hiện các vấn đề xoay quanh hệ thống. Ngoài ra, tài liệu quản lý và sử dụng hệ thống sẽ giúp những người mới tiếp cận với hệ thống dễ dàng sử dụng hơn. Đối với các hệ thống sử dụng công nghệ lõi là học sâu thì việc xây dựng tài liệu có phần khác biệt với các hệ thống thông thường vì có liên quan đến cả yếu tố về dữ liệu.
Nghiên cứu cũng tiến hành xây dựng hệ thống dịch đa ngữ và triển khai ứng dụng thử nghiệm tại Đài Tiếng nói Việt Nam, Trường Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia Hà Nội), Công ty TNHH Phần mềm và Giải pháp Sao Khuê, Công ty cổ phần công nghệ VTI. Trong đó, tại Trường Đại học Khoa học Xã hội và Nhân văn đã ứng dụng phần mềm dịch thuật trong việc giảng dạy và đào tạo các sinh viên học tập và nghiên cứu tiếng Trung, tiếng Lào, tiếng Khmer; phối hợp nghiên cứu và phát triển trong việc xây dựng kho dữ liệu song ngữ của đề tài. Tại Công ty TNHH Phần mềm và Giải pháp Sao Khuê, ứng dụng engine dịch do đề tài nghiên cứu và phát triển để cung cấp tiện ích trên hệ thống sahmem.vn; phát triển và cung cấp phần mềm giao tiếp người dùng các dịch vụ dịch thuật cho các đối tác và khách hàng của công ty; tư vấn, hỗ trợ về quy trình, hoàn thiện sản phẩm, trang thiết bị làm việc, hạ tầng lưu trữ và tính toán cho các sản phẩm lõi của đề tài. Tại Công ty cổ phần công nghệ VTI, ứng dụng engine dịch do đề tài nghiên cứu và phát triển để cung cấp tiện ích trên các công việc của công ty như dịch tài liệu Việt sang các ngôn ngữ khác gồm ngôn ngữ tiếng Trung, tiếng Khmer, tiếng Lào; phát triển và cung cấp phần mềm giao tiếp người dùng các dịch vụ dịch thuật cho các đối tác và khách hàng của công ty; tư vấn, hỗ trợ về quy trình, hoàn thiện sản phẩm, trang thiết bị làm việc, hạ tầng lưu trữ và tính toán cho các sản phẩm lõi của đề tài.
Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu tại Trung tâm Thông tin, Thống kê khoa học và công nghệ Hải Phòng./.
- Thiết kế và điều khiển cơ cấu khớp hỗ trợ chi tay trên và một phần bả vai của người... (26/03/2025)
- Nghiên cứu thành phần hóa học có hoạt tính kháng viêm của một số loài thuộc chi Hedera... (24/03/2025)
- Vai trò mạng xã hội trong việc thúc đẩy hành vi du lịch xanh khi chọn điểm đến: Một... (21/03/2025)
- Nghiên cứu tác nhân gây đóm trắng nội tạng cá Nheo mỹ nuôi lồng và biện pháp phòng... (19/03/2025)
- Nghiên cứu cơ sở khoa học và đề xuất phương pháo đánh giá chất lượng bê tông nhựa... (17/03/2025)
- Xây dựng bộ chỉ số phát triển kinh tế bền vững (14/03/2025)