Làm thế nào các ngôn ngữ châu Phi đang đi kỹ thuật số

10 LÝ DO BẠN NÊN ĐI DU HỌC (Tháng Sáu 2019).

Anonim

Số hóa ngôn ngữ Châu Phi là một quá trình phức tạp nhưng cần thiết. Giờ đây, các công ty nghiên cứu và công nghệ thông tin từ khắp nơi trên thế giới đang làm việc cùng nhau để tích hợp các ngôn ngữ mới thành nhiều dạng phần mềm và công nghệ khác nhau.

Mặc dù có hàng ngàn ngôn ngữ được sử dụng trên toàn thế giới (nhiều trong số này chỉ có ở châu Phi), một số ít, giống như tiếng Anh, vẫn còn phổ biến - đặc biệt là khi nói đến các công cụ và công nghệ kỹ thuật số. Cho đến gần đây, các công cụ dịch thuật, chính tả và ngữ pháp chủ yếu hướng đến các ngôn ngữ chính của phương Tây. Sự tập trung này đang bắt đầu thay đổi, mặc dù từ từ, để làm cho nhiều ngôn ngữ châu Phi kỹ thuật số hơn.

Phát triển công nghệ ngôn ngữ của con người

Ngôn ngữ bản địa châu Phi trong lịch sử đã không nhận được sự công nhận tương tự khi nó đi đến hội nhập công nghệ. Tuy nhiên, khi công nghệ tiếp tục thâm nhập vào các thị trường châu Phi mới, nhiều công ty đang thấy cần phải cải thiện Công nghệ Ngôn ngữ Nhân văn (HLT) trên lục địa. Điều này là rất quan trọng cho cả phát triển công nghệ liên tục, và bảo tồn nền tảng của các nền văn hóa trong kỷ nguyên số.

Theo Đại học Arizona, ngôn ngữ và công nghệ thông tin đáp ứng trên toàn thế giới một cách thường xuyên, do đó cần nghiên cứu và phát triển thành thạo: “Ngôn ngữ bất cứ nơi nào tiếp xúc với công nghệ thông tin, hoặc nơi con người cần tương tác với máy tính, nhu cầu ngôn ngữ được (có tổ chức) để nó có thể được xử lý và xử lý bằng các phương tiện tính toán. Điều này thường đòi hỏi kiến ​​thức rộng không chỉ về ngôn ngữ học và cách ngôn ngữ hoạt động, mà còn về khoa học máy tính và các lĩnh vực liên quan. ”

Người khổng lồ công nghệ đầu tư vào các ngôn ngữ châu Phi

Kết quả là, nhiều tập đoàn lớn, bao gồm những gã khổng lồ công nghệ như Facebook và Google, đang đầu tư vào HLT cho các ngôn ngữ châu Phi (nếu chỉ để tăng khả năng tiếp cận và lợi nhuận của thị trường). Những thay đổi đáng chú ý đầu tiên đến dưới dạng khả năng sử dụng Google bằng nhiều ngôn ngữ châu Phi khác nhau. Một số công ty, chẳng hạn như Microsoft, cũng kết hợp các ngôn ngữ châu Phi vào trình kiểm tra chính tả và các công cụ ngữ pháp.

Tuy nhiên, vẫn còn thiếu sót nghiêm trọng và rất nhiều công việc cần phải được thực hiện. Như nhà nghiên cứu Maria Keet chỉ ra, để tích hợp các ngôn ngữ mới với công nghệ một cách chính xác và có ý nghĩa nhiều hơn là chỉ cần chuyển đổi, và thay vào đó yêu cầu một cách tiếp cận tích hợp: “Điểm tìm kiếm trên Web là gì, (tiếng Nam Phi) isiXhosa khi chỉ có một vài tài liệu trực tuyến trong isiXhosa và thuật toán của công cụ tìm kiếm không thể xử lý các từ đúng cách, do đó, không trả lại kết quả bạn đang tìm kiếm? ”

Phức tạp hơn nó xuất hiện

Keet nhấn mạnh sự cần thiết của các công cụ xử lý văn bản để kết hợp các ngôn ngữ như thế này vào bộ kiểm tra chính tả để hỗ trợ tất cả mọi người - từ trẻ em đến các chuyên gia - viết giấy tờ, tài liệu, tin nhắn và email bằng tiếng mẹ đẻ của họ.

Việc số hóa bất kỳ ngôn ngữ nào phức tạp và cần phải nghiên cứu và thử nghiệm rộng rãi trước khi đạt đến giai đoạn thực hiện tự động. Ngôn ngữ châu Phi cũng đòi hỏi nhiều công việc hơn tiếng Anh.

Trong khi các quy tắc cú pháp cơ bản đã được sử dụng để số hóa ngôn ngữ tiếng Anh, nhiều ngôn ngữ châu Phi bao gồm các câu phụ thuộc nhiều vào ngữ cảnh, có các động từ phức tạp và cấu trúc câu, và do đó không dễ dàng mở các công cụ tự động bằng dữ liệu có cấu trúc.

Kết quả là, các nhà nghiên cứu phải xây dựng các công cụ ngữ pháp để tạo ra các câu cơ bản. Chúng chạy các thuật toán phức tạp rút ra từ các văn bản hiện có, và điều này mang đến một loạt các vấn đề bổ sung.

Cho ăn các văn bản hiện có

Tại cốt lõi của tất cả các ngôn ngữ kỹ thuật số học tập là văn bản hiện có và các thuật toán nguồn cấp dữ liệu trên này. Định vị và đối chiếu, các văn bản này rất khó đối với nhiều ngôn ngữ châu Phi, do thiên vị lịch sử đối với các ngôn ngữ phương Tây khi nói đến xuất bản.

Bất chấp những khó khăn, các tổ chức trên khắp lục địa đang bắt đầu xác định và chia sẻ các tài liệu ngôn ngữ bản địa chất lượng cao không chỉ bao gồm chính tả và ngữ pháp chính xác mà còn đủ hiện đại để được xem là có liên quan ngày nay. Nếu không có bối cảnh văn hóa này, các thuật toán phần mềm sẽ có nguy cơ bị thiếu chính xác và không nhạy cảm, và phân biệt chủng tộc hoàn toàn là tồi tệ nhất.

Dữ liệu lớn và nỗ lực kết hợp

Phần lớn quy trình, do đó, dựa vào dữ liệu lớn và nỗ lực kết hợp từ nhiều bên khác nhau, từ các nhà nghiên cứu đến những người khổng lồ công nghệ. Như một số tổ chức xác định các văn bản có liên quan, các chuyên gia ngôn ngữ châu Phi làm việc trên các thuật toán có thể dịch chúng một cách chính xác. Các công ty công nghệ sau đó tích hợp chúng vào các dự án hiện có và giúp phát triển các công cụ mới để hỗ trợ những người cần chúng nhất.

Và họ đã đạt được tiến bộ - một số kiểm tra chính tả ngôn ngữ châu Phi hiện đang đạt được tỷ lệ chính xác lên đến 80%, theo một nghiên cứu.

Mặc dù quá trình số hoá ngôn ngữ châu Phi là phức tạp, và đòi hỏi sự hợp tác của một số cá nhân và tổ chức quan trọng, tác động này đang vươn xa. Mặc dù nó chắc chắn sẽ đóng một vai trò quan trọng trong việc bảo tồn văn hóa, học hành và cuộc sống hàng ngày của những người sử dụng các công cụ kỹ thuật số, các nhánh ở mức cơ bản nhất cũng rất lớn - nó sẽ có tác động trực tiếp đến chất lượng cuộc sống, đặc biệt trong các lĩnh vực chẳng hạn như chăm sóc sức khỏe, vì tiến bộ công nghệ có thể giúp phá vỡ rào cản ngôn ngữ giữa các bác sĩ và bệnh nhân.