NGHIÊN CỨU MỘT SỐ KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN ThS: Thái Đông Hồ

19/03/2021 09:13:39 | Người đăng tin: ntnha
Tóm tắt—Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết. Đối với ngôn ngữ tiếng Việt ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy khi phân tích ngôn ngữ này vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Có nhiều phương pháp được áp dụng vào bài toán tách từ như: phương pháp so khớp cực đại, phương pháp mô hình MarKov ẩn, phương pháp chuyển dịch trạng thái hữu hạn có trọng số, phương pháp so khớp từ dài nhất,… Trong bài báo này, tôi đề xuất mô hình tách từ trong ngôn ngữ tự nhiên dựa vào phương pháp so khớp cực đại. Phương pháp đề xuất của tôi được thực nghiệm trên phần mềm Vntokenizer để minh họa cho phương pháp so khớp cực đại. Kết quả từ phần mềm có thể áp dụng nghiên cứu cho bài toán phân loại văn bản.