Xóa dấu tiếng Việt trong Java, JS, Python

Bài số 27 trong 28 bài của khóa học Python Không Khó

Trong quá trình triển khai các dự án, đôi khi bạn muốn xóa dấu tiếng việt của một câu văn bản bất kỳ. Chẳng hạn một bài toán đơn giản là bài toán tạo url cho bài viết từ tiêu đề của bài viết. Trong bài này mình xin chia sẻ một số cách đơn giản nhất để có thể xóa dấu tiếng việt từ một chuỗi văn bản bất kỳ nha.

Ý tưởng xóa dấu tiếng việt

Việc xóa dấu tiếng việt là không quá khó, bởi trong tiếng việt thực tế chỉ có 6 nguyên âm có thể có chứa dấu. Dưới đây là danh sách đã qua xử lý lowercase.

Như vậy, bạn chỉ việc thay thế từng hàng ở trên với ký tự không có dấu tương ứng của chúng là xong. Cách đơn giản nhất để làm việc này là sử dụng vài dòng regex.

Sau đây mình sẽ demo code xóa dấu tiếng Việt trong Python, các ngôn ngữ khác cũng với ý tưởng tương tự thôi.

Code Xóa dấu tiếng Việt

Sau đây là script xóa dấu tiếng việt ở một số ngôn ngữ mình cài đặt cũng như tham khảo.

Xóa dấu tiếng việt trong Python

Bạn có thể tự cài đặt như ý tưởng mình nói ở trên, như sau:

Hoặc có cách đơn giản hơn là dùng thư viện :v

Sử dụng Javascript

Xóa dấu tiếng Việt trong Java

 

Các bài viết trong khóa họcBài trước: Hàm Map, Filter và Lambda trong PythonBài sau: Xử lý tiếng Việt trong Python
Subscribe
Notify of
guest
0 Bình luận
Inline Feedbacks
View all comments