Trích rút từ khóa là một trong những phương pháp đơn giản nhất giúp cho việc phân tích & khai thác các giá trị từ dữ liệu văn bản. Bài toán trích rút từ khóa (tiếng anh: Keyword Extraction hoặc Keyphare Extraction) là quá trình tự động trích rút ra các từ khóa/ thuật ngữ […]
Học Python
Top 5 website học Python miễn phí tốt nhất
Trong bài viết này, Lập trình không khó sẽ cung cấp cho bạn 5 website học python tốt nhất miễn phí mà nội dung giáo trình đảm bảo hơn bất kỳ khóa học mất phí nào. Các bạn chỉ cần chọn ra cho mình một website học python mà bạn ưng ý và cày cuốc […]
Cách Python tối ưu bộ nhớ khi lưu chuỗi (string)
Kể từ phiên bản Python 3, kiểu chuỗi str trong Python sử dụng bảng mã Unicode. Các chuỗi Unicode có thể chiếm tới 4 byte cho mỗi ký tự tùy thuộc bộ mã hóa (encoding). Điều này dẫn tới vấn đề tốn kém bộ nhớ hơn rất nhiều. Trong bài viết này, Lập Trình Không […]
Phân loại văn bản tiếng Việt sử dụng machine learning
Phân loại văn bản (Text classification) là một bài toán phổ biến trong xử lý ngôn ngữ tự nhiên (Nature language processing). Đối với phân loại văn bản tiếng Việt, sẽ có đôi chút khác biệt so với phân loại văn bản tiếng anh. Trong bài viết này, Lập Trình Không Khó (LTKK) sẽ hướng […]
Beam search là gì? Vai trò của beam search trong NLP
Thuật toán beam search là một thuật toán tìm kiếm heuristic. Nó được sử dụng trong các bài toán như dịch máy, nhận dạng giọng nói, tóm tắt văn bản,… Đó là các bài toán NLP có đầu ra liên quan đến việc tạo một chuỗi các từ. Trong bài viết này, LTKK sẽ cùng […]