Kể từ phiên bản Python 3, kiểu chuỗi str trong Python sử dụng bảng mã Unicode. Các chuỗi Unicode có thể chiếm tới 4 byte cho mỗi ký tự tùy thuộc bộ mã hóa (encoding). Điều này dẫn tới vấn đề tốn kém bộ nhớ hơn rất nhiều. Trong bài viết này, Lập Trình Không […]
Regex
Phân loại văn bản tiếng Việt sử dụng machine learning
Phân loại văn bản (Text classification) là một bài toán phổ biến trong xử lý ngôn ngữ tự nhiên (Nature language processing). Đối với phân loại văn bản tiếng Việt, sẽ có đôi chút khác biệt so với phân loại văn bản tiếng anh. Trong bài viết này, Lập Trình Không Khó (LTKK) sẽ hướng […]
Xử lý tiếng Việt trong Python
Trong bài chia sẻ này, Lập Trình Không Khó sẽ trình bày một số kiến thức liên quan tới việc xử lý tiếng Việt trong Python phục vụ cho các bài toán liên quan đến dữ liệu tiếng Việt (có dấu), đặc biệt là các bài toán trong lĩnh vực xử lý ngôn ngữ tự […]
Docker là gì? Hướng dẫn chi tiết cách sử dụng Docker
Nếu bạn đang đọc bài viết này chắc hẳn là bạn đang tìm hiểu coi Docker là gì, nó có công dụng gì, cũng như cách dùng nó như thế nào. Nếu đúng như vậy thì mình sẽ không để bạn thất vọng đâu. Bài viết này Lập Trình Không Khó sẽ hướng dẫn những […]
20+ linux command hữu ích dành cho Data Scientist
Bài viết này của Lập Trình Không Khó sẽ trình bày các linux command hữu ích dành cho dân data scientist. Đây là tổng hợp của bản thân tác giả trong quá trình học tập và làm việc. Danh sách này không bao gồm các command cơ bản của linux như (cd, pwd, ls, ssh, […]