Phân loại văn bản (Text classification) là một bài toán phổ biến trong xử lý ngôn ngữ tự nhiên (Nature language processing). Đối với phân loại văn bản tiếng Việt, sẽ có đôi chút khác biệt so với phân loại văn bản tiếng anh. Trong bài viết này, Lập Trình Không Khó (LTKK) sẽ hướng […]
Data Engineer
Xử lý tiếng Việt trong Python
Trong bài chia sẻ này, Lập Trình Không Khó sẽ trình bày một số kiến thức liên quan tới việc xử lý tiếng Việt trong Python phục vụ cho các bài toán liên quan đến dữ liệu tiếng Việt (có dấu), đặc biệt là các bài toán trong lĩnh vực xử lý ngôn ngữ tự […]
Tự xây dựng hệ thống chặn bình luận rác đơn giản
Bình luận rác (bình luận spam url, bình luận có nội dung khiếm nhã, bình luận có chứa thông tin cá nhân nhạy cảm,…) là vấn đề mà các website từ tin tức, thương mại điện tử, rao vặt, blog,… phải đối mặt hàng ngày. Do đó, nếu chúng ta có thể xây dựng một […]
20+ linux command hữu ích dành cho Data Scientist
Bài viết này của Lập Trình Không Khó sẽ trình bày các linux command hữu ích dành cho dân data scientist. Đây là tổng hợp của bản thân tác giả trong quá trình học tập và làm việc. Danh sách này không bao gồm các command cơ bản của linux như (cd, pwd, ls, ssh, […]
Crawl dữ liệu trang tin tức bất kỳ chỉ với 5 dòng code
Trong thời đại kỷ nguyên số như hiện nay, ai cũng biết rằng dữ liệu internet là một nguồn data dồi dào và phong phú nhất. Mà dữ liệu thì lại chẳng khác gì vàng cả. Người ta còn đo sự giàu có của một công ty dựa trên lượng dữ liệu mà công ty […]