Xin chào tất cả các bạn độc giả, đây là bài hướng dẫn đầu tiên trong series hướng dẫn mang tên: Selenium không khó được hướng dẫn bởi Lập trình không khó. Đây là series hướng dẫn Selenium dưới góc nhìn của một data engineer, lập trình viên, giúp các bạn có thể sử dụng thuần thục Selenium phục vụ một số công việc chính sau:
- Xây dựng các phần mềm tự động trên trình duyệt
- Thu thập dữ liệu từ các website phục vụ cho công việc
Tuy nhiên, bất kỳ ai có mong muốn học và sử dụng được Selenium đều có thể bắt đầu với series Selenium không khó này. Bởi mục đích của loạt bài hướng dẫn này là giúp bạn biết cách dùng Selenium mà.
Ở bài viết đầu tiên này, mình sẽ giúp các bạn cài đặt môi trường để bắt đầu làm việc với Selenium nhé. Để giúp cho việc học trở nên đơn giản và hiệu quả nhất. Mình sẽ quyết định sử dụng ngôn ngữ Python để viết code trong series này. Selenium hỗ trợ đa ngôn ngữ và có cú pháp các hàm giống nhau(mình đã thử cả với java và python nên có kết luận này). Do đó, nếu bạn có sử dụng ngôn ngữ khác thì những ý tưởng thực hiện, hay thậm chí là các hàm của Selenium là tương tự nhau ở mọi ngôn ngữ.
Như vậy, các công việc mà chúng ta cần làm trong bài này bao gồm:
- Cài đặt môi trường lập trình Python
- Cài đặt môi trường sử dụng Selenium
- Chạy thử chương trình đầu tiên
1. Cài đặt môi trường lập trình Python
Trong phần này, mình sẽ hướng dẫn cài đặt môi trường Python cho cả hệ điều hành Linux lẫn Windows. Do đó, bạn chỉ cần thực hiện phần công việc của hệ điều hành mà bạn đang sử dụng.
Sau khi cài đặt môi trường tương ứng với từng hệ điều hành xong, các bạn hãy tải và cài đặt PyCharm IDE. Đây là IDE chạy được cả trên Linux lẫn Windows.
Cài đặt Python trên Windows
Việc cài đặt Python trên windows rất đơn giản. Bạn hãy vào trang https://www.python.org/downloads/ để download phiên bản Python mà bạn muốn cài. Mình khuyên các bạn sử dụng Python phiên bản mới nhất(đang là 3.7.3 khi mình viết bài). Đặc biệt lưu ý không cài Python 2 nhé
Sau khi tải file cài đặt về thì bạn cài bình thường như các phần mềm khác. Nhưng hãy nhớ tick vào ô “Add python 3.x to PATH” như hình dưới đây.
Lưu ý khi cài đặt python trên windowsSau khi cài đặt xong, hãy chắc chắn bạn cài đặt thành công bằng cách kiểm tra cài đặt ở mục phía dưới.
Cài đặt Python trên Linux
Mặc định hệ điều hành Linux chỉ có Python 2(phiên bản đã ngừng phát triển). Do đó, bạn nên cài Python 3 để sử dụng. Cách cài như sau:
Mở Terminal(Phím tắt Ctrl + Alt + T) và chạy các command sau:
sudo apt-get update sudo apt-get -y upgrade sudo apt-get install -y python3-pip sudo apt-get install build-essential libssl-dev libffi-dev python-dev
Như vậy là hoàn thành. Hãy kiếm tra cài đặt đã thành công chưa ở phía dưới đây.
Hãy chắc chắn bạn đã cài thành công Python
Sau khi cài đặt xong, hãy kiểm tra chắc chắn bạn đã cài đặt Python thành công. Bạn hãy mở CMD trên windows(Nhấn tổ hợp Windows + R => Gõ cmd => Enter). Hoặc Terminal trên Linux và gõ 2 lệnh như hình dưới đây:
lap60313@lap60313:~$ python -V Python 3.6.7 lap60313@lap60313:~$ pip -V pip 19.0.3 from /home/lap60313/.local/lib/python3.6/site-packages/pip (python 3.6)
Nếu không có lỗi gì và có thông tin phiên bản Python bản vừa cài thì thành công rồi nhé. Giờ bạn có thể chuyển sang mục 2.
Cài đặt PyCharm IDE
Để phục vụ cho việc code Python được thuận lợi, chúng ta sẽ sử dụng PyCharm IDE. Các bạn chỉ cần vào trang chủ của họ để tải bản cài đặt tương ứng với hệ điều hành của bạn.
PyCharm IDE Community là phiên bản miễn phí cho mọi người dùng. Việc cài đặt cực kỳ đơn giản nên mình sẽ không hướng dẫn nữa.
Link tới trang download: https://www.jetbrains.com/pycharm/download/
2. Cài đặt môi trường sử dụng Selenium
Selenium là một trình duyệt cho phép bạn thực hiện các công việc tự động hóa ở trên đó. Hầu hết các thao tác trên trình duyệt mà bạn làm được thì Selenium đều có thể làm được và cho phép bạn dùng code để điều khiển trình duyệt này.
Đây là trang chủ của Selenium: https://www.seleniumhq.org/
Cài đặt Selenium với Python
Việc cài đặt Selenium với ngôn ngữ Python cực kỳ đơn giản, bạn chỉ cần chạy command sau:
pip install selenium
Nếu bạn sử dụng PyCharm thì bạn nên chạy command này ở Terminal trong Project của bạn nhé. Vì có thể bạn dùng Python virtualenv.
Tải Selenium WebDriver
Các bạn nên dùng WebDriver FireFox hoặc Chrome. Trong series này mình sẽ dùng FireFox driver(geckodriver) nhé.
Bạn chỉ cần tải một trong 2 driver nói trên. Khi tải nhớ chọn đúng phiên bản ứng với hệ điều hành bạn đang sử dụng nhé:
- FireFox Driver: https://github.com/mozilla/geckodriver/releases
- Chrome Driver: http://chromedriver.chromium.org/downloads
Sau khi tải về, các bạn giải nén ra sẽ được 1 file duy nhất. Bây giờ việc thiết lập sẽ có đôi chút khác với từng hệ điều hành:
Với Linux:
Bạn cần copy file đó vào trong /usr/local/bin
. Bạn làm như sau:
sudo mv -f ~/chromedriver /usr/local/bin/chromedriver # Set quyền cho file với user root (tùy chọn) sudo chown root:root /usr/local/bin/chromedriver # Set quyền sudo chmod 0755 /usr/local/bin/chromedriver # Với FireFox driver bạn cũng làm y như trên nhé
Với Windows:
Cách đơn giản nhất là bạn copy file này vào cùng thư mục với code python của bạn. Kiểu như này:
--Project_dir |____ geckodriver |____ auto_script.py
Ở đây geckodriver là tên của FireFox Driver, với Chrome driver cũng làm tương tự.
3. Chương trình đầu tiên sử dụng Selenium
Để đảm bảo bạn đã làm chính xác 2 bước phía trên. Bây giờ các bạn giúp mình tạo một file hello_world.py và copy đoạn code sau vào chạy thử nhé.
from selenium import webdriver from time import sleep class HelloSelenium: def __init__(self, url): self.driver = webdriver.Firefox() self.driver.get(url) def get_site_info(self): print('URL:', self.driver.current_url) print('Title:', self.driver.title) sleep(5) self.driver.save_screenshot('screen_shot.png') if __name__ == '__main__': hello = HelloSelenium('https://nguyenvanhieu.vn') hello.get_site_info() # Close driver hello.driver.close()
Sau khi chạy xong, trên console output sẽ in ra thông tin: website url và website title như sau:
/home/lap60313/sources/python/hello_selenium/venv/bin/python /home/lap60313/sources/python/hello_selenium/hello_world.py URL: https://nguyenvanhieu.vn/ Title: Lập Trình Không Khó - Tự học lập trình cùng "Lập Trình NOT Khó"
Đồng thời, thư mục chứa code sẽ có một file ảnh chụp màn hình website có tên là `screen_shot.png`
Như vậy, mình sẽ kết thúc bài hướng dẫn đầu tiên ở đây. Xin chào và hẹn gặp lại các bạn!
Để lại một bình luận