Truy cập Internet Python bằng Urllib.Request và urlopen ()

Mục lục:

Anonim

Urllib là gì?

urllib là một mô-đun Python có thể được sử dụng để mở URL. Nó xác định các chức năng và lớp để trợ giúp trong các hành động URL.

Với Python, bạn cũng có thể truy cập và lấy dữ liệu từ internet như XML, HTML, JSON, v.v. Bạn cũng có thể sử dụng Python để làm việc trực tiếp với dữ liệu này. Trong hướng dẫn này, chúng ta sẽ xem cách chúng ta có thể lấy dữ liệu từ web. Ví dụ: ở đây chúng tôi đã sử dụng URL video guru99 và chúng tôi sẽ truy cập URL video này bằng Python cũng như in tệp HTML của URL này.

Trong hướng dẫn này, chúng ta sẽ học

  • Cách mở URL bằng Urllib
  • Cách đọc tệp HTML cho URL của bạn bằng Python

Cách mở URL bằng Urllib

Trước khi chúng tôi chạy mã để kết nối với dữ liệu Internet, chúng tôi cần nhập câu lệnh cho mô-đun thư viện URL hoặc "urllib".

  • Nhập urllib
  • Xác định chức năng chính của bạn
  • Khai báo webUrl biến
  • Sau đó gọi hàm urlopen trên thư viện lib URL
  • URL chúng tôi đang mở là hướng dẫn guru99 trên youtube
  • Tiếp theo, chúng ta sẽ in mã kết quả
  • Mã kết quả được truy xuất bằng cách gọi hàm getcode trên biến webUrl mà chúng tôi đã tạo
  • Chúng tôi sẽ chuyển đổi nó thành một chuỗi, để nó có thể được nối với chuỗi "mã kết quả" của chúng tôi
  • Đây sẽ là mã HTTP thông thường "200", cho biết yêu cầu http được xử lý thành công

Cách lấy URL biểu mẫu tệp HTML bằng Python

Bạn cũng có thể đọc tệp HTML bằng cách sử dụng "hàm đọc" trong Python và khi bạn chạy mã, tệp HTML sẽ xuất hiện trong bảng điều khiển.

  • Gọi hàm đọc trên biến webURL
  • Biến đọc cho phép đọc nội dung của tệp dữ liệu
  • Đọc toàn bộ nội dung của URL thành một biến được gọi là dữ liệu
  • Chạy mã- Nó sẽ in dữ liệu sang định dạng HTML

Đây là mã hoàn chỉnh

Ví dụ Python 2

## read the data from the URL and print it#import urllib2def main():# open a connection to a URL using urllib2webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")#get the result code and print itprint "result code: " + str(webUrl.getcode())# read the data from the URL and print itdata = webUrl.read()print dataif __name__ == "__main__":main()

Ví dụ Python 3

## read the data from the URL and print it#import urllib.request# open a connection to a URL using urllibwebUrl = urllib.request.urlopen('https://www.youtube.com/user/guru99com')#get the result code and print itprint ("result code: " + str(webUrl.getcode()))# read the data from the URL and print itdata = webUrl.read()print (data)