Trong hướng dẫn này, bạn sẽ học -
- Cài đặt NLTK trong Windows
- Cài đặt Python trong Windows
- Cài đặt NLTK trong Mac / Linux
- Cài đặt NLTK thông qua Anaconda
- Bộ dữ liệu NLTK
- Cách tải xuống tất cả các gói NLTK
- Chạy Tập lệnh NLP
- Cách chạy tập lệnh NLTK
Cài đặt NLTK trong Windows
Trong phần này, chúng ta sẽ học cách thiết lập NLTK qua terminal (Dấu nhắc lệnh trong windows).
Hướng dẫn đưa ra bên dưới dựa trên giả định rằng bạn chưa cài đặt python. Vì vậy, bước đầu tiên là cài đặt python.
Cài đặt Python trong Windows:
Bước 1) Go để liên kết https://www.python.org/downloads/ , và chọn phiên bản mới nhất cho các cửa sổ.
Lưu ý : Nếu bạn không muốn tải xuống phiên bản mới nhất, bạn có thể truy cập tab tải xuống và xem tất cả các bản phát hành.
Bước 2) Nhấp vào Tệp đã Tải xuống
Bước 3) Chọn Tùy chỉnh cài đặt
Bước 4) Nhấp vào TIẾP THEO
Bước 5) Trong màn hình tiếp theo
- Chọn các tùy chọn nâng cao
- Cung cấp vị trí cài đặt tùy chỉnh. Trong trường hợp của tôi, một thư mục trên ổ C được chọn để dễ vận hành
- Nhấp vào Cài đặt
Bước 6) Nhấp vào Đóng nút sau khi cài đặt xong.
Bước 7) Sao chép đường dẫn của thư mục Scripts của bạn.
Bước 8) Trong dấu nhắc lệnh của windows
- Điều hướng đến vị trí của thư mục pip
- Nhập lệnh để cài đặt NLTK
pip3 install nltk
- Cài đặt sẽ được thực hiện thành công
LƯU Ý : Đối với Python2, hãy sử dụng commandpip2 install nltk
Bước 9) Trong Menu Start của Windows, tìm kiếm và mở PythonShell
Bước 10) Bạn có thể xác minh xem cài đặt có chính xác hay không bằng cách sử dụng lệnh dưới đây
import nltk
Nếu bạn không thấy lỗi, quá trình cài đặt đã hoàn tất.
Cài đặt NLTK trong Mac / Linux
Cài đặt NLTK trong Mac / Unix yêu cầu pip trình quản lý gói python để cài đặt nltk. Nếu chưa cài đặt pip, vui lòng làm theo hướng dẫn bên dưới để hoàn tất quá trình
Bước 1) Cập nhật chỉ mục gói bằng cách gõ lệnh dưới đây
sudo apt update
Bước 2) Cài đặt pip cho Python 3:
sudo apt install python3-pip
Bạn cũng có thể cài đặt pip bằng easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Bây giờ easy_install đã được cài đặt. Chạy lệnh dưới đây để cài đặt pip
sudo easy_install pip
Bước 3) Sử dụng lệnh sau để cài đặt NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Cài đặt NLTK thông qua Anaconda
Bước 1) Vui lòng cài đặt anaconda (cũng có thể được sử dụng để cài đặt các gói khác nhau) bằng cách truy cập https://www.anaconda.com/products/individual và chọn phiên bản python bạn cần cài đặt cho anaconda.
Lưu ý: Tham khảo hướng dẫn này để biết các bước chi tiết để cài đặt anaconda
Bước 2) Trong lời nhắc Anaconda,
- Nhập lệnh
conda install -c anaconda nltk
- Xem lại thông tin nâng cấp gói, hạ cấp, cài đặt và nhập có
- NLTK đã được tải xuống và cài đặt
Bộ dữ liệu NLTK
Mô-đun NLTK có sẵn nhiều bộ dữ liệu mà bạn cần tải xuống để sử dụng. Về mặt kỹ thuật, nó được gọi là kho ngữ liệu . Một số ví dụ là các tệp từ dừng , Gutenberg , framenet_v15 , large_grammars và vân vân.
Cách tải xuống tất cả các gói NLTK
Bước 1) Chạy trình thông dịch Python trong Windows hoặc Linux
Bước 2)
- Nhập các lệnh
import nltknltk.download ()
- Mở cửa sổ đã tải xuống NLTK. Nhấp vào nút Tải xuống để tải xuống tập dữ liệu. Quá trình này sẽ mất thời gian, dựa trên kết nối internet của bạn
LƯU Ý: Bạn có thể thay đổi vị trí tải xuống bằng cách Nhấp vào Tệp> Thay đổi Thư mục Tải xuống
Bước 3) Để kiểm tra dữ liệu đã cài đặt, hãy sử dụng mã sau
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Chạy Tập lệnh NLP
Chúng ta sẽ thảo luận về cách tập lệnh NLP sẽ được thực thi trên PC cục bộ của chúng ta. Có rất nhiều thư viện dành cho Xử lý Ngôn ngữ Tự nhiên hiện có trên thị trường. Vì vậy, việc lựa chọn một thư viện phụ thuộc vào việc phù hợp với yêu cầu của bạn. Đây là danh sách các thư viện NLP.
Cách chạy tập lệnh NLTK
Bước1) Trong trình chỉnh sửa mã yêu thích của bạn, sao chép mã và lưu tệp dưới dạng " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Giải thích mã:
- Trong chương trình này, mục tiêu là xóa tất cả các loại dấu câu khỏi văn bản nhất định. Chúng tôi đã nhập "RegexpTokenizer" là một mô-đun của NLTK. Nó loại bỏ tất cả các biểu thức, biểu tượng, ký tự, số hoặc bất kỳ thứ gì bạn muốn.
- Bạn vừa chuyển Biểu thức thông thường sang mô-đun "RegexpTokenizer".
- Hơn nữa, chúng tôi đã mã hóa từ này bằng cách sử dụng mô-đun "mã hóa". Đầu ra được lưu trữ trong biến "filterdText".
- Và in chúng bằng cách sử dụng "print ()."
Bước 2) Trong dấu nhắc lệnh
- Điều hướng đến vị trí bạn đã lưu tệp
- Chạy lệnh Python NLTKsample.py
Điều này sẽ hiển thị đầu ra là:
['Xin chào', 'Guru99', 'Bạn', 'có', 'xây dựng', 'a', 'rất', 'tốt', 'trang web', 'và', 'tôi', 'yêu', ' đang truy cập ',' của bạn ',' trang web ']