Cách tải xuống & Cài đặt NLTK trên Windows / Mac

Mục lục:

Anonim

Trong hướng dẫn này, bạn sẽ học -

  • Cài đặt NLTK trong Windows
  • Cài đặt Python trong Windows
  • Cài đặt NLTK trong Mac / Linux
  • Cài đặt NLTK thông qua Anaconda
  • Bộ dữ liệu NLTK
  • Cách tải xuống tất cả các gói NLTK
  • Chạy Tập lệnh NLP
  • Cách chạy tập lệnh NLTK

Cài đặt NLTK trong Windows

Trong phần này, chúng ta sẽ học cách thiết lập NLTK qua terminal (Dấu nhắc lệnh trong windows).

Hướng dẫn đưa ra bên dưới dựa trên giả định rằng bạn chưa cài đặt python. Vì vậy, bước đầu tiên là cài đặt python.

Cài đặt Python trong Windows:

Bước 1) Go để liên kết https://www.python.org/downloads/ , và chọn phiên bản mới nhất cho các cửa sổ.

Lưu ý : Nếu bạn không muốn tải xuống phiên bản mới nhất, bạn có thể truy cập tab tải xuống và xem tất cả các bản phát hành.

Bước 2) Nhấp vào Tệp đã Tải xuống

Bước 3) Chọn Tùy chỉnh cài đặt

Bước 4) Nhấp vào TIẾP THEO

Bước 5) Trong màn hình tiếp theo

  1. Chọn các tùy chọn nâng cao
  2. Cung cấp vị trí cài đặt tùy chỉnh. Trong trường hợp của tôi, một thư mục trên ổ C được chọn để dễ vận hành
  3. Nhấp vào Cài đặt

Bước 6) Nhấp vào Đóng nút sau khi cài đặt xong.

Bước 7) Sao chép đường dẫn của thư mục Scripts của bạn.

Bước 8) Trong dấu nhắc lệnh của windows

  • Điều hướng đến vị trí của thư mục pip
  • Nhập lệnh để cài đặt NLTK
    pip3 install nltk
  • Cài đặt sẽ được thực hiện thành công

LƯU Ý : Đối với Python2, hãy sử dụng commandpip2 install nltk

Bước 9) Trong Menu Start của Windows, tìm kiếm và mở PythonShell

Bước 10) Bạn có thể xác minh xem cài đặt có chính xác hay không bằng cách sử dụng lệnh dưới đây

import nltk

Nếu bạn không thấy lỗi, quá trình cài đặt đã hoàn tất.

Cài đặt NLTK trong Mac / Linux

Cài đặt NLTK trong Mac / Unix yêu cầu pip trình quản lý gói python để cài đặt nltk. Nếu chưa cài đặt pip, vui lòng làm theo hướng dẫn bên dưới để hoàn tất quá trình

Bước 1) Cập nhật chỉ mục gói bằng cách gõ lệnh dưới đây

sudo apt update

Bước 2) Cài đặt pip cho Python 3:

sudo apt install python3-pip

Bạn cũng có thể cài đặt pip bằng easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Bây giờ easy_install đã được cài đặt. Chạy lệnh dưới đây để cài đặt pip

sudo easy_install pip

Bước 3) Sử dụng lệnh sau để cài đặt NLTK

sudo pip install -U nltksudo pip3 install -U nltk

Cài đặt NLTK thông qua Anaconda

Bước 1) Vui lòng cài đặt anaconda (cũng có thể được sử dụng để cài đặt các gói khác nhau) bằng cách truy cập https://www.anaconda.com/products/individual và chọn phiên bản python bạn cần cài đặt cho anaconda.

Lưu ý: Tham khảo hướng dẫn này để biết các bước chi tiết để cài đặt anaconda

Bước 2) Trong lời nhắc Anaconda,

  1. Nhập lệnh
    conda install -c anaconda nltk
  2. Xem lại thông tin nâng cấp gói, hạ cấp, cài đặt và nhập có
  3. NLTK đã được tải xuống và cài đặt

Bộ dữ liệu NLTK

Mô-đun NLTK có sẵn nhiều bộ dữ liệu mà bạn cần tải xuống để sử dụng. Về mặt kỹ thuật, nó được gọi là kho ngữ liệu . Một số ví dụ là các tệp từ dừng , Gutenberg , framenet_v15 , large_grammars và vân vân.

Cách tải xuống tất cả các gói NLTK

Bước 1) Chạy trình thông dịch Python trong Windows hoặc Linux

Bước 2)

  1. Nhập các lệnh
import nltknltk.download ()
  1. Mở cửa sổ đã tải xuống NLTK. Nhấp vào nút Tải xuống để tải xuống tập dữ liệu. Quá trình này sẽ mất thời gian, dựa trên kết nối internet của bạn

LƯU Ý: Bạn có thể thay đổi vị trí tải xuống bằng cách Nhấp vào Tệp> Thay đổi Thư mục Tải xuống

Bước 3) Để kiểm tra dữ liệu đã cài đặt, hãy sử dụng mã sau

>>> from nltk.corpus import brown>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]

Chạy Tập lệnh NLP

Chúng ta sẽ thảo luận về cách tập lệnh NLP sẽ được thực thi trên PC cục bộ của chúng ta. Có rất nhiều thư viện dành cho Xử lý Ngôn ngữ Tự nhiên hiện có trên thị trường. Vì vậy, việc lựa chọn một thư viện phụ thuộc vào việc phù hợp với yêu cầu của bạn. Đây là danh sách các thư viện NLP.

Cách chạy tập lệnh NLTK

Bước1) Trong trình chỉnh sửa mã yêu thích của bạn, sao chép mã và lưu tệp dưới dạng " NLTKsample.py "

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Giải thích mã:

  1. Trong chương trình này, mục tiêu là xóa tất cả các loại dấu câu khỏi văn bản nhất định. Chúng tôi đã nhập "RegexpTokenizer" là một mô-đun của NLTK. Nó loại bỏ tất cả các biểu thức, biểu tượng, ký tự, số hoặc bất kỳ thứ gì bạn muốn.
  2. Bạn vừa chuyển Biểu thức thông thường sang mô-đun "RegexpTokenizer".
  3. Hơn nữa, chúng tôi đã mã hóa từ này bằng cách sử dụng mô-đun "mã hóa". Đầu ra được lưu trữ trong biến "filterdText".
  4. Và in chúng bằng cách sử dụng "print ()."

Bước 2) Trong dấu nhắc lệnh

  • Điều hướng đến vị trí bạn đã lưu tệp
  • Chạy lệnh Python NLTKsample.py

Điều này sẽ hiển thị đầu ra là:

['Xin chào', 'Guru99', 'Bạn', 'có', 'xây dựng', 'a', 'rất', 'tốt', 'trang web', 'và', 'tôi', 'yêu', ' đang truy cập ',' của bạn ',' trang web ']