Wordnet là gì?
Wordnet là một trình đọc ngữ liệu NLTK, một cơ sở dữ liệu từ vựng cho tiếng Anh. Nó có thể được sử dụng để tìm nghĩa của từ, từ đồng nghĩa hoặc trái nghĩa. Người ta có thể định nghĩa nó như một từ điển định hướng ngữ nghĩa của tiếng Anh. Nó được nhập bằng lệnh sau:
from nltk.corpus import wordnet as guru
Số liệu thống kê tiết lộ rằng có 155287 từ và 117659 bộ từ đồng nghĩa được bao gồm trong Mạng Từ tiếng Anh.
Có thể tìm thấy các phương pháp khác nhau có sẵn với Mạng từ bằng cách nhập dir (guru)
“ __ge__ ',' __getattr__ ',' __getattribute__ ',' __gt__ ',' __hash__ ',' __init__ ',' __le__ ',' __lt__ ',' __module__ ',' __name__ ',' __ne__ ',' __newred__ ',' , '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__unicode__', '__weakref__', '_unload', 'subir', 'unicode_repr']
Hãy cho chúng tôi hiểu một số tính năng có sẵn với wordnet:
Synset : Nó còn được gọi là tập hợp từ đồng nghĩa hoặc tập hợp các từ đồng nghĩa. Hãy để chúng tôi kiểm tra một ví dụ
from nltk.corpus import wordnetsyns = wordnet.synsets("dog")print(syns)
Đầu ra:
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]
Quan hệ từ vựng : Đây là những quan hệ ngữ nghĩa có qua lại. Nếu có mối quan hệ giữa {x1, x2,… xn} và {y1, y2,… yn} thì cũng có mối quan hệ giữa {y1, y2,… yn} và {x1, x2,… xn}. Ví dụ Từ đồng nghĩa là đối lập của trái nghĩa hoặc từ siêu nghĩa và từ trái nghĩa là loại khái niệm từ vựng.
Hãy để chúng tôi viết một chương trình sử dụng python để tìm từ đồng nghĩa và trái nghĩa của từ "hoạt động" bằng Wordnet.
from nltk.corpus import wordnetsynonyms = []antonyms = []for syn in wordnet.synsets("active"):for l in syn.lemmas():synonyms.append(l.name())if l.antonyms():antonyms.append(l.antonyms()[0].name())print(set(synonyms))print(set(antonyms))
Đầu ra của mã:
{'động', 'chiến đấu', 'sẵn sàng chiến đấu', 'active_voice', 'active_agent', 'tham gia', 'còn sống', 'hoạt động'} - Từ đồng nghĩa
{'stative', 'passive', 'yên tĩnh', 'passive_voice', 'tuyệt chủng', 'không hoạt động', 'không hoạt động'} - Từ trái nghĩa
Giải thích mã
- Wordnet là một kho ngữ liệu, vì vậy nó được nhập từ ntlk.corpus
- Danh sách của cả từ đồng nghĩa và trái nghĩa được lấy trống và sẽ được sử dụng để thêm vào
- Các từ đồng nghĩa của từ hoạt động được tìm kiếm trong tập hợp mô-đun và được thêm vào trong danh sách các từ đồng nghĩa. Quá trình tương tự được lặp lại cho cái thứ hai.
- Đầu ra được in
Phần kết luận:
Mạng từ là một cơ sở dữ liệu từ vựng đã được sử dụng bởi một công cụ tìm kiếm lớn. Từ Mạng từ, thông tin về một từ hoặc cụm từ nhất định có thể được tính toán, chẳng hạn như
- từ đồng nghĩa (những từ có cùng nghĩa)
- từ siêu nghĩa (Thuật ngữ chung được sử dụng để chỉ một nhóm các chi tiết cụ thể (tức là bữa ăn là bữa sáng), từ trái nghĩa (cơm là một bữa ăn)
- holonyms (protein, carbohydrate là một phần của bữa ăn)
- meronyms (bữa ăn là một phần của lượng thức ăn hàng ngày)
Mạng từ cũng cung cấp thông tin về các thuật ngữ phối hợp, dẫn xuất, cảm nhận và hơn thế nữa. Nó được sử dụng để tìm điểm tương đồng giữa hai từ bất kỳ. Nó cũng chứa thông tin về kết quả của từ liên quan. Nói tóm lại, người ta có thể coi nó như Từ điển hoặc Từ đồng nghĩa. Đi sâu hơn trong wordnet, nó được chia thành bốn mạng con tổng số như
- Danh từ
- Động từ
- Tính từ
- Trạng từ
Nó có thể được sử dụng trong lĩnh vực trí tuệ nhân tạo để phân tích văn bản. Với sự trợ giúp của Wordnet, bạn có thể tạo kho ngữ liệu của mình để kiểm tra chính tả, dịch ngôn ngữ, phát hiện Spam và nhiều hơn nữa.
Theo cách tương tự, bạn có thể sử dụng kho dữ liệu này và tạo khuôn mẫu để hoạt động một số chức năng động. Điều này giống như đã sẵn sàng để làm kho dữ liệu cho bạn. Bạn có thể sử dụng nó theo cách của bạn.