Gắn thẻ câu
Gắn thẻ Câu theo nghĩa rộng hơn đề cập đến việc bổ sung nhãn của động từ, danh từ, v.v. theo ngữ cảnh của câu. Nhận dạng các thẻ POS là một quá trình phức tạp. Vì vậy, việc gắn thẻ chung cho POS là không thể theo cách thủ công vì một số từ có thể có ý nghĩa khác nhau (không rõ ràng) theo cấu trúc của câu. Chuyển đổi văn bản ở dạng danh sách là một bước quan trọng trước khi gắn thẻ vì mỗi từ trong danh sách được lặp lại và được tính cho một thẻ cụ thể. Vui lòng xem đoạn mã dưới đây để hiểu rõ hơn
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
ĐẦU RA
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Giải thích mã
- Mã để nhập nltk (Bộ công cụ ngôn ngữ tự nhiên chứa các mô-đun con như mã hóa câu và mã hóa từ.)
- Văn bản có thẻ sẽ được in.
- Mã hóa câu
- Vòng lặp for được triển khai trong đó các từ được mã hóa từ câu và thẻ của mỗi từ được in dưới dạng đầu ra.
Trong Corpus, có hai loại trình gắn thẻ POS:
- Dựa trên quy tắc
- Trình gắn thẻ POS Stochastic
1. Trình gắn thẻ POS dựa trên quy tắc : Đối với các từ có nghĩa không rõ ràng, phương pháp tiếp cận dựa trên quy tắc trên cơ sở thông tin ngữ cảnh được áp dụng. Nó được thực hiện bằng cách kiểm tra hoặc phân tích nghĩa của từ trước hoặc từ sau. Thông tin được phân tích từ xung quanh của từ hoặc bên trong chính nó. Do đó, các từ được gắn thẻ bởi các quy tắc ngữ pháp của một ngôn ngữ cụ thể như viết hoa và dấu câu. ví dụ, trình gắn thẻ của Brill.
2.Stochastic POS Tagger: Các cách tiếp cận khác nhau như tần suất hoặc xác suất được áp dụng theo phương pháp này. Nếu một từ chủ yếu được gắn thẻ với một thẻ cụ thể trong tập huấn luyện thì trong câu kiểm tra, nó sẽ được gắn thẻ cụ thể đó. Thẻ từ không chỉ phụ thuộc vào thẻ của chính nó mà còn phụ thuộc vào thẻ trước đó. Phương pháp này không phải lúc nào cũng chính xác. Một cách khác là tính xác suất xuất hiện của một thẻ cụ thể trong một câu. Do đó, thẻ cuối cùng được tính bằng cách kiểm tra xác suất cao nhất của một từ với một thẻ cụ thể.
Mô hình Markov ẩn:
Các vấn đề về gắn thẻ cũng có thể được tạo mô hình bằng HMM. Nó coi các mã thông báo đầu vào là chuỗi có thể quan sát được trong khi các thẻ được coi là trạng thái ẩn và mục tiêu là xác định chuỗi trạng thái ẩn. Ví dụ x = x 1 , x 2 ,…, x n trong đó x là dãy các mã trong khi y = y 1 , y 2 , y 3 , y 4 … y n là dãy ẩn.
Mô hình HMM hoạt động như thế nào?
HMM sử dụng phân phối tham gia là P (x, y) trong đó x là chuỗi đầu vào / chuỗi mã thông báo và y là chuỗi thẻ.
Chuỗi thẻ cho x sẽ là argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Chúng tôi đã phân loại các thẻ từ văn bản, nhưng số liệu thống kê của các thẻ như vậy rất quan trọng. Vì vậy, phần tiếp theo là đếm các thẻ này để nghiên cứu thống kê.