Yếu tố trong R: Biến số phân loại & Biến liên tục

Mục lục:

Anonim

Yếu tố trong R là gì?

Hệ số trong R là một biến được sử dụng để phân loại và lưu trữ dữ liệu, có một số lượng giới hạn các giá trị khác nhau. Nó lưu trữ dữ liệu dưới dạng véc tơ các giá trị số nguyên. Factor in R còn được gọi là biến phân loại lưu trữ cả giá trị dữ liệu chuỗi và số nguyên dưới dạng mức. Factor chủ yếu được sử dụng trong Mô hình thống kê và phân tích dữ liệu khám phá với R.

Trong một tập dữ liệu, chúng ta có thể phân biệt hai loại biến: phân loạiliên tục .

  • Trong thống kê mô tả cho các biến phân loại trong R, giá trị bị giới hạn và thường dựa trên một nhóm hữu hạn cụ thể. Ví dụ, một biến phân loại trong R có thể là quốc gia, năm, giới tính, nghề nghiệp.
  • Tuy nhiên, một biến liên tục có thể nhận bất kỳ giá trị nào, từ số nguyên đến số thập phân. Ví dụ: chúng tôi có thể có doanh thu, giá cổ phiếu, v.v.

Các biến phân loại

Các biến phân loại trong R được lưu trữ thành một nhân tố. Hãy kiểm tra đoạn mã dưới đây để chuyển đổi một biến ký tự thành một biến thừa số trong R. Các ký tự không được hỗ trợ trong thuật toán học máy và cách duy nhất là chuyển đổi một chuỗi thành một số nguyên.

Cú pháp

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Tranh luận:

  • x : Một vectơ của dữ liệu phân loại trong R. Cần phải là một chuỗi hoặc số nguyên, không phải là số thập phân.
  • Các mức : Một vectơ của các giá trị có thể được lấy bởi x. Đối số này là tùy chọn. Giá trị mặc định là danh sách các mục duy nhất của vectơ x.
  • Nhãn : Thêm nhãn vào dữ liệu phân loại x trong R. Ví dụ: 1 có thể lấy nhãn `nam` trong khi 0, nhãn` nữ`.
  • có thứ tự : Xác định xem các mức có nên được sắp xếp theo thứ tự trong dữ liệu phân loại trong R.

Thí dụ:

Hãy tạo một khung dữ liệu nhân tố.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Đầu ra:

## [1] "character"## [1] "factor"

Điều quan trọng là phải biến đổi một chuỗi thành biến thừa số trong R khi chúng ta thực hiện tác vụ Học máy.

Một biến phân loại trong R có thể được chia thành biến phân loại danh nghĩabiến phân loại thứ tự .

Biến số phân loại danh nghĩa

Một biến phân loại có một số giá trị nhưng thứ tự không quan trọng. Ví dụ, nam hoặc nữ. Các biến phân loại trong R không có thứ tự.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Đầu ra:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Từ factor_color, chúng tôi không thể cho biết bất kỳ thứ tự nào.

Biến số phân loại thông thường

Các biến phân loại thông thường có thứ tự tự nhiên. Chúng ta có thể chỉ định thứ tự, từ thấp nhất đến cao nhất với thứ tự = TRUE và cao nhất đến thấp nhất với thứ tự = FALSE.

Thí dụ:

Chúng ta có thể sử dụng tóm tắt để đếm các giá trị cho từng biến nhân tố trong R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Đầu ra:

## [1] evening morning afternoon middaymidnight evening 

Thí dụ:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Đầu ra:

## morning midday afternoon evening midnight## 1 1 1 2 1

R đã sắp xếp cấp độ từ 'sáng' đến 'nửa đêm' như được chỉ định trong dấu ngoặc đơn cấp.

Biến liên tục

Các biến lớp liên tục là giá trị mặc định trong R. Chúng được lưu trữ dưới dạng số hoặc số nguyên. Chúng ta có thể thấy nó từ tập dữ liệu bên dưới. mtcars là một tập dữ liệu được tích hợp sẵn. Nó thu thập thông tin về các loại xe khác nhau. Chúng tôi có thể nhập nó bằng cách sử dụng mtcars và kiểm tra loại của biến mpg, dặm trên mỗi gallon. Nó trả về một giá trị số, cho biết một biến liên tục.

dataset <- mtcarsclass(dataset$mpg)

Đầu ra

## [1] "numeric"