50 câu hỏi và câu trả lời phỏng vấn khoa học dữ liệu hàng đầu

Anonim

Sau đây là những câu hỏi thường gặp trong các cuộc phỏng vấn việc làm dành cho những người mới bắt đầu cũng như Nhà khoa học dữ liệu có kinh nghiệm.

1. Khoa học dữ liệu là gì?

Khoa học dữ liệu là sự kết hợp của các thuật toán, công cụ và kỹ thuật máy học giúp bạn tìm ra các mẫu ẩn phổ biến từ dữ liệu thô đã cho.

2. Hồi quy logistic trong Khoa học dữ liệu là gì?

Logistic Regression còn được gọi là mô hình logit. Nó là một phương pháp để dự báo kết quả nhị phân từ sự kết hợp tuyến tính của các biến dự báo.

3. Kể tên ba loại sai lệch có thể xảy ra trong quá trình lấy mẫu

Trong quá trình lấy mẫu, có ba loại sai lệch, đó là:

  • Sự thiên vị lựa chọn
  • Dưới sự thiên vị về phạm vi bảo hiểm
  • Thiên vị sống sót

4. Thảo luận về thuật toán Cây quyết định

Cây quyết định là một thuật toán học máy có giám sát phổ biến. Nó chủ yếu được sử dụng để hồi quy và phân loại. Nó cho phép chia nhỏ một tập dữ liệu thành các tập con nhỏ hơn. Cây quyết định có thể xử lý cả dữ liệu phân loại và dữ liệu số.

5. Xác suất trước và khả năng xảy ra là gì?

Xác suất trước là tỷ lệ của biến phụ thuộc trong tập dữ liệu trong khi khả năng xảy ra là xác suất phân loại một biến quan sát nhất định với sự hiện diện của một số biến khác.

6. Giải thích Hệ thống giới thiệu?

Nó là một lớp con của các kỹ thuật lọc thông tin. Nó giúp bạn dự đoán sở thích hoặc xếp hạng mà người dùng có thể dành cho một sản phẩm.

7. Nêu ba nhược điểm của việc sử dụng mô hình tuyến tính

Ba nhược điểm của mô hình tuyến tính là:

  • Giả định về độ tuyến tính của các lỗi.
  • Bạn không thể sử dụng mô hình này cho các kết quả nhị phân hoặc đếm
  • Có rất nhiều vấn đề về trang phục quá mức mà nó không thể giải quyết

8. Tại sao bạn cần thực hiện lấy mẫu lại?

Việc lấy mẫu lại được thực hiện trong các trường hợp dưới đây:

  • Ước tính độ chính xác của thống kê mẫu bằng cách vẽ ngẫu nhiên có thay thế từ một tập hợp điểm dữ liệu hoặc sử dụng làm tập hợp con của dữ liệu có thể truy cập
  • Thay thế các nhãn trên các điểm dữ liệu khi thực hiện các thử nghiệm cần thiết
  • Xác thực mô hình bằng cách sử dụng các tập hợp con ngẫu nhiên

9. Liệt kê các thư viện bằng Python được sử dụng để Phân tích Dữ liệu và Tính toán Khoa học.

  • SciPy
  • Gấu trúc
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Phân tích công suất là gì?

Phân tích công suất là một phần không thể thiếu trong thiết kế thử nghiệm. Nó giúp bạn xác định kích thước mẫu yêu cầu để tìm ra ảnh hưởng của một kích thước nhất định từ một nguyên nhân với mức độ đảm bảo cụ thể. Nó cũng cho phép bạn triển khai một xác suất cụ thể trong một giới hạn kích thước mẫu.

11. Giải thích lọc cộng tác

Lọc cộng tác được sử dụng để tìm kiếm các mẫu chính xác bằng cách cộng tác các quan điểm, nhiều nguồn dữ liệu và các tác nhân khác nhau.

12. Thiên vị là gì?

Sự sai lệch là một lỗi được đưa vào mô hình của bạn do đơn giản hóa quá mức của thuật toán máy học. "Điều này có thể dẫn đến trang bị không đủ.

13. Thảo luận về 'Naive' trong một thuật toán Naive Bayes?

Mô hình Thuật toán Naive Bayes dựa trên Định lý Bayes. Nó mô tả xác suất của một sự kiện. Nó dựa trên kiến ​​thức trước đây về các điều kiện có thể liên quan đến sự kiện cụ thể đó.

14. Hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một phương pháp lập trình thống kê trong đó điểm của biến 'A' được dự đoán từ điểm của biến thứ hai 'B'. B được gọi là biến dự báo và A là biến tiêu chí.

15. Nêu sự khác biệt giữa giá trị kỳ vọng và giá trị trung bình

Chúng không có nhiều khác biệt, nhưng cả hai thuật ngữ này đều được sử dụng trong các ngữ cảnh khác nhau. Giá trị trung bình thường được đề cập đến khi bạn đang thảo luận về phân phối xác suất trong khi giá trị kỳ vọng được đề cập đến trong ngữ cảnh của một biến ngẫu nhiên.

16. Mục đích của việc thực hiện Thử nghiệm A / B là gì?

Thử nghiệm AB được sử dụng để tiến hành các thử nghiệm ngẫu nhiên với hai biến A và B. Mục tiêu của phương pháp thử nghiệm này là tìm ra các thay đổi đối với trang web để tối đa hóa hoặc tăng kết quả của chiến lược.

17. Học Ensemble là gì?

Tập hợp là một phương pháp kết hợp một nhóm người học đa dạng với nhau để ứng biến về tính ổn định và khả năng dự đoán của mô hình. Hai loại phương pháp học tập Ensemble là:

Đóng bao

Phương pháp đóng gói giúp bạn triển khai những người học tương tự trên các quần thể mẫu nhỏ. Nó giúp bạn đưa ra những dự đoán gần hơn.

Thúc đẩy

Tăng cường là một phương pháp lặp đi lặp lại cho phép bạn điều chỉnh trọng lượng của một quan sát phụ thuộc vào phân loại cuối cùng. Tăng cường giảm sai số thiên vị và giúp bạn xây dựng các mô hình dự đoán mạnh mẽ.

18. Giải thích Eigenvalue và Eigenvector

Eigenvectors là để hiểu các phép biến đổi tuyến tính. Nhà khoa học dữ liệu cần tính toán các giá trị riêng cho ma trận hiệp phương sai hoặc mối tương quan. Giá trị đặc là các hướng sử dụng các hành động biến đổi tuyến tính cụ thể bằng cách nén, lật hoặc kéo dài.

19. Định nghĩa thuật ngữ xác thực chéo

Xác nhận chéo là một kỹ thuật xác nhận để đánh giá kết quả của phân tích thống kê sẽ tổng quát như thế nào cho một tập dữ liệu Độc lập. Phương pháp này được sử dụng trong nền nơi mục tiêu được dự báo và người ta cần ước tính mức độ chính xác mà một mô hình sẽ hoàn thành.

20. Giải thích các bước cho một dự án Phân tích dữ liệu

Sau đây là các bước quan trọng liên quan đến một dự án phân tích:

  • Hiểu vấn đề kinh doanh
  • Khám phá dữ liệu và nghiên cứu nó một cách cẩn thận.
  • Chuẩn bị dữ liệu để lập mô hình bằng cách tìm các giá trị còn thiếu và biến đổi các biến.
  • Bắt đầu chạy mô hình và phân tích kết quả Dữ liệu lớn.
  • Xác thực mô hình với tập dữ liệu mới.
  • Triển khai mô hình và theo dõi kết quả để phân tích hiệu suất của mô hình trong một khoảng thời gian cụ thể.

21. Thảo luận về mạng nơ ron nhân tạo

Mạng Nơ-ron nhân tạo (ANN) là một tập hợp các thuật toán đặc biệt đã cách mạng hóa việc học máy. Nó giúp bạn thích ứng với sự thay đổi đầu vào. Vì vậy, mạng tạo ra kết quả tốt nhất có thể mà không cần thiết kế lại các tiêu chí đầu ra.

22. Truyền ngược là gì?

Truyền ngược là bản chất của đào tạo mạng lưới thần kinh. Đây là phương pháp điều chỉnh trọng lượng của mạng nơ-ron phụ thuộc vào tỷ lệ lỗi thu được trong kỷ nguyên trước đó. Việc điều chỉnh phù hợp sẽ giúp bạn giảm tỷ lệ lỗi và làm cho mô hình trở nên đáng tin cậy bằng cách tăng tính tổng quát của nó.

23. Rừng Ngẫu nhiên là gì?

Rừng ngẫu nhiên là một phương pháp học máy giúp bạn thực hiện tất cả các loại tác vụ hồi quy và phân loại. Nó cũng được sử dụng để xử lý các giá trị bị thiếu và các giá trị ngoại lệ.

24. Tầm quan trọng của việc có sự thiên lệch trong lựa chọn là gì?

Sự sai lệch lựa chọn xảy ra khi không có sự ngẫu nhiên cụ thể nào đạt được trong khi chọn cá nhân hoặc nhóm hoặc dữ liệu cần phân tích. Nó gợi ý rằng mẫu đã cho không đại diện chính xác cho quần thể dự định phân tích.

25. Phương pháp phân cụm K-mean là gì?

K-means clustering là một phương pháp học tập không giám sát quan trọng. Đây là kỹ thuật phân loại dữ liệu bằng cách sử dụng một tập hợp các cụm nhất định được gọi là K cụm. Nó được triển khai để phân nhóm để tìm ra sự giống nhau trong dữ liệu.

26. Giải thích sự khác biệt giữa Khoa học dữ liệu và Phân tích dữ liệu

Dữ liệu Các nhà khoa học cần chia nhỏ dữ liệu để trích xuất những hiểu biết có giá trị mà một nhà phân tích dữ liệu có thể áp dụng cho các tình huống kinh doanh trong thế giới thực. Sự khác biệt chính giữa hai là các nhà khoa học dữ liệu có nhiều kiến ​​thức kỹ thuật hơn sau đó là nhà phân tích kinh doanh. Hơn nữa, họ không cần hiểu biết về công việc kinh doanh cần thiết để trực quan hóa dữ liệu.

27. Giải thích giá trị p?

Khi bạn tiến hành kiểm tra giả thuyết trong thống kê, giá trị p cho phép bạn xác định độ mạnh của kết quả. Nó là một số từ 0 đến 1. Dựa vào giá trị, nó sẽ giúp bạn biểu thị độ mạnh của kết quả cụ thể.

28. Định nghĩa thuật ngữ học sâu

Học sâu là một dạng phụ của học máy. Nó liên quan đến các thuật toán lấy cảm hứng từ cấu trúc được gọi là mạng nơ-ron nhân tạo (ANN).

29. Giải thích phương pháp thu thập và phân tích dữ liệu để sử dụng phương tiện truyền thông xã hội để dự đoán tình trạng thời tiết.

Bạn có thể thu thập dữ liệu mạng xã hội bằng cách sử dụng API của Facebook, twitter, Instagram. Ví dụ: đối với tweeter, chúng tôi có thể xây dựng một tính năng từ mỗi tweet như ngày đã tweet, lượt tweet lại, danh sách người theo dõi, v.v. Sau đó, bạn có thể sử dụng mô hình chuỗi thời gian đa biến để dự đoán điều kiện thời tiết.

30. Khi nào bạn cần cập nhật thuật toán trong Khoa học dữ liệu?

Bạn cần cập nhật thuật toán trong trường hợp sau:

  • Bạn muốn mô hình dữ liệu của mình phát triển dưới dạng các luồng dữ liệu sử dụng cơ sở hạ tầng
  • Nguồn dữ liệu cơ bản đang thay đổi

    Nếu nó không cố định

31. Phân phối chuẩn là gì

Phân phối chuẩn là một tập hợp của một biến số liên tục trải trên một đường cong chuẩn hoặc trong hình dạng của một đường cong hình chuông. Bạn có thể coi nó như một phân phối xác suất liên tục rất hữu ích trong thống kê. Sẽ rất hữu ích khi phân tích các biến và mối quan hệ của chúng khi chúng ta sử dụng đường cong phân phối chuẩn.

32. Ngôn ngữ nào tốt nhất cho phân tích văn bản? R hoặc Python?

Python sẽ phù hợp hơn cho phân tích văn bản vì nó bao gồm một thư viện phong phú được gọi là gấu trúc. Nó cho phép bạn sử dụng các công cụ phân tích dữ liệu cấp cao và cấu trúc dữ liệu, trong khi R không cung cấp tính năng này.

33. Giải thích lợi ích của việc sử dụng số liệu thống kê của các nhà khoa học dữ liệu

Số liệu thống kê giúp Nhà khoa học dữ liệu hiểu rõ hơn về kỳ vọng của khách hàng. Sử dụng phương pháp thống kê Dữ liệu Các nhà khoa học có thể có được kiến ​​thức về sở thích, hành vi, mức độ tương tác, tỷ lệ giữ chân của người tiêu dùng, v.v. Nó cũng giúp bạn xây dựng các mô hình dữ liệu mạnh mẽ để xác thực các suy luận và dự đoán nhất định.

34. Kể tên các loại Khung học sâu khác nhau

  • Pytorch
  • Bộ công cụ nhận thức của Microsoft
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35.Bộ mã hóa tự động giải thích

Autoencoders là mạng học. Nó giúp bạn chuyển đổi đầu vào thành đầu ra với số lỗi ít hơn. Điều này có nghĩa là bạn sẽ nhận được đầu ra gần với đầu vào nhất có thể.

36. Định nghĩa Máy Boltzmann

Máy Boltzmann là một thuật toán học đơn giản. Nó giúp bạn khám phá những tính năng thể hiện những quy định phức tạp trong dữ liệu đào tạo. Thuật toán này cho phép bạn tối ưu hóa trọng số và số lượng cho bài toán đã cho.

37. Giải thích tại sao Làm sạch dữ liệu là cần thiết và bạn sử dụng phương pháp nào để duy trì dữ liệu sạch

Dữ liệu bẩn thường dẫn đến nội dung không chính xác, có thể làm hỏng triển vọng của bất kỳ tổ chức nào. Ví dụ: nếu bạn muốn chạy một chiến dịch tiếp thị được nhắm mục tiêu. Tuy nhiên, dữ liệu của chúng tôi cho bạn biết không chính xác rằng một sản phẩm cụ thể sẽ có nhu cầu với đối tượng mục tiêu của bạn; chiến dịch sẽ thất bại.

38. Phân phối lệch & phân phối đồng đều là gì?

Phân phối lệch xảy ra khi nếu dữ liệu được phân phối trên bất kỳ phía nào của biểu đồ trong khi phân phối đồng đều được xác định khi dữ liệu được trải đều trong phạm vi.

39. Khi nào xảy ra tình trạng thiếu trang phục trong một mô hình tĩnh?

Việc trang bị thiếu xảy ra khi một mô hình thống kê hoặc thuật toán máy học không thể nắm bắt xu hướng cơ bản của dữ liệu.

40. Học tăng cường là gì?

Học tập củng cố là một cơ chế học tập về cách ánh xạ tình huống thành hành động. Kết quả cuối cùng sẽ giúp bạn tăng tín hiệu phần thưởng nhị phân. Trong phương pháp này, người học không được cho biết phải thực hiện hành động nào mà thay vào đó phải khám phá hành động nào mang lại phần thưởng tối đa. Như phương pháp này dựa trên cơ chế thưởng / phạt.

41. Kể tên các thuật toán thường dùng.

Bốn thuật toán được sử dụng phổ biến nhất bởi Nhà khoa học dữ liệu là:

  • Hồi quy tuyến tính
  • Hồi quy logistic
  • Rừng ngẫu nhiên
  • KNN

42. Độ chính xác là gì?

Độ chính xác là thước đo lỗi được sử dụng phổ biến nhất là cơ chế phân loại n. Phạm vi của nó là từ 0 đến 1, trong đó 1 đại diện cho 100%

43. Phân tích đơn biến là gì?

Một phân tích được áp dụng cho không thuộc tính nào tại một thời điểm được gọi là phân tích đơn biến. Boxplot được sử dụng rộng rãi, mô hình đơn biến.

44. Làm thế nào để bạn vượt qua những thách thức đối với những phát hiện của bạn?

Để vượt qua những thách thức mà tôi nhận thấy cần phải khuyến khích thảo luận, Thể hiện khả năng lãnh đạo và tôn trọng các lựa chọn khác nhau.

45. Giải thích kỹ thuật lấy mẫu cụm trong Khoa học dữ liệu

Phương pháp lấy mẫu theo cụm được sử dụng khi việc nghiên cứu quần thể mục tiêu trải rộng trên toàn bộ là một thách thức và không thể áp dụng phương pháp lấy mẫu ngẫu nhiên đơn giản.

46. ​​Nêu sự khác biệt giữa Bộ xác thực và Bộ kiểm tra

Tập hợp xác thực hầu hết được coi là một phần của tập huấn luyện vì nó được sử dụng để lựa chọn tham số giúp bạn tránh trang bị quá mức cho mô hình đang được xây dựng.

Trong khi Bộ kiểm tra được sử dụng để kiểm tra hoặc đánh giá hiệu suất của mô hình học máy được đào tạo.

47. Giải thích thuật ngữ Công thức xác suất nhị thức?

"Phân phối nhị thức chứa các xác suất của mọi thành công có thể xảy ra trên N phép thử đối với các sự kiện độc lập có xác suất xảy ra là π."

48. Thu hồi là gì?

Thu hồi là một tỷ lệ giữa tỷ lệ dương thực sự so với tỷ lệ dương thực tế. Nó nằm trong khoảng từ 0 đến 1.

49. Thảo luận về phân phối chuẩn

Phân phối chuẩn phân phối đều như vậy trung bình, trung vị và chế độ là bằng nhau.

50. Trong khi làm việc trên một tập dữ liệu, làm thế nào bạn có thể chọn các biến quan trọng? Giải thích

Bạn có thể sử dụng các phương pháp chọn biến sau:

  • Loại bỏ các biến tương quan trước khi chọn các biến quan trọng
  • Sử dụng hồi quy tuyến tính và chọn các biến phụ thuộc vào giá trị p đó.
  • Sử dụng Backward, Forward Selection và Stepwise Selection
  • Sử dụng Xgboost, Rừng Ngẫu nhiên và biểu đồ tầm quan trọng biến của âm mưu.
  • Đo lường mức tăng thông tin cho tập hợp các tính năng nhất định và chọn n tính năng hàng đầu cho phù hợp.

51. Có thể nắm bắt được mối tương quan giữa biến liên tục và biến phân loại không?

Có, chúng ta có thể sử dụng kỹ thuật phân tích hiệp phương sai để nắm bắt mối liên hệ giữa các biến liên tục và biến phân loại.

52. Xử lý một biến phân loại như một biến liên tục sẽ dẫn đến một mô hình dự đoán tốt hơn?

Đúng, giá trị phân loại chỉ nên được coi là một biến liên tục khi biến có bản chất thứ tự. Vì vậy, nó là một mô hình dự đoán tốt hơn.