Dưới đây là những câu hỏi phỏng vấn kỹ sư dữ liệu thường gặp dành cho những người mới bắt đầu cũng như những ứng viên có kinh nghiệm để có được công việc phù hợp.
1) Giải thích Kỹ thuật Dữ liệu.
Kỹ thuật dữ liệu là một thuật ngữ được sử dụng trong dữ liệu lớn. Nó tập trung vào việc áp dụng thu thập và nghiên cứu dữ liệu. Dữ liệu được tạo ra từ nhiều nguồn khác nhau chỉ là dữ liệu thô. Kỹ thuật dữ liệu giúp chuyển đổi dữ liệu thô này thành thông tin hữu ích.
2) Mô hình hóa dữ liệu là gì?
Mô hình hóa dữ liệu là phương pháp ghi lại thiết kế phần mềm phức tạp dưới dạng sơ đồ để bất kỳ ai cũng có thể dễ dàng hiểu được. Nó là một biểu diễn khái niệm của các đối tượng dữ liệu được liên kết giữa các đối tượng dữ liệu khác nhau và các quy tắc.
3) Liệt kê các loại lược đồ thiết kế khác nhau trong Mô hình hóa dữ liệu
Chủ yếu có hai loại lược đồ trong mô hình hóa dữ liệu: 1) Lược đồ hình sao và 2) Lược đồ bông tuyết.
4) Phân biệt giữa dữ liệu có cấu trúc và dữ liệu không có cấu trúc
Sau đây là sự khác biệt giữa dữ liệu có cấu trúc và dữ liệu không có cấu trúc:
Tham số | Dữ liệu có cấu trúc | Dữ liệu phi cấu trúc |
Lưu trữ | DBMS | Cấu trúc tệp không được quản lý |
Tiêu chuẩn | ADO.net, ODBC và SQL | STMP, XML, CSV và SMS |
Công cụ tích hợp | ELT (Trích xuất, Biến đổi, Tải) | Nhập dữ liệu thủ công hoặc xử lý hàng loạt bao gồm mã |
mở rộng quy mô | Mở rộng lược đồ rất khó | Mở rộng quy mô là rất dễ dàng. |
5) Giải thích tất cả các thành phần của ứng dụng Hadoop
Sau đây là các thành phần của ứng dụng Hadoop:
- Hadoop Common: Đây là một tập hợp các tiện ích và thư viện phổ biến được sử dụng bởi Hadoop.
- HDFS: Ứng dụng Hadoop này liên quan đến hệ thống tệp trong đó dữ liệu Hadoop được lưu trữ. Nó là một hệ thống tệp phân tán có băng thông cao.
- Hadoop MapReduce: Nó dựa trên thuật toán để cung cấp xử lý dữ liệu quy mô lớn.
- Hadoop YARN: Nó được sử dụng để quản lý tài nguyên trong cụm Hadoop. Nó cũng có thể được sử dụng để lập lịch tác vụ cho người dùng.
6) NameNode là gì?
Nó là trung tâm của HDFS. Nó lưu trữ dữ liệu của HDFS và theo dõi các tệp khác nhau trên các cụm. Ở đây, dữ liệu thực tế không được lưu trữ. Dữ liệu được lưu trữ trong DataNodes.
7) Xác định phát trực tuyến Hadoop
Nó là một tiện ích cho phép tạo bản đồ và giảm bớt công việc và chuyển chúng đến một cụm cụ thể.
8) Dạng đầy đủ của HDFS là gì?
HDFS là viết tắt của Hadoop Distributed File System.
9) Xác định Block và Block Scanner trong HDFS
Khối là đơn vị nhỏ nhất của tệp dữ liệu. Hadoop tự động chia các tệp lớn thành nhiều phần nhỏ.
Block Scanner xác minh danh sách các khối được hiển thị trên DataNode.
10) Các bước xảy ra khi Block Scanner phát hiện một khối dữ liệu bị hỏng là gì?
Sau đây là các bước xảy ra khi Block Scanner tìm thấy một khối dữ liệu bị hỏng:
1) Trước hết, khi Block Scanner tìm thấy một khối dữ liệu bị hỏng, DataNode sẽ báo cáo NameNode
2) NameNode bắt đầu quá trình tạo một bản sao mới bằng cách sử dụng một bản sao của khối bị hỏng.
3) Số lượng sao chép của các bản sao chính xác cố gắng khớp với hệ số sao chép. Nếu khớp được tìm thấy khối dữ liệu bị hỏng sẽ không bị xóa.
11) Kể tên hai thông báo mà NameNode nhận được từ DataNode?
Có hai thông báo mà NameNode nhận được từ DataNode. Chúng là 1) Báo cáo khối và 2) Nhịp tim.
12) Liệt kê các tệp cấu hình XML khác nhau trong Hadoop?
Có năm tệp cấu hình XML trong Hadoop:
- Trang web được lập bản đồ
- Core-site
- HDFS-site
- Trang web sợi
13) Bốn chữ V của dữ liệu lớn là gì?
Bốn V của dữ liệu lớn là:
- Vận tốc
- Đa dạng
- Âm lượng
- Tính xác thực
14) Giải thích các tính năng của Hadoop
Các tính năng quan trọng của Hadoop là:
- Nó là một khuôn khổ mã nguồn mở có sẵn phần mềm miễn phí.
- Hadoop tương thích với nhiều loại phần cứng và dễ dàng truy cập phần cứng mới trong một nút cụ thể.
- Hadoop hỗ trợ xử lý dữ liệu được phân phối nhanh hơn.
- Nó lưu trữ dữ liệu trong cụm, độc lập với phần còn lại của các hoạt động.
- Hadoop cho phép tạo 3 bản sao cho mỗi khối với các nút khác nhau.
15) Giải thích các phương pháp chính của Bộ giảm tốc
- setup (): Nó được sử dụng để định cấu hình các tham số như kích thước của dữ liệu đầu vào và bộ nhớ đệm phân tán.
- cleanup (): Phương thức này được sử dụng để làm sạch các tệp tạm thời.
- Reduce (): Nó là trung tâm của bộ giảm thiểu được gọi một lần cho mỗi khóa với tác vụ giảm liên quan
16) Viết tắt của COSHH là gì?
Viết tắt của COSHH là Lịch trình dựa trên Phân loại và Tối ưu hóa cho các hệ thống Hadoop không đồng nhất.
17) Giải thích lược đồ sao
Lược đồ sao hay Lược đồ nối sao là loại giản đồ Kho dữ liệu đơn giản nhất. Nó được gọi là giản đồ sao vì cấu trúc của nó giống như một ngôi sao. Trong giản đồ Ngôi sao, tâm của ngôi sao có thể có một bảng dữ kiện và nhiều bảng kích thước liên quan. Lược đồ này được sử dụng để truy vấn các tập dữ liệu lớn.
18) Làm thế nào để triển khai một giải pháp dữ liệu lớn?
Làm theo các bước sau để triển khai giải pháp dữ liệu lớn.
1) Tích hợp dữ liệu bằng cách sử dụng các nguồn dữ liệu như RDBMS, SAP, MySQL, Salesforce
2) Lưu trữ dữ liệu được trích xuất dữ liệu trong cơ sở dữ liệu NoSQL hoặc HDFS.
3) Triển khai giải pháp dữ liệu lớn bằng cách sử dụng các khung xử lý như Pig, Spark và MapReduce.
19) Giải thích FSCK
Kiểm tra hệ thống tệp hoặc FSCK là lệnh được HDFS sử dụng. Lệnh FSCK được sử dụng để kiểm tra sự không nhất quán và sự cố trong tệp.
20) Giải thích lược đồ bông tuyết
Lược đồ Bông tuyết là phần mở rộng của Lược đồ Sao và nó bổ sung thêm các thứ nguyên. Nó được gọi là bông tuyết vì sơ đồ của nó trông giống như một bông tuyết. Các bảng thứ nguyên được chuẩn hóa, chia dữ liệu thành các bảng bổ sung.
21) Phân biệt giữa Lược đồ Ngôi sao và Bông tuyết
Ngôi sao | Lược đồ bông tuyết |
Phân cấp thứ nguyên được lưu trữ trong bảng thứ nguyên. | Mỗi hệ thống phân cấp được lưu trữ thành các bảng riêng biệt. |
Cơ hội dư thừa dữ liệu cao | Cơ hội dư thừa dữ liệu thấp. |
Nó có thiết kế DB rất đơn giản | Nó có một thiết kế DB phức tạp |
Cung cấp một cách nhanh hơn để xử lý khối lập phương | Quá trình xử lý khối chậm do liên kết phức tạp. |
22) Giải thích hệ thống tệp phân tán Hadoop
Hadoop hoạt động với các hệ thống tệp phân tán có thể mở rộng như S3, HFTP FS, FS và HDFS. Hệ thống tệp phân tán Hadoop được tạo trên Hệ thống tệp của Google. Hệ thống tệp này được thiết kế theo cách mà nó có thể dễ dàng chạy trên một cụm lớn của hệ thống máy tính.
23) Giải thích các trách nhiệm chính của một kỹ sư dữ liệu
Kỹ sư dữ liệu có nhiều trách nhiệm. Họ quản lý hệ thống nguồn của dữ liệu. Các kỹ sư dữ liệu đơn giản hóa cấu trúc dữ liệu phức tạp và ngăn chặn việc sao chép dữ liệu. Nhiều khi họ cũng cung cấp ELT và chuyển đổi dữ liệu.
24) Dạng đầy đủ của SỢI là gì?
Dạng đầy đủ của YARN là Yet Another Resource Negotiator.
25) Liệt kê các chế độ khác nhau trong Hadoop
Các chế độ trong Hadoop là 1) Chế độ độc lập 2) Chế độ phân tán giả 3) Chế độ phân phối hoàn toàn.
26) Làm thế nào để đạt được bảo mật trong Hadoop?
Thực hiện các bước sau để đạt được bảo mật trong Hadoop:
1) Bước đầu tiên là bảo mật kênh xác thực của máy khách đến máy chủ. Cung cấp thời gian đóng dấu cho khách hàng.
2) Trong bước thứ hai, khách hàng sử dụng thời gian đã nhận được đóng dấu để yêu cầu TGS cung cấp phiếu dịch vụ.
3) Trong bước cuối cùng, khách hàng sử dụng phiếu dịch vụ để tự xác thực đến một máy chủ cụ thể.
27) Nhịp tim trong Hadoop là gì?
Trong Hadoop, NameNode và DataNode giao tiếp với nhau. Nhịp tim là tín hiệu được DataNode gửi đến NameNode một cách thường xuyên để thể hiện sự hiện diện của nó.
28) Phân biệt giữa NAS và DAS trong Hadoop
NAS | DAS |
Dung lượng lưu trữ là 10 9 đến 10 12 trong byte. | Dung lượng lưu trữ là 10 9 in byte. |
Chi phí quản lý trên mỗi GB là vừa phải. | Chi phí quản lý trên mỗi GB cao. |
Truyền dữ liệu bằng Ethernet hoặc TCP / IP. | Truyền dữ liệu bằng IDE / SCSI |
29) Liệt kê các trường hoặc ngôn ngữ quan trọng được kỹ sư dữ liệu sử dụng
Dưới đây là một số trường hoặc ngôn ngữ được kỹ sư dữ liệu sử dụng:
- Xác suất cũng như đại số tuyến tính
- Máy học
- Phân tích xu hướng và hồi quy
- Cơ sở dữ liệu Hive QL và SQL
30) Dữ liệu lớn là gì?
Đó là một lượng lớn dữ liệu có cấu trúc và phi cấu trúc, không thể dễ dàng xử lý bằng các phương pháp lưu trữ dữ liệu truyền thống. Các kỹ sư dữ liệu đang sử dụng Hadoop để quản lý dữ liệu lớn.
31) Lập lịch FIFO là gì?
Nó là một thuật toán lập lịch công việc Hadoop. Trong lập lịch FIFO này, một phóng viên chọn công việc từ hàng đợi công việc, công việc cũ nhất trước tiên.
32) Đề cập đến số cổng mặc định mà trình theo dõi tác vụ, Mã tên và trình theo dõi công việc chạy trong Hadoop
Số cổng mặc định mà trình theo dõi tác vụ, NameNode và trình theo dõi công việc chạy trong Hadoop như sau:
- Trình theo dõi tác vụ chạy trên cổng 50060
- NameNode chạy trên cổng 50070
- Trình theo dõi công việc chạy trên cổng 50030
33) Cách vô hiệu hóa Block Scanner trên HDFS Data Node
Để vô hiệu hóa Block Scanner trên HDFS Data Node, hãy đặt dfs.datanode.scan.period.hours thành 0.
34) Làm thế nào để xác định khoảng cách giữa hai nút trong Hadoop?
Khoảng cách bằng tổng khoảng cách đến các nút gần nhất. Phương thức getDistance () được sử dụng để tính toán khoảng cách giữa hai nút.
35) Tại sao sử dụng phần cứng hàng hóa trong Hadoop?
Phần cứng hàng hóa dễ kiếm và giá cả phải chăng. Nó là một hệ thống tương thích với Windows, MS-DOS hoặc Linux.
36) Xác định yếu tố sao chép trong HDFS
Hệ số sao chép là tổng số bản sao của một tệp trong hệ thống.
37) Dữ liệu nào được lưu trữ trong NameNode?
Namenode lưu trữ siêu dữ liệu cho HDFS như thông tin khối và thông tin không gian tên.
38) Bạn hiểu Rack Awareness có nghĩa là gì?
Trong cụm Haddop, Namenode sử dụng Datanode để cải thiện lưu lượng mạng trong khi đọc hoặc ghi bất kỳ tệp nào gần giá đỡ gần đó hơn để yêu cầu Đọc hoặc Ghi. Namenode duy trì id rack của mỗi DataNode để đạt được thông tin rack. Khái niệm này được gọi là Nhận thức về Rack trong Hadoop.
39) Chức năng của Mã tên phụ là gì?
Sau đây là các chức năng của Mã tên phụ:
- FsImage lưu trữ một bản sao của tệp EditLog và FsImage.
- Sự cố NameNode: Nếu NameNode gặp sự cố, thì FsImage của NameNode phụ có thể được sử dụng để tạo lại NameNode.
- Checkpoint: Nó được sử dụng bởi Sub NameNode để xác nhận rằng dữ liệu không bị hỏng trong HDFS.
- Cập nhật: Nó tự động cập nhật tệp EditLog và FsImage. Nó giúp giữ cho tệp FsImage trên Mã tên phụ được cập nhật.
40) Điều gì xảy ra khi NameNode không hoạt động và người dùng nộp một công việc mới?
NameNode là điểm lỗi duy nhất trong Hadoop, do đó người dùng không thể gửi một công việc mới không thể thực hiện. Nếu NameNode bị lỗi, thì công việc có thể không thành công, do đó người dùng cần đợi NameNode khởi động lại trước khi chạy bất kỳ công việc nào.
41) Các giai đoạn cơ bản của bộ giảm tốc trong Hadoop là gì?
Có ba giai đoạn cơ bản của bộ giảm tốc trong Hadoop:
1. Shuffle: Tại đây, Reducer sao chép đầu ra từ Mapper.
2. Sắp xếp: Theo cách sắp xếp, Hadoop sắp xếp đầu vào cho Bộ giảm tốc bằng cách sử dụng cùng một phím.
3. Giảm: Trong giai đoạn này, các giá trị đầu ra được liên kết với một khóa được giảm để hợp nhất dữ liệu vào đầu ra cuối cùng.
42) Tại sao Hadoop sử dụng đối tượng Context?
Khung công tác Hadoop sử dụng đối tượng Context với lớp Mapper để tương tác với hệ thống còn lại. Đối tượng ngữ cảnh nhận chi tiết cấu hình hệ thống và công việc trong phương thức khởi tạo của nó.
Chúng tôi sử dụng đối tượng Context để truyền thông tin trong các phương thức setup (), cleanup () và map (). Đối tượng này cung cấp thông tin quan trọng trong quá trình vận hành bản đồ.
43) Xác định Combiner trong Hadoop
Đây là một bước tùy chọn giữa Bản đồ và Giảm. Combiner lấy kết quả từ chức năng Bản đồ, tạo các cặp giá trị khóa và gửi đến Hadoop Reducer. Nhiệm vụ của Combiner là tổng hợp kết quả cuối cùng từ Bản đồ thành các bản ghi tóm tắt bằng một khóa giống hệt nhau.
44) Yếu tố sao chép mặc định có sẵn trong HDFS Nó chỉ ra điều gì?
Hệ số sao chép mặc định có sẵn trong HDFS là ba. Yếu tố sao chép mặc định chỉ ra rằng sẽ có ba bản sao của mỗi dữ liệu.
45) Ý của bạn là Vị trí dữ liệu trong Hadoop?
Trong một hệ thống Dữ liệu lớn, kích thước của dữ liệu là rất lớn, và đó là lý do tại sao việc di chuyển dữ liệu trên toàn mạng là không có ý nghĩa. Bây giờ, Hadoop cố gắng di chuyển tính toán gần hơn với dữ liệu. Bằng cách này, dữ liệu vẫn còn cục bộ đối với vị trí được lưu trữ.
46) Xác định Bộ cân bằng trong HDFS
Trong HDFS, bộ cân bằng là một quản trị viên được nhân viên quản trị sử dụng để cân bằng lại dữ liệu trên các DataNodes và di chuyển các khối từ các nút được sử dụng quá mức sang các nút được sử dụng kém.
47) Giải thích chế độ An toàn trong HDFS
Đây là một chế độ chỉ đọc của NameNode trong một cụm. Ban đầu, NameNode nằm trong Safemode. Nó ngăn chặn việc ghi vào hệ thống tệp trong Safemode. Tại thời điểm này, nó thu thập dữ liệu và thống kê từ tất cả các DataNodes.
48) Tầm quan trọng của Bộ đệm phân tán trong Apache Hadoop là gì?
Hadoop có một tính năng tiện ích hữu ích được gọi là Bộ đệm phân tán giúp cải thiện hiệu suất của công việc bằng cách lưu vào bộ nhớ đệm các tệp được ứng dụng sử dụng. Một ứng dụng có thể chỉ định một tệp cho bộ đệm bằng cách sử dụng cấu hình JobConf.
Khung công tác Hadoop tạo bản sao của các tệp này đến các nút mà một tác vụ phải được thực thi. Điều này được thực hiện trước khi bắt đầu thực thi nhiệm vụ. Bộ nhớ đệm phân tán hỗ trợ việc phân phối các tệp chỉ đọc cũng như các tệp nén và tệp dạng chum.
49) Metastore trong Hive là gì?
Nó lưu trữ lược đồ cũng như vị trí bảng Hive.
Bảng Hive xác định, ánh xạ và siêu dữ liệu được lưu trữ trong Metastore. Điều này có thể được lưu trữ trong RDBMS được hỗ trợ bởi JPOX.
50) SerDe trong Hive nghĩa là gì?
SerDe là tên viết tắt của Serializer hoặc Deserializer. Trong Hive, SerDe cho phép đọc dữ liệu từ bảng tới và ghi vào một trường cụ thể ở bất kỳ định dạng nào bạn muốn.
51) Liệt kê các thành phần có sẵn trong mô hình dữ liệu Hive
Có các thành phần sau trong mô hình dữ liệu Hive:
- Những cái bàn
- Phân vùng
- Xô
52) Giải thích việc sử dụng Hive trong hệ sinh thái Hadoop.
Hive cung cấp giao diện để quản lý dữ liệu được lưu trữ trong hệ sinh thái Hadoop. Hive được sử dụng để lập bản đồ và làm việc với các bảng HBase. Các truy vấn Hive được chuyển đổi thành các công việc MapReduce để che giấu sự phức tạp liên quan đến việc tạo và chạy các công việc MapReduce.
53) Liệt kê nhiều loại dữ liệu phức tạp / bộ sưu tập được hỗ trợ bởi Hive
Hive hỗ trợ các kiểu dữ liệu phức tạp sau:
- Bản đồ
- Cấu trúc
- Mảng
- liên hiệp
54) Giải thích cách sử dụng tệp .hiverc trong Hive?
Trong Hive, .hiverc là tệp khởi tạo. Tệp này ban đầu được tải khi chúng tôi khởi động Giao diện Dòng lệnh (CLI) cho Hive. Chúng ta có thể đặt giá trị ban đầu của các tham số trong tệp .hiverc.
55) Có thể tạo nhiều bảng trong Hive cho một tệp dữ liệu không?
Có, chúng tôi có thể tạo nhiều lược đồ bảng cho một tệp dữ liệu. Hive lưu giản đồ trong Hive Metastore. Dựa trên lược đồ này, chúng tôi có thể lấy các kết quả khác nhau từ cùng một Dữ liệu.
56) Giải thích các triển khai SerDe khác nhau có sẵn trong Hive
Có rất nhiều triển khai SerDe có sẵn trong Hive. Bạn cũng có thể viết triển khai SerDe tùy chỉnh của riêng mình. Sau đây là một số triển khai SerDe nổi tiếng:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Liệt kê các chức năng tạo bảng có sẵn trong Hive
Sau đây là danh sách các hàm tạo bảng:
- Bùng nổ (mảng)
- JSON_tuple ()
- Cây rơm()
- Bùng nổ (bản đồ)
58) Bảng Skewed trong Hive là gì?
Một bảng Skewed là một bảng có chứa các giá trị cột thường xuyên hơn. Trong Hive, khi chúng tôi chỉ định một bảng là SKEWED trong quá trình tạo, các giá trị bị lệch sẽ được ghi vào các tệp riêng biệt và các giá trị còn lại sẽ chuyển sang tệp khác.
59) Liệt kê các đối tượng được tạo bằng câu lệnh create trong MySQL.
Các đối tượng được tạo bằng câu lệnh create trong MySQL như sau:
- Cơ sở dữ liệu
- Mục lục
- Bàn
- Người sử dụng
- Thủ tục
- Kích hoạt
- Biến cố
- Lượt xem
- Chức năng
60) Làm thế nào để xem cấu trúc cơ sở dữ liệu trong MySQL?
Để xem cấu trúc cơ sở dữ liệu trong MySQL, bạn có thể sử dụng
Lệnh DESCRIBE. Cú pháp của lệnh này là DESCRIBE Tên bảng ;.
61) Làm thế nào để tìm kiếm một Chuỗi cụ thể trong cột bảng MySQL?
Sử dụng toán tử regex để tìm kiếm một Chuỗi trong cột MySQL. Tại đây, chúng ta cũng có thể xác định các loại biểu thức chính quy khác nhau và tìm kiếm bằng cách sử dụng regex.
62) Giải thích cách phân tích dữ liệu và dữ liệu lớn có thể tăng doanh thu của công ty?
Sau đây là những cách phân tích dữ liệu và dữ liệu lớn có thể tăng doanh thu của công ty:
- Sử dụng dữ liệu hiệu quả để đảm bảo rằng doanh nghiệp tăng trưởng.
- Tăng giá trị khách hàng.
- Chuyển đổi phân tích để cải thiện dự báo cấp độ nhân viên.
- Cắt giảm chi phí sản xuất của các tổ chức.