Sau đây là các câu hỏi thường gặp trong các cuộc phỏng vấn dành cho người mới bắt đầu cũng như người kiểm tra và phát triển ETL có kinh nghiệm.
1) ETL là gì?
Trong kiến trúc kho dữ liệu, ETL là một thành phần quan trọng, quản lý dữ liệu cho bất kỳ quy trình kinh doanh nào. ETL là viết tắt của Extract, Transform and Load . Trích xuất thực hiện quá trình đọc dữ liệu từ cơ sở dữ liệu. Transform thực hiện việc chuyển đổi dữ liệu sang một định dạng có thể thích hợp cho báo cáo và phân tích. Trong khi, tải thực hiện quá trình ghi dữ liệu vào cơ sở dữ liệu đích.
2) Giải thích các hoạt động kiểm thử ETL bao gồm những gì?
Thử nghiệm ETL bao gồm
- Xác minh xem dữ liệu có đang chuyển đổi chính xác theo yêu cầu kinh doanh hay không
- Xác minh rằng dữ liệu dự kiến được tải vào kho dữ liệu mà không bị cắt bớt và mất dữ liệu
- Đảm bảo rằng ứng dụng ETL báo cáo dữ liệu không hợp lệ và thay thế bằng các giá trị mặc định
- Đảm bảo rằng dữ liệu tải vào khung thời gian dự kiến để cải thiện khả năng mở rộng và hiệu suất
3) Đề cập đến các loại ứng dụng kho dữ liệu và sự khác biệt giữa khai thác dữ liệu và kho dữ liệu là gì?
Các loại ứng dụng kho dữ liệu là
- Xử lý thông tin
- Xử lý phân tích
- Khai thác dữ liệu
Khai phá dữ liệu có thể được định nghĩa là quá trình trích xuất thông tin dự đoán ẩn từ cơ sở dữ liệu lớn và diễn giải dữ liệu trong khi kho dữ liệu có thể sử dụng mỏ dữ liệu để xử lý phân tích dữ liệu theo cách nhanh hơn. Kho dữ liệu là quá trình tổng hợp dữ liệu từ nhiều nguồn vào một kho chung
4) Các công cụ khác nhau được sử dụng trong ETL là gì?
- Luồng quyết định tiên lượng
- Oracle Warehouse Builder
- Đối tượng kinh doanh XI
- Kho kinh doanh SAS
- Máy chủ SAS Enterprise ETL
5) Thực tế là gì? Các loại dữ kiện là gì?
Nó là thành phần trung tâm của một mô hình đa chiều chứa các thước đo cần phân tích. Sự kiện có liên quan đến kích thước.
Các loại dữ kiện là
- Sự kiện phụ gia
- Sự kiện bán phụ gia
- Sự kiện không phụ gia
6) Giải thích Hình khối và Hình khối OLAP là gì?
Hình khối là đơn vị xử lý dữ liệu bao gồm các bảng dữ liệu và kích thước từ kho dữ liệu. Nó cung cấp phân tích đa chiều.
OLAP là viết tắt của Online Analytics Processing, và khối OLAP lưu trữ dữ liệu lớn ở dạng muti-chiều cho mục đích báo cáo. Nó bao gồm các dữ kiện được gọi là thước đo được phân loại theo thứ nguyên.
7) Giải thích mức độ truy tìm là gì và các loại là gì?
Mức độ truy tìm là lượng dữ liệu được lưu trữ trong các tệp nhật ký. Mức độ truy tìm có thể được phân loại theo hai loại Bình thường và Chi tiết. Mức bình thường giải thích mức độ theo dõi một cách chi tiết trong khi chi tiết giải thích các mức độ theo dõi ở mỗi và mọi hàng.
8) Giải thích Grain of Fact là gì?
Thực tế về hạt có thể được định nghĩa là cấp độ mà thông tin thực tế được lưu trữ. Nó còn được gọi là Độ chi tiết Thực tế
9) Giải thích lược đồ không thực tế là gì và các Biện pháp là gì?
Một bảng dữ kiện không có thước đo được gọi là bảng dữ kiện Không thực tế. Nó có thể xem số lượng các sự kiện xảy ra. Ví dụ, nó được sử dụng để ghi lại một sự kiện chẳng hạn như số lượng nhân viên trong một công ty.
Dữ liệu số dựa trên các cột trong bảng dữ kiện được gọi là Số đo
10) Giải thích phép biến hình là gì?
Một phép chuyển đổi là một đối tượng kho lưu trữ tạo ra, sửa đổi hoặc chuyển dữ liệu. Chuyển đổi có hai loại Chủ động và Bị động
11) Giải thích việc sử dụng Chuyển đổi Tra cứu?
Chuyển đổi tra cứu hữu ích cho
- Nhận một giá trị liên quan từ một bảng bằng cách sử dụng một giá trị cột
- Cập nhật bảng thứ nguyên thay đổi chậm
- Xác minh xem các bản ghi đã tồn tại trong bảng hay chưa
12) Giải thích phân vùng, phân vùng băm và phân vùng vòng tròn là gì?
Để cải thiện hiệu suất, các giao dịch được chia nhỏ, điều này được gọi là Phân vùng. Phân vùng cho phép Máy chủ Informatica tạo nhiều kết nối đến các nguồn khác nhau
Các loại vách ngăn là
Phân vùng Round-Robin:
- Bởi dữ liệu Informatica được phân phối đồng đều giữa tất cả các phân vùng
- Trong mỗi phân vùng mà số lượng hàng cần xử lý gần giống nhau, phân vùng này có thể áp dụng
Phân vùng băm:
- Với mục đích phân vùng khóa để nhóm dữ liệu giữa các phân vùng, máy chủ Informatica áp dụng hàm băm
- Nó được sử dụng khi đảm bảo các nhóm quy trình của hàng có cùng khóa phân vùng trong cùng một phân vùng cần được đảm bảo
13) Đề cập đến lợi ích của việc sử dụng DataReader Destination Adapter là gì?
Ưu điểm của việc sử dụng DataReader Destination Adapter là nó điền một tập bản ghi ADO (bao gồm các bản ghi và cột) trong bộ nhớ và hiển thị dữ liệu từ tác vụ DataFlow bằng cách triển khai giao diện DataReader, để ứng dụng khác có thể sử dụng dữ liệu.
14) Sử dụng SSIS (Dịch vụ Tích hợp Máy chủ SQL) có những cách nào để cập nhật bảng?
Để cập nhật bảng bằng SSIS, các cách có thể là:
- Sử dụng lệnh SQL
- Sử dụng bảng phân đoạn
- Sử dụng bộ nhớ đệm
- Sử dụng Tác vụ Tập lệnh
- Sử dụng tên cơ sở dữ liệu đầy đủ để cập nhật nếu MSSQL được sử dụng
15) Trong trường hợp bạn có nguồn không phải OLEDB (Cơ sở dữ liệu nhúng và liên kết đối tượng) để tra cứu, bạn sẽ làm gì?
Trong trường hợp nếu bạn có nguồn không phải OLEBD để tra cứu thì bạn phải sử dụng Cache để tải dữ liệu và sử dụng nó làm nguồn
16) Trong trường hợp nào bạn sử dụng bộ đệm động và bộ đệm tĩnh trong các phép biến đổi được kết nối và không được kết nối?
- Bộ đệm động được sử dụng khi bạn phải cập nhật bảng chính và kích thước thay đổi chậm (SCD) loại 1
- Đối với tệp phẳng Bộ nhớ đệm tĩnh được sử dụng
17) Giải thích sự khác biệt giữa tra cứu Chưa kết nối và Đã kết nối là gì?
Tra cứu được kết nối |
Tra cứu không kết nối |
|
- Nó được sử dụng khi hàm tra cứu được sử dụng thay vì một phép biến đổi biểu thức trong khi ánh xạ |
|
- Chỉ trả về một cổng đầu ra |
|
|
|
|
|
|
|
|
18) Giải thích chế độ xem nguồn dữ liệu là gì?
Chế độ xem nguồn dữ liệu cho phép xác định lược đồ quan hệ sẽ được sử dụng trong cơ sở dữ liệu dịch vụ phân tích. Thay vì trực tiếp từ các đối tượng nguồn dữ liệu, kích thước và hình khối được tạo từ các chế độ xem nguồn dữ liệu.
19) Giải thích sự khác biệt giữa công cụ OLAP và công cụ ETL là gì?
Sự khác biệt giữa công cụ ETL và OLAP là
Công cụ ETL có nghĩa là để trích xuất dữ liệu từ các hệ thống kế thừa và tải vào cơ sở dữ liệu cụ thể với một số quy trình làm sạch dữ liệu.
Ví dụ: Giai đoạn dữ liệu, Informatica, v.v.
Mặc dù OLAP có nghĩa là cho mục đích báo cáo trong dữ liệu OLAP có sẵn trong mô hình đa hướng.
Ví dụ: Đối tượng kinh doanh, Cognos, v.v.
20) Làm thế nào bạn có thể trích xuất dữ liệu SAP bằng Informatica?
- Với tùy chọn kết nối nguồn, bạn trích xuất dữ liệu SAP bằng thông tin
- Cài đặt và định cấu hình công cụ PowerConnect
- Nhập nguồn vào Trình phân tích nguồn. Giữa Informatica và SAP Powerconnect hoạt động như một kết nối. Bước tiếp theo là tạo mã ABAP cho ánh xạ, sau đó chỉ có thông tin mới có thể lấy dữ liệu từ SAP
- Để kết nối và nhập các nguồn từ hệ thống bên ngoài, Power Connect được sử dụng
21) Đề cập đến sự khác biệt giữa Power Mart và Power Center là gì?
Trung tâm điện |
Power Mart |
|
|
|
|
|
|
|
|
22) Giải thích khu vực dàn dựng là gì và mục đích của khu vực dàn dựng là gì?
Khu vực lưu trữ dữ liệu là một khu vực mà bạn lưu giữ dữ liệu tạm thời trên máy chủ kho dữ liệu. Phân đoạn dữ liệu bao gồm các bước sau
- Trích xuất dữ liệu nguồn và chuyển đổi dữ liệu (tái cấu trúc)
- Chuyển đổi dữ liệu (làm sạch dữ liệu, chuyển đổi giá trị)
- Thay thế các nhiệm vụ chính
23) Lược đồ xe buýt là gì?
Đối với các quy trình nghiệp vụ khác nhau để xác định các thứ nguyên chung, lược đồ BUS được sử dụng. Nó đi kèm với các kích thước phù hợp cùng với định nghĩa thông tin được tiêu chuẩn hóa
24) Giải thích xóa dữ liệu là gì?
Xóa dữ liệu là một quá trình xóa dữ liệu khỏi kho dữ liệu. Nó xóa dữ liệu rác như các hàng có giá trị rỗng hoặc khoảng trắng thừa.
25) Giải thích Đối tượng lược đồ là gì?
Đối tượng lược đồ là cấu trúc logic tham chiếu trực tiếp đến dữ liệu cơ sở dữ liệu. Các đối tượng lược đồ bao gồm bảng, dạng xem, từ đồng nghĩa trình tự, chỉ mục, cụm, gói chức năng và liên kết cơ sở dữ liệu
26) Giải thích các thuật ngữ này Session, Worklet, Mapplet và Workflow?
- Mapplet: Nó sắp xếp hoặc tạo ra các bộ chuyển đổi
- Worklet: Nó đại diện cho một tập hợp các nhiệm vụ cụ thể được đưa ra
- Quy trình làm việc: Đó là một tập hợp các hướng dẫn cho máy chủ biết cách thực thi các tác vụ
- Phiên: Đây là một tập hợp các tham số cho máy chủ biết cách di chuyển dữ liệu từ các nguồn đến mục tiêu
Tải xuống PDF miễn phí: Câu hỏi & câu trả lời phỏng vấn kiểm tra ETL