Data Lake là gì? Đó là kiến ​​trúc

Mục lục:

Anonim

Data Lake là gì?

Data Lake là một kho lưu trữ có thể lưu trữ một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Đây là nơi lưu trữ mọi loại dữ liệu ở định dạng gốc mà không có giới hạn cố định về kích thước tài khoản hoặc tệp. Nó cung cấp số lượng dữ liệu cao để tăng hiệu suất phân tích và tích hợp gốc.

Data Lake giống như một thùng chứa lớn rất giống với hồ và sông thật. Giống như trong một hồ, bạn có nhiều nhánh sông đổ vào, một hồ dữ liệu có dữ liệu có cấu trúc, dữ liệu phi cấu trúc, máy này sang máy khác, nhật ký chảy qua trong thời gian thực.

Data Lake dân chủ hóa dữ liệu và là một cách hiệu quả về chi phí để lưu trữ tất cả dữ liệu của một tổ chức để xử lý sau này. Nhà phân tích nghiên cứu có thể tập trung vào việc tìm kiếm các mẫu ý nghĩa trong dữ liệu chứ không phải bản thân dữ liệu.

Không giống như một nhà Dataware phân cấp nơi dữ liệu được lưu trữ trong Tệp và Thư mục, Data lake có kiến ​​trúc phẳng. Mọi phần tử dữ liệu trong Data Lake đều được cung cấp một số nhận dạng duy nhất và được gắn thẻ bằng một tập hợp thông tin siêu dữ liệu.

Trong hướng dẫn này, bạn sẽ học-

  • Data Lake là gì?
  • Tại sao Data Lake?
  • Kiến trúc hồ dữ liệu
  • Các khái niệm hồ dữ liệu chính
  • Các giai đoạn trưởng thành của Data Lake
  • Các phương pháp hay nhất để triển khai Data Lake:
  • Sự khác biệt giữa hồ dữ liệu và kho dữ liệu
  • Lợi ích và Rủi ro khi sử dụng Data Lake:

Tại sao Data Lake?

Mục tiêu chính của việc xây dựng hồ dữ liệu là cung cấp một cái nhìn chưa tinh chỉnh về dữ liệu cho các nhà khoa học dữ liệu.

Lý do sử dụng Data Lake là:

  • Với sự ra đời của các công cụ lưu trữ như Hadoop, việc lưu trữ thông tin khác nhau đã trở nên dễ dàng. Không cần phải mô hình hóa dữ liệu thành một lược đồ toàn doanh nghiệp với Data Lake.
  • Với sự gia tăng về khối lượng dữ liệu, chất lượng dữ liệu và siêu dữ liệu, chất lượng của các phân tích cũng tăng lên.
  • Data Lake cung cấp sự nhanh nhẹn cho doanh nghiệp
  • Học máy và Trí tuệ nhân tạo có thể được sử dụng để đưa ra các dự đoán có lợi.
  • Nó mang lại lợi thế cạnh tranh cho tổ chức thực hiện.
  • Không có cấu trúc silo dữ liệu. Data Lake cung cấp cái nhìn 360 độ về khách hàng và giúp phân tích mạnh mẽ hơn.

Kiến trúc hồ dữ liệu

Hình này cho thấy kiến ​​trúc của Hồ dữ liệu kinh doanh. Các cấp thấp hơn thể hiện dữ liệu hầu như ở trạng thái nghỉ trong khi các cấp trên hiển thị dữ liệu giao dịch theo thời gian thực. Luồng dữ liệu này qua hệ thống không có hoặc có độ trễ ít. Sau đây là các cấp quan trọng trong Kiến trúc hồ dữ liệu:

  1. Bậc nhập : Các bậc ở bên trái mô tả các nguồn dữ liệu. Dữ liệu có thể được tải vào hồ dữ liệu theo lô hoặc theo thời gian thực
  2. Bậc thông tin chi tiết: Các bậc bên phải đại diện cho phía nghiên cứu, nơi thông tin chi tiết từ hệ thống được sử dụng. Các truy vấn SQL, NoSQL hoặc thậm chí excel có thể được sử dụng để phân tích dữ liệu.
  3. HDFS là một giải pháp hiệu quả về chi phí cho cả dữ liệu có cấu trúc và phi cấu trúc. Nó là bãi đáp cho tất cả dữ liệu ở trạng thái nghỉ trong hệ thống.
  4. Bậc chưng cất lấy dữ liệu từ lốp lưu trữ và chuyển nó thành dữ liệu có cấu trúc để phân tích dễ dàng hơn.
  5. Cấp xử lý chạy các thuật toán phân tích và người dùng truy vấn với thời gian thực khác nhau, tương tác, hàng loạt để tạo dữ liệu có cấu trúc để phân tích dễ dàng hơn.
  6. Cấp hoạt động thống nhất quản lý và giám sát hệ thống. Nó bao gồm kiểm toán và quản lý thành thạo, quản lý dữ liệu, quản lý quy trình làm việc.

Các khái niệm hồ dữ liệu chính

Sau đây là các khái niệm Key Data Lake mà người ta cần hiểu để hiểu hoàn toàn về Kiến trúc Data Lake

Nhập dữ liệu

Nhập dữ liệu cho phép trình kết nối lấy dữ liệu từ các nguồn dữ liệu khác nhau và tải vào hồ dữ liệu.

Nhập dữ liệu hỗ trợ:

  • Tất cả các loại dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc.
  • Nhiều lần nhập như Hàng loạt, Thời gian thực, Tải một lần.
  • Nhiều loại nguồn dữ liệu như Cơ sở dữ liệu, Máy chủ trang web, Email, IoT và FTP.

Lưu trữ dữ liệu

Lưu trữ dữ liệu phải có khả năng mở rộng, cung cấp khả năng lưu trữ hiệu quả về chi phí và cho phép truy cập nhanh để khám phá dữ liệu. Nó sẽ hỗ trợ các định dạng dữ liệu khác nhau.

Quản trị dữ liệu

Quản trị dữ liệu là một quá trình quản lý tính sẵn có, khả năng sử dụng, bảo mật và tính toàn vẹn của dữ liệu được sử dụng trong một tổ chức.

Bảo vệ

Bảo mật cần được thực hiện trong mọi lớp của Data lake. Nó bắt đầu với Lưu trữ, Khai thác và Tiêu thụ. Nhu cầu cơ bản là ngăn chặn truy cập đối với những người dùng trái phép. Nó sẽ hỗ trợ các công cụ khác nhau để truy cập dữ liệu với GUI và Trang tổng quan dễ điều hướng.

Xác thực, Kế toán, Ủy quyền và Bảo vệ Dữ liệu là một số tính năng quan trọng của bảo mật hồ dữ liệu.

Chất lượng dữ liệu:

Chất lượng dữ liệu là một thành phần thiết yếu của kiến ​​trúc Data Lake. Dữ liệu được sử dụng để xác định giá trị kinh doanh. Trích xuất thông tin chi tiết từ dữ liệu chất lượng kém sẽ dẫn đến thông tin chi tiết chất lượng kém.

Khám phá dữ liệu

Khám phá dữ liệu là một giai đoạn quan trọng khác trước khi bạn có thể bắt đầu chuẩn bị dữ liệu hoặc phân tích. Trong giai đoạn này, kỹ thuật gắn thẻ được sử dụng để thể hiện sự hiểu biết về dữ liệu, bằng cách tổ chức và diễn giải dữ liệu được nhập vào Data lake.

Kiểm toán dữ liệu

Hai nhiệm vụ kiểm tra Dữ liệu chính là theo dõi các thay đổi đối với tập dữ liệu chính.

  1. Theo dõi các thay đổi đối với các phần tử quan trọng của tập dữ liệu
  2. Ghi lại cách thức / khi nào / và ai thay đổi các yếu tố này.

Kiểm toán dữ liệu giúp đánh giá rủi ro và tuân thủ.

Dòng dữ liệu

Thành phần này xử lý nguồn gốc của dữ liệu. Nó chủ yếu giải quyết nơi nó di chuyển theo thời gian và những gì xảy ra với nó. Nó giúp giảm bớt việc sửa lỗi trong quá trình phân tích dữ liệu từ điểm xuất phát đến điểm đến.

Khám phá dữ liệu

Đây là giai đoạn bắt đầu của phân tích dữ liệu. Nó giúp xác định đúng tập dữ liệu là rất quan trọng trước khi bắt đầu Khám phá dữ liệu.

Tất cả các thành phần đã cho cần phải làm việc cùng nhau để đóng một phần quan trọng trong việc xây dựng Data lake dễ dàng phát triển và khám phá môi trường.

Các giai đoạn trưởng thành của Data Lake

Định nghĩa về các giai đoạn trưởng thành của Data Lake khác với sách giáo khoa. Mặc dù điểm mấu chốt vẫn như cũ. Sau khi trưởng thành, định nghĩa giai đoạn là theo quan điểm của giáo dân.

Giai đoạn 1: Xử lý và nhập dữ liệu trên quy mô lớn

Giai đoạn đầu tiên của Data Maturity này đòi hỏi việc cải thiện khả năng biến đổi và phân tích dữ liệu. Tại đây, các chủ doanh nghiệp cần tìm các công cụ theo bộ kỹ năng của họ để thu thập thêm dữ liệu và xây dựng các ứng dụng phân tích.

Giai đoạn 2: Xây dựng cơ phân tích

Đây là giai đoạn thứ hai liên quan đến việc cải thiện khả năng chuyển đổi và phân tích dữ liệu. Trong giai đoạn này, các công ty sử dụng công cụ phù hợp nhất với bộ kỹ năng của họ. Họ bắt đầu thu thập nhiều dữ liệu hơn và xây dựng các ứng dụng. Ở đây, các khả năng của kho dữ liệu doanh nghiệp và hồ dữ liệu được sử dụng cùng nhau.

Giai đoạn 3: EDW và Data Lake cùng hoạt động

Bước này liên quan đến việc đưa dữ liệu và phân tích đến tay của càng nhiều người càng tốt. Trong giai đoạn này, hồ dữ liệu và kho dữ liệu doanh nghiệp bắt đầu hoạt động trong một liên minh. Cả hai đều đóng vai trò của mình trong phân tích

Giai đoạn 4: Năng lực doanh nghiệp trong hồ

Trong giai đoạn hoàn thiện này của hồ dữ liệu, các khả năng của doanh nghiệp được thêm vào Hồ dữ liệu. Áp dụng quản trị thông tin, khả năng quản lý vòng đời thông tin và quản lý siêu dữ liệu. Tuy nhiên, rất ít tổ chức có thể đạt được mức trưởng thành này, nhưng số lượng này sẽ tăng lên trong tương lai.

Các phương pháp hay nhất để triển khai Data Lake:

  • Các thành phần kiến ​​trúc, sự tương tác của chúng và các sản phẩm đã xác định phải hỗ trợ các kiểu dữ liệu gốc
  • Thiết kế của Data Lake nên được thúc đẩy bởi những gì có sẵn thay vì những gì được yêu cầu. Yêu cầu về lược đồ và dữ liệu không được xác định cho đến khi nó được truy vấn
  • Thiết kế nên được hướng dẫn bởi các thành phần dùng một lần được tích hợp với API dịch vụ.
  • Việc khám phá, nhập, lưu trữ, quản trị, chất lượng, chuyển đổi và trực quan hóa dữ liệu phải được quản lý một cách độc lập.
  • Kiến trúc Data Lake nên được điều chỉnh cho phù hợp với một ngành cụ thể. Nó phải đảm bảo rằng các khả năng cần thiết cho miền đó là một phần vốn có của thiết kế
  • Việc cập nhật nhanh hơn các nguồn dữ liệu mới được phát hiện là rất quan trọng
  • Data Lake giúp quản lý tùy chỉnh để trích xuất giá trị tối đa
  • Data Lake nên hỗ trợ các kỹ thuật và phương pháp quản lý dữ liệu doanh nghiệp hiện có

Những thách thức khi xây dựng hồ dữ liệu:

  • Trong Data Lake, khối lượng dữ liệu cao hơn, do đó, quá trình này phải phụ thuộc nhiều hơn vào quản trị có lập trình
  • Rất khó để đối phó với dữ liệu thưa thớt, không đầy đủ, dễ bay hơi
  • Phạm vi rộng hơn của tập dữ liệu và nguồn cần hỗ trợ và quản trị dữ liệu lớn hơn

Sự khác biệt giữa hồ dữ liệu và kho dữ liệu

Thông số Hồ dữ liệu Kho dữ liệu
Dữ liệu Các hồ dữ liệu lưu trữ mọi thứ. Kho dữ liệu chỉ tập trung vào Quy trình nghiệp vụ.
Chế biến Dữ liệu chủ yếu chưa được xử lý Dữ liệu được xử lý cao.
Loại dữ liệu Nó có thể là Không cấu trúc, bán cấu trúc và cấu trúc. Nó chủ yếu ở dạng bảng và cấu trúc.
Bài tập Chia sẻ quyền quản lý dữ liệu Được tối ưu hóa để truy xuất dữ liệu
Nhanh nhẹn Rất nhanh nhẹn, cấu hình và cấu hình lại khi cần thiết. So với Data lake, nó kém linh hoạt hơn và có cấu hình cố định.
Người dùng Data Lake chủ yếu được sử dụng bởi Data Scientist Các chuyên gia kinh doanh sử dụng rộng rãi Data Warehouse
Lưu trữ Thiết kế hồ dữ liệu để lưu trữ chi phí thấp. Bộ nhớ đắt tiền có thời gian phản hồi nhanh được sử dụng
Bảo vệ Cung cấp khả năng kiểm soát ít hơn. Cho phép kiểm soát dữ liệu tốt hơn.
Thay thế EDW Hồ dữ liệu có thể là nguồn cho EDW Bổ sung cho EDW (không thay thế)
Lược đồ Lược đồ khi đọc (không có lược đồ xác định trước) Lược đồ khi ghi (lược đồ xác định trước)
Xử lí dữ liệu Giúp nhập nhanh dữ liệu mới. Tốn nhiều thời gian để giới thiệu nội dung mới.
Mức độ chi tiết của dữ liệu Dữ liệu ở mức độ chi tiết hoặc chi tiết thấp. Dữ liệu ở mức độ chi tiết tóm tắt hoặc tổng hợp.
Công cụ Có thể sử dụng mã nguồn mở / công cụ như Hadoop / Map Reduce Chủ yếu là các công cụ thương mại.

Lợi ích và Rủi ro khi sử dụng Data Lake:

Dưới đây là một số lợi ích chính khi sử dụng Data Lake:

  • Hỗ trợ đầy đủ với quá trình ion hóa sản phẩm và phân tích nâng cao
  • Cung cấp khả năng mở rộng và tính linh hoạt hiệu quả về chi phí
  • Cung cấp giá trị từ các loại dữ liệu không giới hạn
  • Giảm chi phí sở hữu dài hạn
  • Cho phép lưu trữ kinh tế các tệp
  • Nhanh chóng thích ứng với những thay đổi
  • Ưu điểm chính của data lake là tập trung các nguồn nội dung khác nhau
  • Người dùng, từ các phòng ban khác nhau, có thể ở rải rác trên toàn cầu có thể có quyền truy cập linh hoạt vào dữ liệu

Rủi ro khi sử dụng Data Lake:

  • Sau một thời gian, Data Lake có thể mất đi mức độ liên quan và động lực
  • Có rủi ro số lượng lớn hơn liên quan trong khi thiết kế Data Lake
  • Dữ liệu không có cấu trúc có thể dẫn đến Chao không được kiểm soát, Dữ liệu không thể sử dụng, Các công cụ riêng biệt & phức tạp, Cộng tác trong toàn doanh nghiệp, Hợp nhất, Nhất quán và Chung
  • Nó cũng làm tăng lưu trữ và tính toán chi phí
  • Không có cách nào để có được thông tin chi tiết từ những người khác đã làm việc với dữ liệu bởi vì không có tài khoản về nguồn gốc của các phát hiện của các nhà phân tích trước đó
  • Rủi ro lớn nhất của các hồ dữ liệu là bảo mật và kiểm soát truy cập. Đôi khi dữ liệu có thể được đưa vào hồ mà không cần bất kỳ sự giám sát nào, vì một số dữ liệu có thể có quyền riêng tư và nhu cầu pháp lý

Tóm lược:

  • Data Lake là một kho lưu trữ có thể lưu trữ một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc.
  • Mục tiêu chính của việc xây dựng hồ dữ liệu là cung cấp một cái nhìn chưa tinh chỉnh về dữ liệu cho các nhà khoa học dữ liệu.
  • Cấp hoạt động hợp nhất, cấp chế biến, cấp chưng cất và HDFS là các lớp quan trọng của Kiến trúc hồ dữ liệu
  • Nhập dữ liệu, Lưu trữ dữ liệu, Chất lượng dữ liệu, Kiểm tra dữ liệu, Khám phá dữ liệu, Khám phá dữ liệu là một số thành phần quan trọng của Kiến trúc Hồ dữ liệu
  • Thiết kế của Data Lake nên được thúc đẩy bởi những gì có sẵn thay vì những gì được yêu cầu.
  • Data Lake giảm chi phí sở hữu lâu dài và cho phép lưu trữ kinh tế các tệp
  • Rủi ro lớn nhất của các hồ dữ liệu là bảo mật và kiểm soát truy cập. Đôi khi dữ liệu có thể được đưa vào hồ mà không cần bất kỳ sự giám sát nào, vì một số dữ liệu có thể có quyền riêng tư và nhu cầu quản lý.