Trước khi chúng tôi đi đến phần giới thiệu về Dữ liệu lớn, trước tiên bạn cần biết
Dữ liệu là gì?
Các đại lượng, ký tự hoặc ký hiệu mà máy tính thực hiện các hoạt động, có thể được lưu trữ và truyền dưới dạng tín hiệu điện và được ghi lại trên phương tiện ghi từ tính, quang học hoặc cơ học.
Bây giờ, chúng ta hãy tìm hiểu giới thiệu về Dữ liệu lớn
Dữ liệu lớn là gì?
Dữ liệu lớn là một tập hợp dữ liệu có khối lượng khổng lồ, nhưng vẫn phát triển theo cấp số nhân theo thời gian. Đây là một dữ liệu có kích thước lớn và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu trữ hoặc xử lý nó một cách hiệu quả. Dữ liệu lớn cũng là một dữ liệu nhưng với kích thước khổng lồ.
Trong hướng dẫn này, bạn sẽ học,
- Dữ liệu là gì?
- Dữ liệu lớn là gì?
- Ví dụ về dữ liệu lớn
- Các loại dữ liệu lớn
- Đặc điểm của Dữ liệu lớn
- Ưu điểm của việc xử lý dữ liệu lớn
Ví dụ về dữ liệu lớn
Sau đây là một số ví dụ về Dữ liệu lớn-
Các thị trường chứng khoán New York tạo ra khoảng một terabyte dữ liệu thương mại mới mỗi ngày.
Truyền thông xã hội
Thống kê cho thấy rằng hơn 500 terabyte dữ liệu mới được đưa vào cơ sở dữ liệu của trang mạng xã hội Facebook mỗi ngày. Dữ liệu này chủ yếu được tạo về tải lên ảnh và video, trao đổi tin nhắn, bình luận, v.v.
Một động cơ phản lực duy nhất có thể tạo ra hơn 10 terabyte dữ liệu trong thời gian bay 30 phút . Với hàng nghìn chuyến bay mỗi ngày, việc tạo ra dữ liệu lên đến nhiều Petabyte.
Các loại dữ liệu lớn
Sau đây là các loại Dữ liệu lớn:
- Có cấu trúc
- Không có cấu trúc
- Bán cấu trúc
Có cấu trúc
Bất kỳ dữ liệu nào có thể được lưu trữ, truy cập và xử lý ở dạng định dạng cố định được gọi là dữ liệu 'có cấu trúc'. Theo thời gian, tài năng trong khoa học máy tính đã đạt được thành công lớn hơn trong việc phát triển các kỹ thuật làm việc với loại dữ liệu như vậy (nơi định dạng đã được biết trước) và cũng thu được giá trị từ nó. Tuy nhiên, hiện nay, chúng ta đang thấy trước các vấn đề khi kích thước dữ liệu như vậy phát triển đến mức khổng lồ, các kích thước điển hình đang ở mức khủng khiếp của nhiều zettabyte.
Bạn có biết? 10 21 byte bằng 1 zettabyte hoặc một tỷ terabyte tạo thành một zettabyte .
Nhìn vào những con số này, người ta có thể dễ dàng hiểu tại sao cái tên Dữ liệu lớn được đặt ra và hình dung những thách thức liên quan đến việc lưu trữ và xử lý nó.
Bạn có biết? Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu quan hệ là một ví dụ về dữ liệu 'có cấu trúc' .
Ví dụ về dữ liệu có cấu trúc
Bảng 'Nhân viên' trong cơ sở dữ liệu là một ví dụ về Dữ liệu có cấu trúc
Mã hiệu công nhân | Tên nhân viên | Giới tính | Phòng ban | Salary_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Nam giới | Tài chính | 650000 |
3398 | Pratibha Joshi | Giống cái | quản trị viên | 650000 |
7465 | Shushil Roy | Nam giới | quản trị viên | 500000 |
7500 | Shubhojit Das | Nam giới | Tài chính | 500000 |
7699 | Priya Sane | Giống cái | Tài chính | 550000 |
Không có cấu trúc
Bất kỳ dữ liệu nào có dạng không xác định hoặc cấu trúc được phân loại là dữ liệu phi cấu trúc. Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc còn đặt ra nhiều thách thức về quy trình xử lý để thu được giá trị từ nó. Ví dụ điển hình của dữ liệu phi cấu trúc là một nguồn dữ liệu không đồng nhất chứa sự kết hợp của các tệp văn bản đơn giản, hình ảnh, video, v.v. Ngày nay, các tổ chức ngày nay có sẵn rất nhiều dữ liệu nhưng thật không may, họ không biết cách lấy ra giá trị từ đó dữ liệu này ở dạng thô hoặc định dạng không có cấu trúc.
Ví dụ về dữ liệu không có cấu trúc
Kết quả được trả về bởi 'Google Tìm kiếm'
Bán cấu trúc
Dữ liệu bán cấu trúc có thể chứa cả hai dạng dữ liệu. Chúng ta có thể xem dữ liệu bán cấu trúc như một dạng có cấu trúc nhưng nó thực sự không được định nghĩa với ví dụ như định nghĩa bảng trong DBMS quan hệ. Ví dụ về dữ liệu bán cấu trúc là dữ liệu được biểu diễn trong tệp XML.
Ví dụ về dữ liệu bán cấu trúc
Dữ liệu cá nhân được lưu trữ trong tệp XML-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Tăng trưởng dữ liệu qua các năm
Xin lưu ý rằng dữ liệu ứng dụng web, không có cấu trúc, bao gồm tệp nhật ký, tệp lịch sử giao dịch, v.v. Hệ thống OLTP được xây dựng để hoạt động với dữ liệu có cấu trúc, trong đó dữ liệu được lưu trữ trong các quan hệ (bảng).
Đặc điểm của Dữ liệu lớn
Dữ liệu lớn có thể được mô tả bằng các đặc điểm sau:
- Âm lượng
- Đa dạng
- Vận tốc
- Sự thay đổi
(i) Khối lượng - Bản thân tên gọi Dữ liệu lớn có liên quan đến một kích thước khổng lồ. Kích thước của dữ liệu đóng một vai trò rất quan trọng trong việc xác định giá trị của dữ liệu. Ngoài ra, liệu một dữ liệu cụ thể có thực sự được coi là Dữ liệu lớn hay không, phụ thuộc vào khối lượng dữ liệu. Do đó, 'Khối lượng' là một đặc điểm cần được xem xét khi xử lý Dữ liệu lớn.
(ii) Tính đa dạng - Khía cạnh tiếp theo của Dữ liệu lớn là sự đa dạng của nó .
Đa dạng đề cập đến các nguồn không đồng nhất và bản chất của dữ liệu, cả có cấu trúc và không có cấu trúc. Trong những ngày trước đó, bảng tính và cơ sở dữ liệu là nguồn dữ liệu duy nhất được hầu hết các ứng dụng xem xét. Ngày nay, dữ liệu dưới dạng email, ảnh, video, thiết bị giám sát, PDF, âm thanh, v.v. cũng đang được xem xét trong các ứng dụng phân tích. Sự đa dạng của dữ liệu phi cấu trúc này đặt ra những vấn đề nhất định cho việc lưu trữ, khai thác và phân tích dữ liệu.
(iii) Vận tốc - Thuật ngữ 'vận tốc' đề cập đến tốc độ tạo ra dữ liệu. Tốc độ dữ liệu được tạo và xử lý để đáp ứng nhu cầu, xác định tiềm năng thực sự trong dữ liệu.
Big Data Velocity đề cập đến tốc độ mà dữ liệu đi vào từ các nguồn như quy trình kinh doanh, nhật ký ứng dụng, mạng và các trang web truyền thông xã hội, cảm biến, thiết bị di động, v.v. Luồng dữ liệu là lớn và liên tục.
(iv) Tính thay đổi - Điều này đề cập đến sự không nhất quán mà dữ liệu có thể được hiển thị đôi khi, do đó cản trở quá trình có thể xử lý và quản lý dữ liệu một cách hiệu quả.
Lợi ích của việc xử lý dữ liệu lớn
Khả năng xử lý Dữ liệu lớn mang lại nhiều lợi ích, chẳng hạn như-
- Các doanh nghiệp có thể tận dụng trí thông minh bên ngoài trong khi đưa ra quyết định
Quyền truy cập vào dữ liệu xã hội từ các công cụ tìm kiếm và các trang web như facebook, twitter đang cho phép các tổ chức điều chỉnh chiến lược kinh doanh của họ.
- Cải thiện dịch vụ khách hàng
Các hệ thống phản hồi khách hàng truyền thống đang được thay thế bằng các hệ thống mới được thiết kế với công nghệ Dữ liệu lớn. Trong các hệ thống mới này, Dữ liệu lớn và công nghệ xử lý ngôn ngữ tự nhiên đang được sử dụng để đọc và đánh giá phản hồi của người tiêu dùng.
- Nhận biết sớm rủi ro đối với sản phẩm / dịch vụ, nếu có
- Hiệu quả hoạt động tốt hơn
Công nghệ Dữ liệu lớn có thể được sử dụng để tạo khu vực tổ chức hoặc khu vực hạ cánh cho dữ liệu mới trước khi xác định dữ liệu nào nên được chuyển đến kho dữ liệu. Ngoài ra, việc tích hợp công nghệ Dữ liệu lớn và kho dữ liệu giúp tổ chức giảm tải dữ liệu được truy cập không thường xuyên.
Tóm lược
- Định nghĩa Dữ liệu lớn: Dữ liệu lớn được định nghĩa là dữ liệu có kích thước khổng lồ. Bigdata là một thuật ngữ được sử dụng để mô tả một bộ sưu tập dữ liệu có kích thước khổng lồ và đang phát triển theo cấp số nhân theo thời gian.
- Các ví dụ về phân tích Dữ liệu lớn bao gồm sàn giao dịch chứng khoán, các trang web truyền thông xã hội, động cơ phản lực, v.v.
- Dữ liệu lớn có thể là 1) Có cấu trúc, 2) Không có cấu trúc, 3) Bán cấu trúc
- Khối lượng, Sự đa dạng, Vận tốc và Sự thay đổi là một số đặc điểm của Dữ liệu lớn
- Dịch vụ khách hàng được cải thiện, hiệu quả hoạt động tốt hơn, Ra quyết định tốt hơn là một vài lợi thế của Bigdata