Hotline : 07 088 44444
Thích
Chia sẻ

Data Lake gì là? Ứng dụng của Data Lake

29/06/2021

Data Lake là gì?

data lake là gì

Data lake đóng vai trò như một kho lưu trữ trung tâm được sử dụng để lưu trữ một số loại dữ liệu trên quy mô lớn. Ví dụ: bạn có thể lưu trữ dữ liệu phi cấu trúc, cũng như dữ liệu có cấu trúc, trong data lake của bạn.

Data lake không yêu cầu bất kỳ upfront work nào trên dữ liệu. Bạn chỉ cần tích hợp và lưu trữ dữ liệu khi dữ liệu truyền vào từ nhiều nguồn. Tùy thuộc vào khả năng của hệ thống bạn đang sử dụng, bạn có thể thiết lập quá trình nhập dữ liệu theo thời gian thực.

Các tổ chức thường sử dụng các data lake để lưu trữ dữ liệu cho các phân tích trong tương lai hoặc thời gian thực. Việc này thường yêu cầu sử dụng các công cụ và khuôn khổ phân tích, như Google BigQuery, Amazon Athena hoặc Apache Spark.

Kiến trúc của Data Lake

Một data lake có thể có nhiều kiểu kiến ​​trúc vật lý khác nhau vì nó có thể được thực hiện bằng nhiều công nghệ khác nhau. Tuy nhiên, có ba nguyên tắc chính giúp phân biệt data lake với các phương pháp lưu trữ dữ liệu lớn khác:

kiến trúc của data lake
  • Tất cả dữ liệu được chấp nhận vào data lake: Các dữ liệu được nhập và lưu trữ từ nhiều nguồn, bao gồm dữ liệu có cấu trúc, không có cấu trúc, thô và đã xử lý.
  • Dữ liệu được lưu trữ ở dạng gốc: sau khi nhận dữ liệu từ nguồn, dữ liệu được lưu trữ mà không bị chuyển đổi hoặc được xử lý tối thiểu.
  • Dữ liệu được chuyển đổi theo yêu cầu: dữ liệu được chuyển đổi và cấu trúc theo các yêu cầu phân tích và truy vấn đang được thực hiện.

Hầu hết dữ liệu trong data lake là không có cấu trúc và không được thiết kế để trả lời các câu hỏi cụ thể, nhưng nó được lưu trữ theo cách tạo điều kiện cho việc truy vấn và phân tích động.

Bất kể bạn chọn cách triển khai data lake như thế nào, các khả năng sau sẽ giúp bạn duy trì hoạt động và sử dụng tốt dữ liệu phi cấu trúc của nó:

  • Phân loại dữ liệu và lập hồ sơ dữ liệu — data lake sẽ giúp bạn phân loại dữ liệu  theo loại dữ liệu, nội dung, tình huống sử dụng và các nhóm người dùng có thể có. Nó nên được trang bị công nghệ cấu hình dữ liệu, để cung cấp những hiểu biết sâu sắc về chất lượng dữ liệu.
  • Các quy ước — data lake nên thực thi các loại file đã thống nhất và các quy ước đặt tên.
  • Truy cập dữ liệu — cần có một quy trình truy cập dữ liệu chuẩn hóa được sử dụng bởi cả người dùng và các hệ thống tích hợp, cho phép theo dõi việc truy cập và sử dụng dữ liệu.
  • Danh mục dữ liệu — data lake phải cung cấp danh mục dữ liệu cho phép tìm kiếm và truy xuất dữ liệu theo kiểu dữ liệu hoặc kịch bản sử dụng.
  • Bảo vệ dữ liệu — phải áp dụng các biện pháp kiểm soát bảo mật, mã hóa dữ liệu và giám sát tự động, đồng thời phải đưa ra cảnh báo khi các bên trái phép truy cập vào dữ liệu hoặc khi người dùng được ủy quyền thực hiện các hoạt động đáng ngờ.
  • Quản trị dữ liệu — cần có các chính sách rõ ràng, được thông báo cho tất cả các nhân viên có liên quan, về cách điều hướng và sử dụng dữ liệu, cách thúc đẩy chất lượng dữ liệu và sử dụng dữ liệu nhạy cảm một cách hợp lý.

Phân tích Data Lake

phân tích data lake

Phân tích data lake cho phép phân tích theo yêu cầu trên khối lượng lớn dữ liệu. Bạn có thể tạo thông tin chi tiết có giá trị từ dữ liệu mà không yêu cầu cơ sở hạ tầng phức tạp để xử lý trước và sắp xếp dữ liệu của bạn.

Một số cách sử dụng phổ biến của phân tích data lake là:

  • Phân tích tương tác — lấy thông tin chi tiết cụ thể từ dữ liệu, trực tiếp từ data lake, sử dụng công cụ truy vấn hiệu suất cao như Google BigQuery hoặc Amazon Athena.
  • Xử lý dữ liệu lớn— phân tích khối lượng lớn dữ liệu bằng các công cụ như Spark hoặc Hadoop.
  • Phân tích thời gian thực — xử lý các stream dữ liệu khi chúng chảy vào data lake trong thời gian thực, bằng cách sử dụng các công cụ xử lý stream như Apache Kafka.
  • Phân tích hoạt động — tìm kiếm, lọc và trực quan hóa dữ liệu từ nhật ký và dữ liệu hoạt động, chẳng hạn như phân tích trang web hoặc internet vạn vật (IoT), sử dụng các công cụ như Elasticsearch.

So sánh Data Warehouse và Data Lake

Data Warehouse là một kho dữ liệu được thu thập và tạo ra bởi các ứng dụng kinh doanh. Data Warehouse áp dụng một lược đồ xác định trước cho dữ liệu trước khi lưu trữ nó. Bạn cần sắp xếp và tổ chức dữ liệu trước khi lưu trữ vào kho.

Data Warehouse được sử dụng để lưu trữ một lượng lớn dữ liệu có cấu trúc từ các hệ thống sản xuất, cần được phân tích thường xuyên hoặc được sử dụng để lập các báo cáo định kỳ. Data Warehouse thường là “source of truth” của tổ chức vì chúng lưu trữ dữ liệu lịch sử được tổ chức và phân loại.

Các data lake lưu trữ dữ liệu từ nhiều nguồn, bao gồm các nguồn không có cấu trúc như dữ liệu nhật ký, cảm biến Internet vạn vật (IoT) và nguồn cấp dữ liệu truyền thông xã hội. Về cơ bản, nền tảng data lake là tập hợp các tài sản dữ liệu đến từ hoạt động kinh doanh của tổ chức và các nguồn khác, cả nội bộ và bên ngoài.

Dữ liệu trong data lake rất không đồng nhất và có thể yêu cầu xử lý bổ sung, điều này khiến nó không phù hợp với người dùng phân tích kinh doanh trung bình. Tuy nhiên, các data lake có thể cực kỳ hữu ích cho những người dùng chuyên môn hơn, chẳng hạn như các nhà khoa học dữ liệu và các nhà phân tích dữ liệu tiên tiến.

Ứng dụng của Data Lake

ứng dụng của Data lake

Quản trị dữ liệu và kiểm soát dữ liệu

Các data lake làm dấy lên những lo ngại lớn về bảo mật vì chúng chứa nhiều loại dữ liệu khác nhau, một trong số đó có thể nhạy cảm hoặc có các yêu cầu tuân thủ. Bởi vì không có bảng cơ sở dữ liệu, các quyền hạn sẽ linh hoạt hơn và khó thiết lập hơn và phải dựa trên các đối tượng cụ thể hoặc định nghĩa siêu dữ liệu.

Tuy nhiên, ngày nay vấn đề này có thể được giải quyết dễ dàng và nhiều công cụ quản trị khác nhau có thể được sử dụng để kiểm soát những ai có quyền truy cập vào dữ liệu. Các giải pháp danh mục dữ liệu cho phép người dùng tạo danh mục dữ liệu, chỉ định các loại dữ liệu khác nhau và các kiểm soát truy cập cũng như chính sách lưu trữ cho từng loại.

Lưu trữ một số bản sao lưu dữ liệu

Một trong những lý do chính để áp dụng data lake là vì nó lưu trữ dữ liệu phi cấu trúc và tách biệt việc lưu trữ khỏi máy tính, cho phép bạn lưu trữ một lượng lớn dữ liệu với một khoản đầu tư tương đối nhỏ. Các data lake thường được sử dụng để lưu trữ cả dữ liệu thô và dữ liệu đã xử lý.

Nhu cầu giữ dữ liệu lịch sử ở định dạng ban đầu của nó rất phổ biến. Dữ liệu thô ban đầu có thể có nhiều cách sử dụng bao gồm:

  • Khôi phục lỗi
  • Xác thực hệ thống hoặc luồng dữ liệu
  • Phân tích thăm dò

Ngoài dữ liệu gốc này, cũng có dữ liệu đã trải qua quá trình xử lý và được sử dụng trong quy trình phân tích. Dữ liệu này cũng phải được lưu trữ để có thể phân tích trong tương lai và làm cơ sở cho các báo cáo và trang tổng quan.

Trước đây, khi mà việc lưu trữ cơ sở dữ liệu là rất cồng kềnh, đắt tiền, thì việc lưu trữ cả dữ liệu phân tích lịch sử và hiện tại dường như không khả thi. Nhưng trong các data lake hiện đại, với khả năng lưu trữ chi phí thấp gần như không giới hạn và khả năng mở rộng, điều đó trở nên khả thi. Một data lake cho phép bạn lưu trữ một số bản sao dữ liệu của mình, mỗi bản sao có thể có những cách sử dụng tiềm năng khác nhau.

Cài đặt chính sách lưu trữ

Một data lake thường lưu trữ dữ liệu lịch sử, nhưng không có dữ liệu nào được lưu trữ mãi mãi. Dữ liệu phải được xử lý khi không còn cần thiết, để có thể tiết kiệm bộ nhớ và do các yêu cầu của các tiêu chuẩn, chẳng hạn như EU GDPR, California CCPA và Australian APP.

Phải có một phương pháp kỹ thuật thuận tiện để tách dữ liệu bạn muốn xóa khỏi dữ liệu bạn muốn giữ lại. Định vị dữ liệu trên kiến ​​trúc lưu trữ data lake, có thể bao gồm các dịch vụ lưu trữ như Amazon S3, HDFS và các thiết bị lưu trữ khối, có thể là một thách thức.

Các giải pháp danh mục dữ liệu cũng có thể giúp giải quyết thách thức này, cung cấp một giao diện trung tâm có thể phân loại dữ liệu theo các khoảng thời gian lưu giữ mong muốn.

Lợi ích của Data Lake

Ưu điểm của data lake là khả năng khai thác nhiều dữ liệu hơn, từ nhiều nguồn hơn, trong thời gian ngắn hơn và trao quyền cho người dùng cộng tác và phân tích dữ liệu theo những cách khác nhau dẫn đến việc ra quyết định tốt hơn, nhanh hơn. Các ví dụ trong đó các data lake có giá trị gia tăng bao gồm:

Tương tác với khách hàng được cải thiện

Data Lake có thể kết hợp dữ liệu khách hàng từ nền tảng CRM với phân tích phương tiện truyền thông xã hội, một nền tảng tiếp thị bao gồm lịch sử mua hàng và phiếu sự cố để trao quyền cho doanh nghiệp hiểu được nhóm khách hàng sinh lời cao nhất, nguyên nhân khiến khách hàng bỏ cuộc và các chương trình khuyến mãi hoặc thưởng. Điều đó sẽ làm tăng lòng trung thành của khách hàng đối với doanh nghiệp.

Cải thiện các lựa chọn đổi mới R&D

Data lake có thể giúp nhóm R&D kiểm tra giả thuyết của họ, tinh chỉnh các giả định và đánh giá kết quả, chẳng hạn như chọn vật liệu phù hợp trong thiết kế sản phẩm, dẫn đến hiệu suất nhanh hơn, thực hiện nghiên cứu bộ gen dẫn đến thuốc hiệu quả hơn hoặc hiểu được mức độ hài lòng của khách hàng cho các thuộc tính khác nhau.

Tăng hiệu quả hoạt động

Internet of Things (IoT) giới thiệu nhiều cách hơn để thu thập dữ liệu về các quy trình như sản xuất, với dữ liệu thời gian thực đến từ các thiết bị được kết nối internet. Data lake giúp dễ dàng lưu trữ và chạy phân tích trên dữ liệu IoT do máy tạo ra để khám phá các cách giảm chi phí hoạt động và tăng chất lượng.

Nếu bạn có thắc mắc hay có vấn đề cần hỗ trợ, bạn có thể liên hệ trực tiếp với Vietnix thông qua các kênh sau:
  • Hotline: 1800 1093 - 07 088 44444
  • Email: support@vietnix.vn
  • Hoặc chat trực tiếp với Vietnix thông qua biểu tượng Livechat ở góc phải màn hình. Đội ngũ chuyên viên của chúng tôi luôn sẵn sàng tư vấn và hỗ trợ bạn 24/7.
Vietnix hiện đang có chương trình khuyến mãi lớn nhất trong năm, giảm giá TRỌN ĐỜI: Đăng ký dùng thử ngay và Vietnix sẽ hoàn tiền 100% nếu quý khách không hài lòng với chất lượng sản phẩm, dịch vụ!
Mình là Bo - admin của Quản Trị Linux. Mình đã có 10 năm làm việc trong mảng System, Network, Security và đã trải nghiệm qua các chứng chỉ như CCNP, CISSP, CISA, đặc biệt là chống tấn công DDoS. Gần đây mình trải nghiệm thêm Digital Marketing và đã hòan thành chứng chỉ CDMP của PersonVUE. Mình rất thích được chia sẻ và hỗ trợ cho mọi người, nhất là các bạn sinh viên. Hãy kết nối với mình nhé!
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments