Với s gia tăng nhu cầu phân tích d liu, nhóm kỹ sư phân tích d liu đa chc năng và đám mây, đã làm “Cloud Data Warehouse” nổi lên nhờ sự đáp ứng linh hoạt và đổi mi. Đám mây giúp d liu d qun lý, tiếp cn hơn vi nhiu người dùng. Và x lý nhanh hơn rt nhiu bằng nhiều cách khác nhau.

Tuy nhiên, vic chn kho d liu đám mây phù hp với nn tng d liu ca bn, không phải là việc dễ dàng.

Vi vic cho ra mắt Amazon Redshift vào năm 2013. Sau đó là Snowflake, Google Big Query và nhng kho lưu tr d liu khác trong nhng năm tiếp theo. Th trường đang ngày càng tr nên nóng bng hơn. Data Lakes càng làm cho vic chọn lựa cũng tr nên khó khăn hơn nhiu!

Cho dù bn ch mi bt đầu hay đang trong quá trình đánh giá li gii pháp hin có ca mình. Sau đây là nhng điu bn cn biết để chn đúng Data Warehouse (hoc Lake) cho vic lưu tr d liu:

Data Warehouse/Lake là gì?

Data Warehouse và Lake là nn tng ca cơ s h tng d liu. Cung cp kh năng lưu tr, sc mnh tính toán và thông tin theo ng cnh trong h sinh thái ca bn. Ging như động cơ ca ô tô, chúng như nhng chú nga kéo theo các nn tng d liu.

Các Data Warehouse và Lake kết hp bn thành phn chính sau:

Metadata

Các Data Warehouse và Lake cung cp dịch vụ để qun lý và theo dõi tt c các cơ s d liu, schema và bng mà bn to. Các đối tượng này đi kèm vi thông tin b sung như schema, kiu d liu, mô t do người dùng to hoc thm chí là các thng kê khác v d liu.

Kho lưu trữ

Lưu tr: Warehouse/Lake lưu tr vt lý tt c các bn ghi trên tt c các bng.

Điện toán

Warehouse/Lake thc thi trên các bn ghi d liu mà nó lưu tr. Đây là công c cho phép người dùng “truy vn” d liu, nhp d liu, chuyn đổi d liu – và rng hơn là trích xut giá tr t nó. Thông thường, các phép tính này được th hin qua SQL.

Ti sao nên chn Data Warehouse?

Data Warehouse là gii pháp được tích hp và qun lý hoàn toàn. Giúp vic xây dng và vn hành đơn gin hơn. Khi s dng Data Lakes, bn thường s dng metadata, lưu tr và tính toán t mt gii pháp duy nht. Mà được xây dng và vn hành bi mt nhà cung cp duy nht.

Không ging như Date Lakes, Data Warehouse thường yêu cu nhiu cu trúc và schema hơn. Điu này giúp phân tích d liu tt hơn nhưng ít phc tp hơn khi đọc và s dng d liu.

Nh các chc năng được đóng gói sn và h tr mnh m cho SQL. Data Warehouse to điu kin thun li cho vic truy vn nhanh chóng. Khiến chúng tr nên tuyt vi cho các nhóm kỹ sư phân tích d liu.

Các Data Warehouse ph biến bao gm:
  • Amazon Redshift: thuộc Amazon Web Services (AWS), kho d liu đám mây ph biến rng rãi (và sn có) đầu tiên. Nó tn dng kết ni ngun để chuyn d liu t các ngun d liu thô vào lưu tr quan h. Cu trúc lưu tr dng ct và quá trình x lý song song ca Redshift khiến nó tr nên lý tưởng cho khi lượng công vic phân tích.
  • Google BigQuery: Ging như Redshift, Google BigQuery tn dng nn tng đám mây độc quyn ca công ty m (Google Cloud). S dng định dng lưu tr dng ct và tn dng quá trình x lý song song để truy vn nhanh. Không ging như Redshift, BigQuery là mt gii pháp không máy ch có quy mô linh hoạt theo nhu cầu.
  • Snowflake: Không ging như Redshift hoc GCP da vào các đám mây độc quyn ca h để hot động. Kh năng lưu tr d liu đám mây ca Snowflake được cung cp bi AWS, Google, Azure và các h tng đám mây công cng khác. Không ging như Redshift, Snowflake cho phép người dùng tr phí tính toán và lưu tr riêng bit. Làm cho Data Warehouse tr thành mt la chn tuyt vi cho các nhóm đang tìm kiếm dạng chi tr linh hot hơn.

Ti sao nên chn Data Lake?

Các Data Lake là phiên bn thủ công ca Data Warehouse. Cho phép các nhóm k thut d liu la chn các công ngh siêu d liu, lưu tr và tính toán khác nhau mà h mun s dng tùy thuc vào nhu cu h thng.

Các Data Lake sẽ lý tưởng cho các nhóm đang tìm cách xây dng mt nn tng tùy chnh, thường được h tr bi mt s ít (hoc nhiu) k sư d liu.

Các Data Lake thường được xây dng vi s kết hp ca công ngh mã ngun m và mã ngun đóng, giúp chúng d dàng tùy chnh và có th x lý các quy trình công vic ngày càng phc tp. Hình nh do Lior Gavish / Monte Carlo cung cp.

 

Mt s đặc đim chung ca h d liu bao gm:
  • Tính toán và lưu tr tách ri: Chc năng này không ch có th cho phép tiết kim đáng k chi phí. Mà còn to điu kin thun li cho vic phân tích cú pháp. Và làm phong phú d liu để truyn phát và truy vn theo thi gian thc.
  • H tr mnh m cho điện toán phân tán: Điện toán phân tán h trợ mạnh mẽ x lý d liu quy mô ln. Vì nó cho phép hiu sut truy vn phân đon tt hơn. Thiết kế có kh năng chu li cao hơn và x lý d liu song song vượt tri.
  • Kh năng tùy chnh và tương tác: Do tính cht “cm và chy”, các data lake h tr kh năng m rng dễ dàng nhờ vào sự kết nối linh hoạt các phn t khác nhau ca kho lưu tr. Cũng như nhu cu d liu ca công ty khi phát trin và mở rộng.
  • Được xây dng rộng rãi trên mã ngun m: Điu này to điu kin gim thiu tình trng khóa từ nhà cung cp. Và cung cp kh năng tùy chnh tuyt vi, hot động tt.
  • Kh năng x lý d liu không có cu trúc hoc có cu trúc yếu: Các Data Lake và mt s Data Warehouse (như Snowflake và BigQuery) có th h tr d liu thô. Có nghĩa là bn có tính linh hot cao hơn khi làm vic vi d liu ca mình, lý tưởng cho các nhà khoa hc d liu và k sư d liu. Làm vic vi d liu thô cho phép bn kim soát nhiu hơn dữ liệu tng hp và tính toán ca mình.
  • H tr các mô hình lp trình non-SQL phc tp: Nhiu Data Lake h tr Apache Hadoop, Apache Spark, PySpark. Và các framework khác dành cho khoa hc d liu nâng cao và machine learning.
Nhiu kho dữ liệu, chng hn như Snowflake và BigQuery, hin cũng h tr mt s chc năng này.

Ngay khi bn nghĩ rng quyết định này đã đủ khó khăn rồi thì mt tùy chn lưu tr d liu khác lại ni lên như mt la chn ngày càng ph biến, đặc bit là trong các nhóm k thut d liu.

Chng hn như Data Lakehouse, gii pháp kết hp các tính năng ca c Data Warehouse và Data Lake. Và kết qu là, kết hp các công ngh phân tích d liu truyn thng vi nhng công ngh được xây dng cho các tính toán nâng cao hơn (như là cho machine learning).

Data Lakehouse cung cp kh năng tùy chnh cao hơn na. Cho phép các nhóm kỹ sư lưu tr d liu trên đám mây. Và chỉ cần tn dng một warehouse cho việc tính toán. Hình nh do Lior Gavish / Monte Carlo cung cp.

Các Data Lakehouse ln đầu tiên xut hin khi các nhà cung cp giới thiệu tính năng vô cùng hữu ích “lake-style”. Chng hn như Redshift Spectrum hoc Delta Lake. Tương t, các Data Lake đã và đang b sung các công ngh như SQL chc năng và schema.

Ngày nay, s cách biệt gia Warehouse và Lake ngày càng dần thu hp. Giúp có th truy cp các tính nắng tt nht của c hai t mt dịch vụ.

Các chc năng sau đang giúp các cơ s d liu làm m ranh gii gia hai công ngh:
  • SQL hiu sut cao: các công ngh như Presto và Spark cung cp cho SQL khả năng tương tác tc độ trên các data lake. Điu này m ra kh năng các data lake có thể phân tích và làm việc trc tiếp. Mà không yêu cu ETL vào kho d liu truyn thng.
  • Schema: các định dng tp như Parquet gii thiu schema tốt hơn cho các bng d liu, cũng như định dng ct để có hiu qu truy vn cao hơn.
  • Tính nguyên t, nht quán, cô lp và độ bn (ACID): các công ngh Lake như Delta LakeApache Hudi gii thiu khả năng ghi/đọc với độ tin cy cao. Và đưa Lake tiến lên mt bước gn hơn vi các thuc tính ACID. Mà là tiêu chun trong các công ngh cơ s d liu truyn thng.
  • Dch v được qun lý: đối vi các nhóm mun gim bớt tác vụ xây dng và vn hành Data Lake, đã có nhiu dch v Lake được qun lý ra đời. Ví d: Databricks cung cp phiên bn được qun lý Apache Hive, Delta Lake, và Apache Spark. Trong khi Amazon Athena cung cp công c truy vn SQL Lake được qun lý hoàn toàn và Amazon’s Glue cung cp dch v siêu d liu được qun lý hoàn toàn.

Vi s gia tăng ca tính năng tng hp và phát trc tuyến d liu theo thi gian thc để cung cp thông tin phân tích tc độ ánh sáng (tc độ Thung lũng Silicon: Uber, DoorDash, và Airbnb), các Data Lakehouse có th s tr nên ph biến và đáp ứng các nhóm d liu trong nhiều ngành trong nhng năm ti.

Vy, dịch vụ nào dành cho bạn?

Điều này thật không dễ dàng. Trên thc tế, không có gì ngc nhiên khi các kỹ sư thường xuyên di chuyn t gii pháp kho d liu này sang gii pháp kho d liu khác khi nhu cu ca t chc d liu ca h thay đổi và phát trin. Đ đáp ng nhu cu ca người tiêu dùng d liu (mà ngày nay, gn như mi bộ phận trong doanh nghip, t Tiếp th và Bán hàng cho Hot động và Nhân sự cần đến).

Trong khi các Data Warehouse thường phù hợp cho các nn tng d liu để phân tích và báo cáo d liu. Các Data Lake ngày càng tr nên thân thin vi người dùng.

Bt k con đường bn chn là gì, hãy áp dng các phương pháp sau:

Chn gii pháp phù hp vi mc tiêu d liu ca công ty bn.

Nếu công ty ch thường xuyên s dng mt hoc hai ngun d liu quan trng cho mt vài quy trình công vic được chn. Thì vic xây dng mt Data Lake t đầu có th không hp lý, c v thi gian và tài nguyên. Nhưng nếu công ty muốn rõ ràng chi tiết mi th, thì gii pháp hybrid warehouse-lake có th giúp tổng hợp chi tiết nhanh chóng, chi tiết cho từng người dùng trên các vai trò khác nhau.

Biết người dùng là ai.

Liu người dùng chính ca nn tng d liu ca bn là nhóm phân tích kinh doanh, được phân b trên mt s chc năng khác nhau không? Còn v mt đội ngũ k sư d liu chuyên dng thì sao? Hay mt vài nhóm nhà khoa hc d liu đang chy th nghim A / B vi nhiu b d liu khác nhau? Tt c nhng điu trên? Bt k, hãy tùy chn Data Warehouse/Lake/Lakehouse phù hợp vi các b k năng và nhu cu ca người dùng.

Đừng quên kh năng quản lý d liu.

Data Warehouse, Data Lake, Data Lakehouse:  Tt c ba gii pháp (và bt k s kết hp nào gia chúng) s yêu cu mt cách tiếp cn khác nhau để qun tr d liu và cht lượng d liu.

Rt cuc, nn tng d liu ca bn chỉ mnh mđáng tin cy nếu như dữ liệu nhập vào chính xác. Nếu d liu ca bn b hng, b thiếu hoc không chính xác, thì sử dụng dịch vụ có cao cấp đến mấy cũng không còn quan trọng nữa .

Đu tư quá nhiều vào dịch vụ mi nht và tt nht cũng sẽ không hiệu quả nếu d liu không chính xác. Để gii quyết vn đề này, mt s nhóm kỹ sư đang tn dng kh năng quan sát d liu, mt cách tiếp cn đầu cui để giám sát và cnh báo các vn đề trong đường ng d liu ca bn.

Hãy cùng chúng tôi tìm hiu thêm v điu này trong bài viết sp ti.

Tác gi: Doron Shachar, CEO Renova Cloud