Đầu tiên chúng ta phải làm rõ rằng: Presto không phải là một dạng database

Không phải bởi vì Presto hiểu SQL, đồng thời nó có những tính năng của những dạng cơ sở dữ liệu tiêu chuẩn để rồi nhận định nó là một dạng cơ sở dữ liệu quan hệ. Nó không thay thế được dạng cơ sở dữ liệu như MySQL, PostgreSQL, hay Oracle. Presto không được thiết kế để xử lý những giao dịch  trực tuyến (Online Transaction Processing-OLTP). Điều này cũng đồng thời đúng với các dịch vụ Dataware House.

 

Vậy thì Presto là gì?

Presto là công cụ sinh ra nhằm giải quyết vấn đề truy vấn một lượng lớn dữ liệu bằng các câu truy vấn phân tán (distributed query)

Tại sao lại cần  truy vấn phân tán:

Trong trường hợp bạn cần làm việc với hàng petabyte, terabyte dữ liệu, có lẽ là bạn sử dụng công cụ này để tương tác với Hadoop, hay là hệ thống  file bên dưới của nó là HDFS.

Presto thiết kế để truy vấn HDFS sử dụng kỹ thuật đường ống ( pipeline) đối với các Job của MapReduce như là Hive, Pig, thế nhưng khác với Hive, Pig … Presto không chỉ giới hạn  chỉ HDFS. Presto có thể được mở rộng để hoạt động với các nguồn dữ liệu khác bao gồm cơ sở dữ liệu truyền thống, hay Cassandra

Mục đích ra đời của Presto

Nhằm xử lý truy vấn đối với Data Warehouse (kho chứa dữ liệu – Cấu trúc) và Phân tích (analytic): Phân tích dữ liệu, gộp (aggregate) khối lượng lớn của dữ liệu để trích xuất báo cáo từ đó. Dạng công việc này gọi là Phân Tích Dữ Liệu Trực Tuyến (Online Analytical Processing-OLAP)

Nếu bạn có câu hỏi hoặc đang thiết kế Data Warehouse hay cần một chiến lược về Datalake, xin vui lòng gửi thông tin về info@renovacloud.com để được tư vấn thêm

(Tạm hết phần 1)