Mọi người đều biết Google là công cụ xử lý dữ liệu lớn từng giây hằng ngày để cung cấp dịch vụ như Search, YouTube, Gmail, Google Docs,…

Ví dụ: bạn là một nhân viên chuyên trách về phân tích dữ liệu muốn có câu trả lời nhanh cho các vấn đề như sau:

  • Số lượng hiển thị (impression) đối với một quảng cáo trong một khu vực cụ thể ( thành phố).
  • Cần vẽ biểu đồ xu hướng của lưu lượng của Adwords trong một vùng cụ thể / thời gian cụ thể.

Bạn sẽ gặp trở ngại khi sử dụng các công cụ truyền thống để trả lời 2 câu hỏi tưởng chừng rất đơn giản này trong vài phút

Liệu có cách nào xử lý vấn đề bạn cần nhanh hơn? Câu trả lời là Dremel.

 

Vậy Dremel là gì?

Dremel là dịch vụ truy vấn cho phép bạn chạy các câu truy vấn dạng như SQL để tìm kiếm và có chính xác thông tin cần tìm trong một khối lượng dữ liệu cực lớn chỉ trong vòng vài giây.

Bạn chỉ cần biết một ít kiến thức về SQL để truy vấn một khối lượng dữ liệu khổng lồ bất kỳ lúc nào.

Và đây là lý do tại sao Dremel là công cụ được sử dụng bởi kỹ sư tại Google mọi lúc mọi nơi để tìm kiếm thông tin họ cần.

Big Query: Là dịch vụ thương mại hóa của Dremel dành cho  người dùng Google Cloud Platform (GCP)

Khả năng: Quét 35 tỷ hàng không chỉ mục trong khoảng vài chục giây. Đồng thời Dremel có thể chạy song song trên hàng chục ngàn máy chủ, đây là lý do Dremel được gọi là Dịch vụ truy vấn song song trên diện rộng (Massively Parallel Query  Engine ) .

Tất cả những truy vấn  trên Dremel có thể truy vấn trên  35 tỷ hàng, với dung lương dữ liệu quét trên 20TB trong khoảng thời gian cực ngắn đối với lượng dữ liệu khổng lồ này khi truy vấn bằng các công cụ thông thường (có thể mất đến hàng ngày, thậm chí không trả được kết quả do giới hạn về năng lực tính toán tại một thời điểm nhất định)

 

Dremel là chìa khóa cho các dịch vụ tìm kiếm trên diện rộng trong nội bộ của Google nay được đem đến GCP dưới tên gọi Big Query

Sau đây là một số ứng dụng của Dremel trong Google:

  • Phân tích cho những tài liệu web (web document) do web crawler trả về. Tính năng quan trọng để xếp hạng trang web.
  • Giám sát dữ liệu được cài đặt trên Android market
  • Phân tích ứng dụng bị hỏng giữa chừng (crash report) đối với sản phẩm của google
  • Phân tích mail spam: điều quan trọng là phân tích từ vựng, tìm mẫu thống kê cho những email bị xếp loại là spam
  • Phân tích những ký hiệu và tương quan trong các thư viện lập trình của Google
  • Giám sát thông tin về tài nguyên , đối với các ứng dụng chạy trong  trung tâm dữ liệu của Google
  • Và còn nhiều ứng dụng khác nữa,…

Qua phần 2 của bài viết này hy vọng các bạn có một cái nhìn rõ hơn về một thành phần nữa của BigQuery.

Trong phần sau chúng tôi sẽ đề cập đến cách thức lưu trữ dữ liệu để truy vấn trong Big Query

Các bạn có yêu cầu gì, xin vui lòng liên hệ info@renovacloud.com, để được tư vấn thêm.