Greenfeed - giải pháp tối ưu hóa dữ liệu với AWS

Được thành lập năm 2003, sứ mệnh của Greenfeed là đem đến cho người tiêu dùng chuỗi thực phẩm sạch từ trang trại đến tận bàn ăn với quy trình 3F Plus - FARM FEED FOOD. Trong quá trình vận hành quy trình khép kín đó, Renova Cloud rất vinh hạnh được hợp tác và đồng hành cùng Greenfeed trong lĩnh vực điện toán đám mây.

Lĩnh vực:

Nông nghiệp

CÔNG NGHỆ:

AWS

THỬ THÁCH CỦA KHÁCH HÀNG

Trước đây để tổng hợp được các báo cáo sales hàng ngày (daily sales report), GreenFeed sử dụng các mẫu báo cáo trên file excel và thu thập thông tin từ nhiều nguồn dữ liệu khác nhau như: hệ thống SAP, hệ thống Solomon ERP tại các nhà máy Việt Nam, Lào, Campuchia, Myanmar; và cả dữ liệu từ nhiều file excel khác nhau.

Do các dữ liệu này đang bị phân tán tại nhiều nơi, và do các bộ phận khác nhau quản lý, để tổng hợp thông tin và tạo ra một báo cáo hợp nhất sẽ mất nhiều thời gian và phải thực hiện thủ công qua nhiều giai đoạn.

                                                                                                                         

 Với xu thế hiện nay, khi dữ liệu trở thành một trong những tài sản lớn nhất và có giá trị nhất của doanh nghiệp. Cách thức lưu trữ dữ liệu và phân tích dữ liệu có thể ảnh hưởng đến các quyết định trong kinh doanh. Các công cụ báo cáo BI (business intelligence) và phân tích nâng cao là nền tảng mà các tổ chức đang áp dụng để thúc đẩy doanh nghiệp phát triển trong nền kinh tế đầy cạnh tranh hiện nay. Do đó GF đã đưa ra các yêu cầu như sau:

  • Xây dựng 01 nguồn dữ liệu tập trung (data lake), nơi có thể lưu trữ toàn bộ dữ liệu từ tất cả nguồn khác nhau để phục vụ mục đích báo cáco hiện tại: hệ thống SAP, Solomon, Excel files.
  • Xây dựng một giải pháp báo cáo tự động, mỗi ngày sẽ tự cập nhật dữ liệu mới nhất và tạo ra các báo cáo daily sales. Ban giám đốc và người dùng sẽ truy cập qua web portal hoặc mobile để xem các báo cáo.
  • Data lake có năng lực mở rộng không giới hạn, và có thể lưu trữ thêm các nguồn dữ liệu khác nhau trong tương lai như các database khác, nguồn dữ liệu từ bên ngoài (của đối tác, các mạng xã hội),…  

GIẢI PHÁP TỪ RENOVA CLOUD

Sẽ có những câu hỏi được đặt ra rằng là:

  • Làm thế nào để chúng ta có thể trích xuất dữ liệu từ nguồn SAP
  • Làm thế nào để chúng ta có thể trích xuất dữ liệu từ nguồn Solomon với cả các site nước ngoài
  • Nguồn dữ liệu từ Excel sẽ ảnh hưởng như thế nào
  • Làm sao để chúng ta có thể tự động hóa quy trình này
  • Và làm sao để các giải pháp native nhất với AWS có thể để khách hàng dễ dàng sử dụng

Đầu tiên, để có thể trích xuất dữ liệu từ các nguồn về AWS, chúng ta sẽ cần phải thiết lập một đường kết nối bảo mật vì chúng ta không thể nào đẩy dữ liệu ra ngoài internet để trích xuất được như vậy rất nguy hiểm. Vậy nên chúng ta sẽ sử dụng VPN Site to Site của AWS để có thể tạo các đường VPN thông mạng từ AWS xuống dưới văn phòng của GreenFeed, cũng như là ở các site nước ngoài.

Về việc trích xuất dữ liệu, chúng ta có thể nghĩ đến ngay dịch vụ AWS DMS(Database Migration Service) nhưng thật đáng tiếc là DMS lại không hỗ trợ cho SAP và cũng như Solomon SQL Server của GreenFeed là version cũ mà DMS cũng không hỗ trợ. Thế nên chúng ta chỉ có thể tạo script để có thể trích xuất dữ liệu và Python sẽ là ngôn ngữ chính để chúng ta thực hiện việc này.

Đối với nguồn SAP, chúng ta tạo ra các application sử dụng SAM CLI, bằng việc sử dụng SAM CLI chúng ta chỉ cần phải quan tâm về mặt coding của chúng ta, SAM sẽ giúp chúng ta deploy lên Lambda Function AWS. Với nguồn SAP, chúng ta sẽ chia ra 2 nguồn  và trích xuất như sau:

  • Các data dành cho Dimension Table
      • Đối với các data dành cho Dimension, chúng ta sẽ thực hiện call Odata API của SAP để full load dữ liệu vào trong S3 ở dạng file csv. Sau đó sẽ tiến hành COPY dữ liệu từ S3 vào trong Redshift.
  • Data dành cho Fact Table
      • Đối với data dành cho Fact Table, chúng ta cũng sẽ call Odata API của SAP để load dữ liệu lịch sử lên trước, sau đó thực hiện load dữ liệu incremental hằng ngày và để vào trong S3. Từ S3 chúng ta cũng tiền hành COPY dữ liệu vào trong Redshift

Đối với nguồn Solomon, chúng ta cũng thực hiện một Python Script để trích xuất dữ liệu và để vào trong S3. Và đặc biệt hơn với dữ liệu của Solomon khá nhỏ, thế nên chúng ta có thể sử dụng Redshift Spectrum để query dữ liệu từ trong Redshift ra ngoài S3 mà không phải đẩy dữ liệu từ S3 vào trong Redshift. Để thuận tiện hơn trong việc query, chúng ta sẽ có 1 Glue Job để có thể tinh chỉnh lại Struct Type của toàn bộ bảng và convert về định dạng Parquet.

Đối với Excel, chúng ta upload thẳng lên S3 và load vào Redshift dùng câu lệnh COPY Command

Tiếp đến sẽ là việc tự động hóa các bước trên:

  • Đối với SAP, chúng ta sẽ đặt các Lambda Function được tạo từ SAM CLI vào trong một Step Function cho từng loại data: Data cho Dimension, Data cho Fact. Với Fact data, Step Function sẽ có thêm 1 bước là lấy ngày hiện tại và chạy 1 store procedure để load dữ liệu vào Redshift incremental. Với Dimension Data Step Function sẽ thực hiện full load vào trong S3 và sau đó Evenbridge sẽ trigger query chạy Store Procedure để load các dữ liệu Dimension vào trong Redshift.
  • Đối với Solomon SQL Server, script được đặt trong một EC2 server, thế nên chúng ta sẽ sử dụng Window Scheduler để có thể đặt schedule cho việc trích xuất dữ liệu. Sau đó bản thân AWS Glue có thể tự đặt schedule để convert về parquet với các dữ liệu mới.
  • Đối với Excel, chúng ta cũng sử dụng Eventbridge để trigger các store procedure load dữ liệu vào trong Redshift.
  • Sau khi dữ liệu từ các nguồn đã được load vào trong Redshift, chúng ta sẽ trigger các Store Procedure để load dữ liệu từ Staging của Redshift vào trong Datawarehous

LỢI ÍCH MANG LẠI

  • Hệ thống datalake/data warehouse trên AWS và các báo cáo trên nền tảng Power BI đã mang lại các lợi ích lớn cho GF như sau:
    • Một hệ thống datalake có thể năng lưu trữ toàn bộ dữ liệu có cấu trúc và không cấu trúc. Các dịch vụ/ công cụ hỗ trợ của AWS sẽ giúp GF dễ dàng ETL các nguồn dữ liệu khác nhau về datalake.
    • Dễ dàng xem các báo cáo BI đã được tự động hoá. Các quy trình ETL dữ liệu đã được thiết lập tự động hàng ngày đổ về datalake, sau đó Power BI sẽ tự động kết nối và xây dựng nên các báo cáo daily sales theo yêu cầu của GF (hình bên dưới là một ví dụ về báo cáo sales trên giao diện mobile)
    • Khả năng mở rộng của hệ thống datalake hoàn toàn có thể đáp ứng thêm các yêu cầu về phân tích nâng cao trong tương lai của GF, cũng như áp dụng các công nghệ AI/ML để đưa ra các báo cáo và quyết định quan trọng của doanh nghiệp trong hoạt động kinh doanh.

                                                                                                                             

RELATED STORIES

Greenfeed

Greenfeed – giải pháp tối ưu hóa dữ liệu với AWS

Được thành lập năm 2003, sứ mệnh của Greenfeed là đem đến cho người tiêu dùng chuỗi thực phẩm sạch từ trang trại đến tận bàn ăn với quy trình Đọc thêm>

Startup oi

RENOVA – STARTUP OI – HÀNH TRÌNH CHUYỂN ĐỔI

StartupOi là một công ty khởi nghiệp trong lĩnh vực về CNTT, chuyên cung cấp các giải pháp kết nối giữa các lập trình viên và các công ty tuyển dụng.Đọc thêm>

Vietcetera

VIETCETERA – HÀNH TRÌNH DỊCH CHUYỂN SANG AWS

Vietcetera là công ty truyền thông được thành lập vào năm 2016 với sứ mệnh: đưa Việt Nam ra thế giới và đưa thế giới về Việt NamĐọc thêm>

IMV

IMV – TỪ ON-PREMISE LÊN CLOUD

IMV đang lưu trữ tất cả các dịch vụ của họ trên các cơ sở hạ tầng vật lý. Điều này gây ra sự hạn chế đối với nhu cầu nâng cấp trong tương lai của họ.Đọc thêm>

Smartpay

Smartpay – Rehost và Replatform khi dịch chuyển lên AWS

SmartPay đang ngày càng phát triển với các nhà cung cấp, đối tác và người dùng mới. Và là một đối thủ quan trọng trong bối cảnh bùng nổ ứng dụng thanh toán Việt Nam.Đọc thêm>

Pepsi Co Myanmar

Accelerate SAP S/4HANA Transformation With AWS

Pepsi Co Myanmar mong muốn hiện đại hóa hạ tầng hiện có và khởi chạy nền tảng mới cho người dùng và ứng dụng bằng các giải pháp công nghệ mới nhất cùng với SAP S/4HANA trên AWS. Đọc thêm>

Nutifood Group

AWS Immersion Day (Nutifood Group)

Mục tiêu của buổi chia sẻ là giúp đội ngũ IT và ban lãnh đạo của N Group tự tin sử dụng nền tảng AWS và mở ra các cơ hội kinh doanh mới. Đọc thêm>

Tadiran

Serverless application implementation on AWS

Tadiran là công ty sản xuất thiết bị điện hàng đầu trên toàn thế giới. Một số dòng sản phẩm nổi tiếng của công ty như pin và máy điều hòa không khí. Đọc thêm>

Scratchpay

Scratchpay - Financial services

Scratchpay là một dịch vụ tài chính do Scratch Financial, Inc. cung cấp, workloads của họ được host trên cơ sở hạ tầng Public Cloud của Google Cloud Platform (GCP). Đọc thêm>

UAB - Connect. Create. Change.

UAB BANK CLOUD NATIVE APPS

Là một phần trong chiến lược hiện đại hóa và số hóa, UAB đang mở rộng các dịch vụ của mình để xây dựng các ứng dụng di động cho mục đích thanh toán và Ví điện tử để phục vụ thị trường ngân hàng tiêu dùng Myanmar đang phát triển Đọc thêm>

Yoma

YOMA STRATEGIC HOLDINGS

Nhu cầu ngày càng tăng đối với các ứng dụng và hoạt động kinh doanh của Yoma trên các lĩnh vực khác nhau đòi hỏi phải có một kế hoạch chuyển đổi kỹ thuật số thật sự hiệu quả. Đọc thêm>

AQUA

DỊCH CHUYỂN & CI/CD

AQUA có thể cải thiện hoạt động do quá trình di chuyển và CI / CD trên AWS cũng như có thể phát hành các tính năng mới nhanh hơn với thời gian tối thiểu và sự gián đoạn cho người dùng cuối. Đọc thêm>

SOVIGAZ

SOVIGAZ HÀNH TRÌNH DỊCH CHUYỂN SANG AWS

Sự linh hoạt của cơ sở hạ tầng mới giúp Sovigaz giảm bớt gánh nặng quản lý cơ sở hạ tầng như trước đây. Đồng thời loại bỏ hạn chế và tăng khả năng tiếp cận các dịch vụ tiên tiến được cung cấp trên nền tảng AWS. Đọc thêm>

Kymdan

Kymdan- Hành trình dịch chuyển Microsoft workloads lên AWS

Tự động hóa quy trình trên AWS và tạo môi trường để thử nghiệm các tính năng mới nhằm hỗ trợ Developer & QA, những người không có kinh nghiệm và kỹ năng chuyên sâu trên AWS, vẫn có thể rút ngắn thời gian phát triển.Đọc thêm>

KAOPIZ

KAOPIZ SOFTWARE TỰ ĐỘNG HÓA & CI/CD

Tự động hóa quy trình trên AWS và tạo môi trường để thử nghiệm các tính năng mới nhằm hỗ trợ nhóm Developer & QA thực hiện công việc nhanh hơn và có thể tự động hóa dù không có kinh nghiệm và kỹ năng chuyên sâu trên AWS. Đọc thêm>

NAVIGOS

NAVIGOS GROUP VỚI HÀNH TRÌNH DỊCH CHUYỂN & SAO LƯU

Đảm bảo an toàn trong quy trình khắc phục hậu quả là một phần trong cam kết của công ty với khách hàng của mình. Do đó, ứng dụng của Navigos yêu cầu phải có kế hoạch nhanh và hiệu quả trong mọi tình huống khắc phục thảm họa. Đọc thêm>

SABECO

SABECO - DỊCH CHUYỂN VÀ TỐI ƯU HÓA KIẾN TRÚC HẠ TẦNG

Sau khi chuyển sang AWS, Sabeco có khả năng đáp ứng nhanh chóng hơn trong trường hợp tăng lưu lượng truy cập và việc sử dụng dịch vụ khi cần thiết, giúp việc chạy các chiến dịch tiếp thị và tung ra các tính năng mới ít rủi ro hơn. Đọc thêm>

NKID’S

Nkid – Hành trình dịch chuyển lên Cloud

Nkid Group đang vận hành Microsoft workloads trên nhiều môi trường khác nhau như on-premises, local data center tại Vietnam, Microsoft Azure và AWS.Đọc thêm>