Greenfeed - giải pháp tối ưu hóa dữ liệu với AWS
Được thành lập năm 2003, sứ mệnh của Greenfeed là đem đến cho người tiêu dùng chuỗi thực phẩm sạch từ trang trại đến tận bàn ăn với quy trình 3F Plus - FARM FEED FOOD. Trong quá trình vận hành quy trình khép kín đó, Renova Cloud rất vinh hạnh được hợp tác và đồng hành cùng Greenfeed trong lĩnh vực điện toán đám mây.
Lĩnh vực:
Nông nghiệp
CÔNG NGHỆ:
AWS
THỬ THÁCH CỦA KHÁCH HÀNG
Trước đây để tổng hợp được các báo cáo sales hàng ngày (daily sales report), GreenFeed sử dụng các mẫu báo cáo trên file excel và thu thập thông tin từ nhiều nguồn dữ liệu khác nhau như: hệ thống SAP, hệ thống Solomon ERP tại các nhà máy Việt Nam, Lào, Campuchia, Myanmar; và cả dữ liệu từ nhiều file excel khác nhau.
Do các dữ liệu này đang bị phân tán tại nhiều nơi, và do các bộ phận khác nhau quản lý, để tổng hợp thông tin và tạo ra một báo cáo hợp nhất sẽ mất nhiều thời gian và phải thực hiện thủ công qua nhiều giai đoạn.
Khi dữ liệu trở thành một trong những tài sản lớn nhất và có giá trị nhất của doanh nghiệp như một xu thế không thể đảo ngược, cách thức lưu trữ dữ liệu và phân tích dữ liệu có thể ảnh hưởng đến các quyết định trong kinh doanh. Các công cụ báo cáo BI (business intelligence) và phân tích nâng cao là nền tảng mà các tổ chức đang áp dụng để thúc đẩy doanh nghiệp phát triển trong nền kinh tế đầy cạnh tranh hiện nay. Do đó GF đã đưa ra các yêu cầu như sau:
- Xây dựng 01 nguồn dữ liệu tập trung (data lake), nơi có thể lưu trữ toàn bộ dữ liệu từ tất cả nguồn khác nhau để phục vụ mục đích báo cáco hiện tại: hệ thống SAP, Solomon, Excel files.
- Xây dựng một giải pháp báo cáo tự động, mỗi ngày sẽ tự cập nhật dữ liệu mới nhất và tạo ra các báo cáo daily sales. Ban giám đốc và người dùng sẽ truy cập qua web portal hoặc mobile để xem các báo cáo.
- Data lake có năng lực mở rộng không giới hạn, và có thể lưu trữ thêm các nguồn dữ liệu khác nhau trong tương lai như các database khác, nguồn dữ liệu từ bên ngoài (của đối tác, các mạng xã hội),…
GIẢI PHÁP TỪ RENOVA CLOUD
Giải pháp đưa ra nhằm trả lời những câu hỏi then chốt sau:
- Làm thế nào để chúng ta có thể trích xuất dữ liệu từ nguồn SAP?
- Làm thế nào để chúng ta có thể trích xuất dữ liệu từ nguồn Solomon với cả các site nước ngoài?
- Nguồn dữ liệu từ Excel sẽ ảnh hưởng như thế nào?
- Làm sao để chúng ta có thể tự động hóa quy trình này?
- Và làm sao để các giải pháp tương thích với AWS để khách hàng dễ dàng sử dụng?
Đầu tiên, để có thể trích xuất dữ liệu từ các nguồn về AWS, chúng ta cần thiết lập một đường kết nối bảo mật vì sử dụng kết nối Internet thông thường sẽ không đảm bảo tính bảo mật. Vậy nên, giải pháp VPN Site to Site của AWS đã được sử dụng để có thể tạo các đường VPN thông mạng từ AWS xuống dưới văn phòng của GreenFeed, cũng như là ở các site nước ngoài.
Về việc trích xuất dữ liệu, chúng ta có thể nghĩ đến ngay dịch vụ AWS DMS (Database Migration Service) nhưng thật đáng tiếc là DMS không hỗ trợ phiên bản SAP và Solomon SQL Server mà GreenFeed đang sử dụng. Thế nên, chúng ta chỉ có thể tạo script để có thể trích xuất dữ liệu và Python sẽ là ngôn ngữ chính để chúng ta thực hiện việc này.
Đối với nguồn SAP, chúng ta tạo ra các ứng dụng bằng việc sử dụng SAM CLI. Với SAM CLI, chúng ta chỉ cần phải quan tâm đến khía cạnh lập trình, còn lại SAM sẽ triển khai chúng lên Lambda Function AWS. Với nguồn SAP, chúng ta sẽ chia ra 2 nguồn và trích xuất như sau:
- Dữ liệu dành cho Dimension Table
- Đối với các dữ liệu dành cho Dimension, chúng ta sẽ thực hiện call Odata API của SAP để đẩu dữ liệu hoàn toàn vào trong S3 dưới định dạng tệp csv rồi tiến hành sao chép dữ liệu từ S3 vào trong Redshift.
- Dữ liệu dành cho Fact Table
- Đối với dữ liệu dành cho Fact Table, chúng ta cũng sẽ call Odata API của SAP để load dữ liệu lịch sử lên trước, sau đó thực hiện bước đẩy dữ liệu dần dần hằng ngày và để vào trong S3. Từ S3 chúng ta cũng tiền hành sao chép dữ liệu vào trong Redshift.
Đối với nguồn Solomon, chúng ta cũng thực hiện một Python Script để trích xuất dữ liệu và để vào trong S3. Do dữ liệu Solomon khá nhỏ nên chúng ta có thể sử dụng Redshift Spectrum để truy vấn dữ liệu từ trong Redshift ra ngoài S3 mà không phải đẩy dữ liệu từ S3 vào trong Redshift. Để thuận tiện hơn trong việc truy vấn, chúng ta sẽ có một Glue Job để có thể tinh chỉnh lại Struct Type của toàn bộ bảng và chuyển đổi về định dạng Parquet.
Đối với Excel, chúng ta upload thẳng lên S3 và load vào Redshift dùng câu lệnh COPY.
Tiếp đến sẽ là việc tự động hóa các bước trên:
- Đối với SAP, chúng ta sẽ đặt các tính năng Lambda được tạo từ SAM CLI vào trong một Step Function cho từng loại dữ liệu: dữ liệu cho Dimension, dữ liệu cho Fact. Đối với dữ liệuFact, Step Function sẽ có thêm một bước là lấy ngày hiện tại và chạy một quy trình được thiết kế sẵn để load dữ liệu vào Redshift một cách dần dần. Với dữ liệu Dimension, Step Function sẽ thực hiện việc đẩy dữ liệu hoàn toàn vào trong S3 và sau đó Evenbridge sẽ trigger truy vấn chạy quy trình để load các dữ liệu Dimension vào trong Redshift
- Đối với Solomon SQL Server, script được đặt trong một EC2 server, thế nên chúng ta sẽ sử dụng Window Scheduler để có thể đặt lịch chạy cho công việc trích xuất dữ liệu. Sau đó, bản thân AWS Glue có thể tự đặt lịch để chuyển đổi về parquet với các dữ liệu mới.
- Đối với Excel, chúng ta cũng sử dụng Eventbridge để trigger các quy trình load dữ liệu vào trong Redshift.
- Sau khi dữ liệu từ các nguồn đã được load vào trong Redshift, chúng ta sẽ trigger các quy trình này để load dữ liệu từ Staging của Redshift vào trong Datawarehouse.
LỢI ÍCH MANG LẠI
- Hệ thống datalake/data warehouse trên AWS và các báo cáo trên nền tảng Power BI đã mang lại các lợi ích lớn cho GF như sau:
- Một hệ thống datalake có thể năng lưu trữ toàn bộ dữ liệu có cấu trúc và không cấu trúc. Các dịch vụ/ công cụ hỗ trợ của AWS sẽ giúp GF dễ dàng ETL các nguồn dữ liệu khác nhau về datalake.
- Dễ dàng xem các báo cáo BI đã được tự động hoá. Các quy trình ETL dữ liệu đã được thiết lập tự động hàng ngày đổ về datalake, sau đó Power BI sẽ tự động kết nối và xây dựng nên các báo cáo daily sales theo yêu cầu của GF (hình bên dưới là một ví dụ về báo cáo sales trên giao diện mobile)
- Khả năng mở rộng của hệ thống datalake hoàn toàn có thể đáp ứng thêm các yêu cầu về phân tích nâng cao trong tương lai của GF, cũng như áp dụng các công nghệ AI/ML để đưa ra các báo cáo và quyết định quan trọng của doanh nghiệp trong hoạt động kinh doanh.
RELATED STORIES
GSM
Hành trình của GSM với Amazon EKS
GSM đã quyết định áp dụng Amazon EKS, tin tưởng giao phó khả năng điều phối container của mình sẽ cung cấp giải pháp mạnh mẽ cho cơ sở hạ tầng CNTT phức tạp của GSM.Đọc thêm>Ngân hàng Thương mại Cổ phần
Ngân hàng TMCP thành công đẩy nhanh tốc độ tăng trưởng bằng cách dịch chuyển lên AWS
Cuộc đua số hóa mang tính cạnh tranh giữa các ngân hàng ngày càng gay gắt, tập trung thu hút khách hàng am hiểu công nghệ. Ngân hàng thương mại này mong muốn dẫn đầu cuộc đua nên đòi hỏi cơ sở hạ tầng phụ trợ có thể mở rộng, đáng tin cậy và tiết kiệm chi phí để tăng trưởng nhanh chóng.Đọc thêm>IMV
IMV Business Intelligence được tăng cường bởi Giải Pháp AWS Data Management
Khi IMV đang trên đà tăng trưởng, việc cấp thiết để khắc phục các hạn chế của hệ thống hiện tại là một cơ sở hạ tầng có khả năng mở rộng, hiệu quả về chi phí và có thể thích ứng với nhu cầu dữ liệu phát triển mà không gây quá tải hoạt động.Đọc thêm>F88
F88: Hướng tới quản lý dữ liệu tập trung và an toàn với Giải pháp đám mây AWS
Được thành lập vào năm 2013, F88 doanh nghiệp tiên phong trong lĩnh vực cho vay an toàn tại Việt Nam, hướng tới việc phục vụ các doanh nghiệp nhỏ, vừa và nhỏ và khách hàng cá nhân. Với sự hỗ trợ tài chính từ các quỹ đầu tư quốc tếĐọc thêm>E-wallet
Một trong những Ví điện tử hàng đầu Việt Nam đã dịch chuyển hai workload quan trọng nhất lên AWS
Được phát triển và vận hành bởi một trong những công ty công nghệ hàng đầu khu vực, ví điện tử được đề cập là một trong những nền tảng thanh toán trực tuyến hàng đầu Việt Nam. Đọc thêm>Greenfeed
Greenfeed – giải pháp tối ưu hóa dữ liệu với AWS
Được thành lập năm 2003, sứ mệnh của Greenfeed là đem đến cho người tiêu dùng chuỗi thực phẩm sạch từ trang trại đến tận bàn ăn với quy trình Đọc thêm>Startup oi
RENOVA – STARTUP OI – HÀNH TRÌNH CHUYỂN ĐỔI
StartupOi là một công ty khởi nghiệp trong lĩnh vực về CNTT, chuyên cung cấp các giải pháp kết nối giữa các lập trình viên và các công ty tuyển dụng.Đọc thêm>Vietcetera
VIETCETERA – HÀNH TRÌNH DỊCH CHUYỂN SANG AWS
Vietcetera là công ty truyền thông được thành lập vào năm 2016 với sứ mệnh: đưa Việt Nam ra thế giới và đưa thế giới về Việt NamĐọc thêm>IMV
IMV – TỪ ON-PREMISE LÊN CLOUD
IMV đang lưu trữ tất cả các dịch vụ của họ trên các cơ sở hạ tầng vật lý. Điều này gây ra sự hạn chế đối với nhu cầu nâng cấp trong tương lai của họ.Đọc thêm>Smartpay
Smartpay – Rehost và Replatform khi dịch chuyển lên AWS
SmartPay đang ngày càng phát triển với các nhà cung cấp, đối tác và người dùng mới. Và là một đối thủ quan trọng trong bối cảnh bùng nổ ứng dụng thanh toán Việt Nam.Đọc thêm>Pepsi Co Myanmar
Tăng tốc chuyển đổi SAP S/4HANA với AWS
Pepsi Co Myanmar mong muốn hiện đại hóa hạ tầng hiện có và khởi chạy nền tảng mới cho người dùng và ứng dụng bằng các giải pháp công nghệ mới nhất cùng với SAP S/4HANA trên AWS. Đọc thêm>Nutifood Group
AWS Immersion Day với Nutifood Group
Mục tiêu của buổi chia sẻ là giúp đội ngũ IT và ban lãnh đạo của N Group tự tin sử dụng nền tảng AWS và mở ra các cơ hội kinh doanh mới. Đọc thêm>Tadiran
Hành trình dịch chuyển lên cloud của Tadiran
Tadiran là công ty sản xuất thiết bị điện hàng đầu trên toàn thế giới. Một số dòng sản phẩm nổi tiếng của công ty như pin và máy điều hòa không khí. Đọc thêm>Scratchpay
Scratchpay – Financial services
Scratchpay là một dịch vụ tài chính do Scratch Financial, Inc. cung cấp, workloads của họ được host trên cơ sở hạ tầng Public Cloud của Google Cloud Platform (GCP). Đọc thêm>UAB - Connect. Create. Change.
UAB BANK CLOUD NATIVE APPS
Là một phần trong chiến lược hiện đại hóa và số hóa, UAB đang mở rộng các dịch vụ của mình để xây dựng các ứng dụng di động cho mục đích thanh toán và Ví điện tử để phục vụ thị trường ngân hàng tiêu dùng Myanmar đang phát triển Đọc thêm>Yoma
Hành trình hiện đại hoá Yoma với AWS Cloud
Nhu cầu ngày càng tăng đối với các ứng dụng và hoạt động kinh doanh của Yoma trên các lĩnh vực khác nhau đòi hỏi phải có một kế hoạch chuyển đổi kỹ thuật số thật sự hiệu quả. Đọc thêm>AQUA
Aqua – Hành trình dịch chuyển & CI/CD
AQUA có thể cải thiện hoạt động do quá trình di chuyển và CI / CD trên AWS cũng như có thể phát hành các tính năng mới nhanh hơn với thời gian tối thiểu và sự gián đoạn cho người dùng cuối. Đọc thêm>SOVIGAZ
SOVIGAZ HÀNH TRÌNH DỊCH CHUYỂN SANG AWS
Sự linh hoạt của cơ sở hạ tầng mới giúp Sovigaz giảm bớt gánh nặng quản lý cơ sở hạ tầng như trước đây. Đồng thời loại bỏ hạn chế và tăng khả năng tiếp cận các dịch vụ tiên tiến được cung cấp trên nền tảng AWS. Đọc thêm>KAOPIZ
KAOPIZ SOFTWARE TỰ ĐỘNG HÓA & CI/CD
Tự động hóa quy trình trên AWS và tạo môi trường để thử nghiệm các tính năng mới nhằm hỗ trợ nhóm Developer & QA thực hiện công việc nhanh hơn và có thể tự động hóa dù không có kinh nghiệm và kỹ năng chuyên sâu trên AWS. Đọc thêm>NAVIGOS
Navigos- Hành trình lên Cloud
Đảm bảo an toàn trong quy trình khắc phục hậu quả là một phần trong cam kết của công ty với khách hàng của mình. Do đó, ứng dụng của Navigos yêu cầu phải có kế hoạch nhanh và hiệu quả trong mọi tình huống khắc phục thảm họa. Đọc thêm>SABECO
SABECO – DỊCH CHUYỂN VÀ TỐI ƯU HÓA KIẾN TRÚC HẠ TẦNG
Sau khi chuyển sang AWS, Sabeco có khả năng đáp ứng nhanh chóng hơn trong trường hợp tăng lưu lượng truy cập và việc sử dụng dịch vụ khi cần thiết, giúp việc chạy các chiến dịch tiếp thị và tung ra các tính năng mới ít rủi ro hơn. Đọc thêm>NKID’S
Nkid – Hành trình dịch chuyển lên Cloud
Nkid Group đang vận hành Microsoft workloads trên nhiều môi trường khác nhau như on-premises, local data center tại Vietnam, Microsoft Azure và AWS.Đọc thêm>