Kế hoạch Disaster Recovery trên AWS

Các sự cố hay thảm họa luôn là rủi ro lớn nhất đến các tổ chức, đó có thể là hỏng hóc về mặt thiết bị, tấn công mạng, hay các thảm họa do thiên nhiên, hỏa hoạn, cháy nổ. Mục tiêu của DR site là đảm bảo hệ thống hoạt động trong trường hợp sự cố xảy ra. DR cho phép phục hồi ứng dụng, dữ liệu nhanh chóng, giảm thiểu gián đoạn gây ra trong hoạt động của tổ chức, doanh nghiệp.

Kế hoạch DR (DRP: Discovery Recovery Plan) là cách tiếp cận hiệu quả bao gồm tài liệu, và các chỉ dẫn chi tiết về cách khắc phục lại hệ thống. Đầu tư hạ tầng cho DR khá tốn kém, không chỉ về phí đầu tư, mà còn về vận hành, bảo trì. Rủi ro thậm chỉ vẫn xảy ra nếu DR không được thiết kế bài bản. Với sự phát triển của Cloud, mọi việc trở nên đơn giản và dễ dàng hơn rất nhiều. Các nền tảng Cloud như AWS, GCP, Azure mang đến môi trường tuyệt vời cho việc triển khai DR trên Cloud.

Ưu điểm của DR:

  1. Ứng dụng và dữ liệu được bảo vệ
  2. Giảm thiểu thời gian downtime, tăng năng suất hoạt động
  3. Đảm bảo thương hiệu, khi sự cố xảy ra không làm gián đoạn hoạt động làm ảnh hưởng đến hình ảnh của tổ chức
  4. Duy trì tính liên tục trong hoạt động của tổ chức
  5. Chuẩn cho việc kiểm thử kế hoạch
  6. An toàn, bảo mật – giảm thiểu thời gian ngừng trệ và bảo vệ dữ liệu

Các bước tiến hành trong kế hoạch DR:

  1. Xây dựng công bố về Quản lý DR: bao gồm tập hợp các quy tắc, hướng dẫn làm căn cứ cho kế hoạch phát triển và điển khai DR.
  2. Phân tích các tác động đến hoạt động kinh doanh: xác định và ưu tiên các ứng dụng cũng như hệ thống quan trọng. Việc này cho chúng ta ý tưởng khi xảy ra các tổn thất khi hệ thống bị ngưng trệ, và các rủi ro có thể ảnh hưởng đến hoạt động và tăng trưởng của công ty.
  3. Các biện pháp kiểm soát: là các bước cần thực thi để giảm thiểu các nguy cơ, rủi ro đến công ty. Có ba loại kiểm soát bao gồm các biện pháp bảo vệ dữ liệu
    • Biện pháp phòng ngừa: Nhằm xác định và ngăn chặn rủi ro xảy ra. Bao gồm việc backup và dự phòng dự liệu tại chỗ.
    • Biện pháp phát hiện: kiểm soát các tình huống không mong muốn xảy ra trên hạ tầng IT. Các biện pháp cơ bản như bảo đảm các phần mềm antivirus luôn được cập nhật, cảnh báo hỏa hoạn, đào tạo, nâng cao nhận thức cho nhân viên, cài đặt các hệ thống giám sát.
    • Biện pháp khắc phục: biện pháp khắc phục hậu quả khi có sự cố xảy ra Các biện pháp kiểm soát: là các bước cần thực thi để giảm thiểu các nguy cơ, rủi ro đến công ty. Có ba loại kiểm soát bao gồm các biện pháp bảo vệ dữ liệu
  4. Kế hoạch dự phòng: Giúp xác định các ứng dụng và bộ phận có ảnh hưởng tối thiểu khi có sự cố xảy ra.
  5. Kiểm tra và đào tạo: Kiểm tra là cần thiết nhằm cập nhật với trạng thái hiện tại của toàn bộ hệ thống, ví dụ sau một khoảng thời gian nhất định, mức độ ưu tiên của mỗi bộ phận có thể thay đổi, và cần được xem xét sau khi kiểm tra. Ngoài ra, cần đào tạo về nhận thức và quy trình về DR không chỉ cho quản lý cấp cao mà cả nhân viên.
  6. Kế hoạch bảo trì: Cần có bộ tài liệu liên tục được cập nhật về tình trạng hiện tại cũng như kế hoạch bảo dưỡng, nâng cấp hệ thống. Việc này nhằm hạn chế các rủi ro khi có sự cố về mặt phần cứng.

Kế hoạch DR trên AWS:

Rất nhiều doanh nghiệp hiện đang sử dụng AWS Cloud để xây dựng hạ tầng DR. AWS đang là nhà cung cấp dịch vụ Cloud có hạ tầng và dịch vụ mạnh nhất với nhiều dịch vụ hỗ trợ Backup/DR. Ưu điểm nổi trội đó là doanh nghiệp không cần tốn quá nhiều nguồn lược và thời gian để xây dựng, vận hành và duy trì hạ tầng DR. Khi có sự cố xảy ra, hạ tầng DR có thể nhanh chóng mở rộng để đáp ứng được nhu cầu thực tế.

Dưới đây là một số bước cần quan tâm khi thiết kế DR trên AWS:

1/ Định kỳ backup dữ liệu, DR chỉ giúp ích trong việc khôi phục và đảm bảo hệ thống hoạt động liên tục.

2/ Tối ưu chi phí: Kế hoạch DR phải đáp ứng yêu cầu của doanh nghiệp, và cần tính đến chi phí đầu tư cho DR cũng như thất thoát khi có sự cố xảy ra.

3/ Xác định RTP: RTO là thời gian kỳ vọng hệ thống sẽ khôi phục lại khi gặp sự cố

4/ Xác định RPO: Điểm kỳ vọng khôi phục lại hệ thống khi sự cố xảy ra.

5/ Lựa chon chiến lược Backup: Lựa chọn các phương án backup khác nhau có hỗ trợ trên AWS như sử dụng Amazon Machine Images (AMI), EBS Snapshots.

6/ Xác định các ứng dụng quan trọng và lựa chọn kiến trúc DR: bạn cần phải xác định các ứng dụng quan trọng nhằm lựa chọn phương án DR phù hợp và tối ưu nhất, cân bằng giữa chi phí đầu tư cũng như hiệu quả mang lại, giảm thiểu thất thoát nhất có thể khi sự cố xảy ra. AWS đưa ra 4 kiến trúc DR khác nhau, tùy theo nhu cầu thực tế của mình bạn có thể lựa chọn:

  • Backup and Restore: RTO, và RPO trong trường hợp này sẽ cao nhưng đây là phương án có chi phí đầu tư ít nhất, sử dụng các dịch vụ đơn giản như S3 để backup và khôi phục hệ thống.
  • Pilot Light: Bạn duy trì một số ứng dụng quan trọng nhất trên Cloud, các ứng dụng này có thể được mở rộng nhanh chóng khi sự cố xảy ra. Chi phí đầu tư cho phương án này sẽ cao hơn một chút so với Backup & Restore, tuy nhiên cải thiện hơn về RTO và RPO.
  • Warm Standby: Khác với Pilot Light, ở phương án này dữ liệu trên Cloud luôn được cập nhật, vì vậy thời gian downtime khi có sự cố sẽ được giảm thiểu.
  • Hot Standby: Duy trì một hệ thống tương tự trên Cloud nhưng với cấu hình có thể thấp hơn, traffic sẽ được chia sẽ giữa 2 môi trường Production và DR theo trọng số nhất định. Khi sự cố xảy ra chỉ cần mở rộng hạ tầng DR, việc này được thực hiện nhanh chóng và không có DR trên AWS.

7/ Triển khai và kiểm tra DR: Liên tục kiểm tra nhằm kiếm soát được mọi tình huống, sự cố có thể xảy ra từ đó có phương án phù hợp. Đặc biệt với những hệ thống lớn, phức tạp, bạn cần có đối tác có nhiều kinh nghiệm, và nhân lực hỗ trợ trong việc triển khai và vận hành.

Ưu và nhược điểm của DR trên AWS:

Ưu điểm:

  • Nhanh chóng phục hồi hệ thống
  • Nền tảng hạ tầng DR tin cậy với nhiều chứng chỉ được công nhận.
  • Dịch vụ tin cậy, có khả năng mở rộng đơn giản, nhanh chóng

Nhược điểm:

  • Không thể truy cập được hệ thống nếu không có kết nối Internet

 

Tổng kết

Có rất nhiều phương án DR, trong bài này chúng tôi đề cập một số điểm yêu cầu cho thiết kế DR. Với AWS bạn có thể xây dựng kế hoạch DR hiệu quả sử dụng kịch bản thực tế giúp bạn đưa ra được phương án và chiến lược tối ưu nhất cho doanh nghiệp. Một điểm quan trọng đó là với việc sử dụng AWS, các dịch vụ là on-demand, và bạn chỉ phải thanh toán cho tài nguyên thực tế sử dụng, do đó hiệu quả đầu tư mang lại lớn hơn so với tự xây dựng hạ tầng DR.