RPTO คืออะไร? สิ่งที่ต้องรู้ก่อนจะ Backup หรือทำ DR Site!

สวัสดีครับท่านผู้อ่าน วันนี้จะเป็นบทความสบาย ๆ เกี่ยวกับสิ่งที่จำเป็นที่องค์กรหลาย ๆ องค์กร ไม่ได้ให้น้ำหนักความสำคัญในส่วนนี้กันเท่าไหร่ แน่นอนว่าทุกคนต้องเคยได้ยินนั่นก็คือ การ Backup และอีกศัพท์นึงที่อาจจะไม่คุ้นหูเท่าไหร่คือ การทำ DR Site

Downtime เป็นสิ่งที่องค์กรทุกองค์กรไม่อยากให้เกิดขึ้น เพราะจะกระทบกับการให้บริการลูกค้า และยังสูญเสียความน่าเชื่อถือได้ ปัญหาหลาย ๆ แบบ ที่เกิดขึ้นไม่ว่าจะเป็น ไฟดับ, ไฟไหม้, น้ำท่วม หรืออุบัติเหตุต่าง ๆ ที่เกิดขึ้น อาจจะเกิดขึ้นเมื่อไหร่ก็ได้ เป็นสิ่งที่คาดเดาไม่ได้ และเป็นเรื่องที่หลีกเลี่ยงไม่ได้ สิ่งที่เราทำได้คือเตรียมตัวให้พร้อมอยู่เสมอ

การเตรียมตัวที่ว่าคือ ต้องมีแผนรองรับกรณีที่เกิดความเสียหาย เรียกว่า Business Continuity Planning หรือ BCP

การที่จะสร้างแผนขึ้นมาได้ จะต้องมีการทดสอบแล้วว่า สิ่งที่จะรองรับความเสียหายเป็นผลลัพธ์ที่ยอมรับได้ หากเกิดกรณีฉุกเฉินขึ้นมา

สิ่งที่จะช่วยสร้างความมั่นใจให้กับ BCP ก็คือ RPTO

RPTO เป็นศัพท์ที่ถูกประดิษฐ์ขึ้นมาเป็นการเล่นคำ โดยนำเอา RPO และ RTO มารวมกันครับ

RPO ย่อมาจาก Recovery Point Objective หมายถึง จุดที่สามารถย้อนเวลากลับไปได้ และเป็นการวัดได้ว่าข้อมูลเสียหายไปเท่าไหร่เมื่อใช้ Backup Version ล่าสุดเทียบกับ ข้อมูล ณ เวลาที่เกิดเหตุการณ์ 

เช่น RPO = 24 ชั่วโมง แปลว่าข้อมูลจะสูญเสียหรือเสียหายได้มากที่สุดเท่ากับ 24 ชั่วโมง

RTO ย่อมาจาก Recovery Time Objective หมายถึง ระยะเวลาที่ใช้ในการกู้คืนข้อมูลนับจากเวลาที่เกิดเหตุจนกระทั่ง User สามารถกลับมาใช้งานได้เป็นปกติ

เช่น ใช้ระยะเวลาในการแก้ไขปัญหา 4 ชั่วโมง, RPO = 4 ชั่วโมง เป็นต้น

หลาย ๆ คน อาจจะสับสน เพราะชื่อดูคล้าย ๆ กัน แต่จุดประสงค์ของ 2 ตัวนี้มีความแตกต่างกันอย่างสิ้นเชิง

ในอุดมคติ ค่าที่ดีที่สุดของทั้ง 2 ตัว ควรที่จะเข้าใกล้ 0 ให้มากที่สุดเท่าที่เป็นไปได้ (RPO น้อยกว่า 1 นาที, RTO ใช้เวลาน้อยกว่า 1 นาที)

แต่ในความเป็นจริง การที่จะทำให้ค่า RPO และ RTO เป็นระดับเข้าใกล้ 0 นั้น จะต้องใช้ระบบที่แพงมหาศาล และอาจจะไม่คุ้มกับที่ลงทุนได้

ทีนี้เราจะใช้วิธีอะไรดีในการประมาณการว่าเราควรจะกำหนด RPO และ RTO อย่างไรดี?

RPO จะเกี่ยวข้องกับข้อมูลที่คุณยอมรับได้ว่าสูญหายไป x ช่วงเวลา แล้วจะกระทบกับธุรกิจของคุณน้อยที่สุด

เช่น ถ้าคุณเป็นธนาคาร แล้วข้อมูลหายไป 1 ชั่วโมง = Transaction หายไป 1 ชั่วโมง แบบนี้น่าจะไม่เหมาะสม เพราะจะกระทบกับ User เป็นวงกว้าง

สำหรับคำถามที่คุณถามว่า RPO เท่าไหร่ดี? 

คำตอบ คุณยอมให้ Data loss ได้ระยะเวลามากที่สุดเท่าไหร่?

RTO จะนับจากเวลาที่เสียหายไปจนกระทั่งระบบกลับมาใช้งานได้แบบสมบูรณ์ (ไม่ได้นับจากเวลาที่ทีม IT เริ่มแก้ไขนะครับ)

แล้ว RTO เท่าไหร่ดี?

คำตอบ คุณจะต้องหาเวลา Down ระบบตัวเอง เพื่อทดสอบว่าคุณใช้เวลาในการกู้คืนข้อมูลนับตั้งแต่ระบบเสียหายไปจนสามารถใช้งานได้สมบูรณ์ ใช้ระยะเวลาเท่าไหร่?

แล้วมี Guideline บ้างมั้ย?

ความจริงแล้วทุกธุรกิจมีความแตกต่างกันแน่นอนว่าระยะเวลาของ RPO และ RTO ย่อมไม่เท่ากัน แต่ละ Application ย่อมใช้เวลาระยะเวลากู้คืนไม่เท่ากัน 

วิธีที่นิยมใช้ คือการแบ่งระดับความสำคัญเป็น Tier 1, 2 และ 3 หลังจากนั้นจะกำหนดค่า RPO และ RTO ให้ล้อกับ Service-level agreement (SLA) ที่ทางองค์กรกำหนด

SLA คืออะไร ? คือข้อตกลงในการรักษาคุณภาพในการบริการ หรือความพร้อมใช้ อ่านเพิ่มเติมได้ ที่นี่

การจัดลำดับความสำคัญสำหรับ Data Protection เป็นสิ่งที่สำคัญ ควรต้องรู้ว่าควรจะเก็บ Data ไว้ที่ไหน เข้าถึงได้อย่างไร มีการป้องกันแค่ไหน กู้ข้อมูล และอัพเดทข้อมูลอย่างไร กระบวนการวิเคราะห์แบบนี้เรียกว่า Business Impact Analysis (BIA) กระบวนนี้จะช่วยให้มีแผนรับมือปัญหาที่จะเกิดขึ้นได้ครับ

ส่วน BIA ทำอย่างไร > ตัว BIA เป็นส่วนหนึ่งของมาตรฐาน ISO ที่ทุกองค์กรควรจะต้องมีครับ ถ้าองค์กรคุณมีการทำ ISO สามารถปรึกษา Consult ขององค์กรได้ว่าจะต้องทำอย่างไรครับ

สำหรับตัวอย่างในการออกแบบ BCP สามารถแบ่งได้เป็น 3 Tier

Tier 1 – Mission-critical Application (Application ที่สำคัญมาก ๆ หากเสียหายจะกระทบกับทั้งองค์กร) ต้องการ RTO และ RPO น้อยกว่า 15 นาที

Tier 2 – Business-critical Application (Application ที่มีหากเสียหายจะกระทบต่อธุรกิจ)ต้องการ RTO 2 ชั่วโมง, RPO 4 ชั่วโมง

Tier 3 – Non-critical Application (Application ทั่วไป) ต้องการ RTO 4 ชั่วโมง, RPO 24 ชั่วโมง

สิ่งสำคัญเลยก็คือ ระดับทั้ง 3 Tier จะแตกต่างกันไปแล้วแต่ธุรกิจของคุณ ตรงส่วนนี้ก็จะต้องเลือกให้เหมาะสมกับการทำงานขององค์กรของคุณนะครับ

ทีนี้พอกำหนดได้เรียบร้อยแล้ว ก็ถึงเวลาที่จะหา Solution ที่จะช่วยให้คุณได้ RPTO ตามเป้าหมายครับ

ทางเราก็มีบริการทั้ง cloudBackup ที่เป็นการสำรองข้อมูล และ cloudDR ที่ให้บริการ DR Site ที่สามารถช่วยตอบโจทย์ในส่วนนี้ของท่านได้ครับ หากสนใจสามารถติดต่อได้ ที่นี่

เป็นอย่างไรกันบ้างครับสำหรับเนื้อหาใน Blog นี้ ถ้าใครมีคำถามสามารถ Comment เพิ่มเติมได้เลยนะครับ หากต้องการให้เขียนเรื่องใด สามารถ Request เข้ามาได้นะครับ ทางผู้เขียนพร้อมแชร์ไอเดียดี ๆ ให้ได้เรียนรู้ไปด้วยกันนะครับ

ขอบคุณครับ

หมายเหตุ: Blog นี้เป็นเพียงความคิดเห็นส่วนตัว  อาจมีข้อผิดพลาด หรือการเปลี่ยนแปลงได้ตามความเหมาะสมครับ

— Cloud HM