高可用性和灾难恢复：复制、集群和备份策略

Noyonhasan630 · Post by **Noyonhasan630** » Sat Jun 14, 2025 4:51 am

在要求严苛的现代应用环境中，宕机意味着收入损失、声誉受损和客户不满。因此，数据库系统必须构建高可用性 (HA) 和强大的灾难恢复 (DR)。这两个既相关又不同的概念旨在确保即使在硬件故障、软件错误或灾难性事件发生时也能持续运行并保持数据持久性。实现真正的弹性需要多方面的方法，包括智能复制、有效的集群和全面的备份策略。

复制是将数据从一台数据库服务器（主服务器或 master）复制到一台或多台其他服务器（副本服务器或从服务器）的过程。其主要目标是提供数据冗余、提高读取可扩展性并实现高可用性。在同步复制中，事务只有在成功写入主服务器和至少一个副本后才被视为已提交，从而保证零数据丢失 (RPO=0)，但可能会引入延迟。另一方面，异步复制首先在主服务器上提交事务，然后将其传播到副本服务器，从而提供较低的延迟，但如果主服务器在复制完成之前发生故障，则存在丢失部分数据的风险。复制拓扑结构多种多样，包括主从（单向复制）、主主（双向复制，用于写入扩展和高可用性，但冲突管理复杂）和多源复制（将来自多个源的数据复制到单个目标）。PostgreSQL 的流复制、MySQL 的二进制日志复制和 SQL Server 的 Always On 可用性组等技术提供了强大的复制机制。复制是 HA 和 DR 的基础，前者提供可以快速接管的热备用服务器，后者在不同地理位置维护数据副本。

集群基于复制机制，提供自动故障转移和负载均衡，从而从多个物理实例创建单一的逻辑数据库服务。在数据库集群中，如果主节点发生故障，其中一个副本节点将自动提升为主节点，从而最大限度地减少停机时间和人工干预。此故障转移过程通常由集群管理软件（例如 Pacemaker、用于有状态集的 Kubernetes 或内置数据库功能）协调，该软件监利比亚 vb 数据控节点的健康状况并管理提升过程。主动-被动集群由一个主动节点处理所有流量，以及一个或多个被动节点等待接管。主动-主动集群允许多个节点同时处理请求，从而分配工作负载并进一步提高可扩展性和资源利用率，但在此类设置中管理数据一致性可能更加复杂，尤其是在写入操作方面。示例包括 Oracle Real Application Clusters (RAC)、SQL Server Always On 故障转移集群实例，以及使用 Patroni for PostgreSQL 等工具为开源数据库构建的高可用性设置。集群主要是一种高可用性 (HA) 解决方案，可确保在单个数据中心或可用区内服务持续运行。

灾难恢复 (DR) 扩展了可用性的概念，以防止站点范围的中断或灾难性事件。高可用性 (HA) 解决方案通常在单个数据中心内运行，而灾难恢复 (DR) 则需要在地理上与主站点分离的恢复站点。灾难恢复 (DR) 的目标是最小化两个关键指标：恢复时间目标 (RTO) 和恢复点目标 (RPO)。RTO 是指计算机、系统、网络或应用程序在灾难或中断后仍能正常运行的可容忍最大停机时间。RPO 是指由于重大事件导致 IT 服务数据丢失的可容忍最大时长。灾难恢复 (DR) 策略范围广泛，从简单的异地备份到高度复杂的多区域主动-主动部署。

备份策略是灾难恢复的最后一道防线。定期、一致的备份对于从数据损坏、意外删除或复制无法解决的系统故障中恢复至关重要。现代备份解决方案支持完整备份、增量备份和差异备份。完整备份会复制所有数据。增量备份仅复制自上次备份以来发生更改的数据。（任何类型），而差异备份则复制自上次完整备份以来所有更改的数据。时间点恢复通常通过将完整备份与事务日志（预写日志/WAL）相结合来实现，允许将数据库恢复到任何特定时间点。备份数据应始终存储在异地或云存储中，并采用适当的加密和不变性设置。定期测试备份恢复程序与备份本身同样重要。强大的复制、智能集群和全面且经过测试的备份策略的集成，可确保数据库系统能够承受各种故障，并提供当今关键任务应用程序所需的高可用性和灾难恢复功能。