澳门新浦京娱乐场网站-www.146.net-新浦京娱乐场官网
做最好的网站

澳门新浦京娱乐场网站从史上八大MySQL事故中学到

本文列举了史上八大MySQL宕机事件原因、影响以及人们从中学到的经验,文中用地震级数来类比宕机事件的严重性和后果,排在最严重层级前两位的是由于亚马逊AWS宕机故障(相当于地震十级和九级)。

从史上八大MySQL事故中学到的经验,八大mysql

本文列举了史上八大MySQL宕机事件原因、影响以及人们从中学到的经验,文中用地震级数来类比宕机事件的严重性和后果,排在最严重层级前两位的是由于亚马逊AWS宕机故障(相当于地震十级和九级)。

一、Percona网站宕机事件

震级:3 
发生时长:2011年7月11日 
持续时长:数日 
地点:加州Pleasanton(幸福屯) 
宕机原因:Percona网站主服务器上的3块硬盘损坏,同时因为人员变更,导致未能如预期地恢复,多个网站资产因此下线数小时到数天不等,影响其软件下载及交易。 
经验:备份不一定永远正常,不应该对其抱有过多期待。

二、GitHub服务中断

震级:4 
发生时间:2012年9月10-11日 
持续时长:1:46小时 
地点:加州圣弗朗西斯科 
宕机原因:GitHub将一对古老的、基于DRBD的MySQL服务器替换成一个拥有3个节点的集群。在合并到新系统时,“活动的”数据库自动出现了多个故障转移(failover),同时又因为集群管理软件的错误操作导致性能下降,最终造成网站宕机。 
经验:GitHub修改了Pacemaker配置来保证故障转移仅仅可以被运维人员控制。

三、Journal Space所有数据丢失及网站关闭 

震级:5 
发生时间:2009年1月5日 
持续时长:无限期 
宕机原因:Journal Space是一个拥有6年历史的博客平台,基于MySQL开发,其唯一的数据库备份机器由RAID系统维护。最终网站的数据因前员工的报复行为被重写,最终导致所有用户数据丢失以及网站关闭。 
经验:永远不要把驱动器镜像当做备份——它能防范物理故障带来的问题,但是不提供时间点恢复功能。

四、PHPFog共享数据库运行中断 

震级:6 
发生时间:2012年10月8日 
持续时长:8小时 
地点:俄勒冈州波特兰 
宕机原因:PHPFog将用户数据合并到一个新的共享数据库服务上,但是在合并过程中遭受过多的堆叠连接,最终共享数据库停止响应,因此在共享数据库从快照中恢复前一直处于服务不稳定状态。从问题发生到解决一共历时8小时。
经验:这一事件后,PHPFog加速Amazon RDS用户迁移活动。

五、Couch Surfing因MySQL数据库故障导致服务关闭

震级:7 
发生时间:2006年6月 
地点:加州圣弗朗西斯科 
持续时长:1个月 
宕机原因:流行社交网站Couch Surfing曾拥有90000名用户,在2006年遭遇了一场严重的硬盘问题,在试图恢复数据时发现数据库增值备份遭遇问题。其MySQL数据库以及应用关键部分丢失,因此创始人最终关闭了这项服务,随后用户社区又将它重启。 
经验:任何MySQL系统必须有一个以上备份服务器;每天都必须验证MySQL备份进程。

六、magnolia因丢失主数据库和备份导致最终无法完全恢复 

震级:7 
发生时间:2009年1月30日 
地点:加州圣弗朗西斯科 
持续时长:无限期 
宕机原因:Magnolia和Delicious一样,是一个流行的书签服务,基于MySQL数据库。该服务在由于硬盘损坏以及备份系统的错误,丢失了主数据库和备份,最终无法完全恢复。 
经验:确保硬件的可靠性非常重要;备份系统是否可行必须得到充分的验证。 

七、Amazon RDS宕机事件 

震级:9 
发生时间:2012年6月29日 
持续时长:3小时 
地点:弗吉尼亚州北部 
用户影响:亚马逊EC2云计算服务以及包括Netflix公司、Heroku、Pinterest、 Quora、HootSuite和Instagram等。 
宕机原因:一个被称为derecho的强雷暴天气系统通过弗吉尼亚州北部,使得亚马逊在该地区的设施失去了动力,发电机不能正常运行,消耗应急电源的不间断电源(电源)系统,从而导致运行在Amazon RDS上的大概上千个MySQL数据库宕机。 
经验:扩大7*24小时工程师支持团队规模,发生电源系统故障、UPS启动之前完全支持手动操作开启发电机开关。

八、Amazon RDS宕机事件 

震级:10 
发生时间:2011年4月21日 
持续时长:48小时 
地点:弗吉尼亚州北部 
用户影响:导致使用AWS平台的Reddit、Foursquare、Hootsuite、Quora以及其他多家社交网络服务商成为“受害者” 。 
宕机原因:亚马逊修改网络设置,同时在对主网络升级扩容过程中,工程师不慎将主网数据全部切换到从网,由于从网带宽较小,而它的设计目的并非用于主网容灾或备份,因此导致网络堵塞,所有EBS(Elastic Block Store)节点通信全部中断,导致存储着数据和日志的MySQL数据库宕机,其中运行在一个可用区域里41%的MySQL数据库宕机24小时,14.6%宕机48小时。

 

本文列举了史上八大MySQL宕机事件原因、影响以及人们从中学到的经验,文中用地震级数来类比...

在云计算、云服务等概念层出不穷的今天,放在云端的数据库似乎已经不是什么新鲜事了。在这里我们将介绍亚马逊新推出的Amazon RDS,也就是作为云服务的MySQL数据库。BKJIA推荐《MySQL数据库入门与精通教程》

RDS

  • 简介
    Amazon Relational Database Service (Amazon RDS) 让您能够在云中轻松设置、操作和扩展关系数据库。它在管理耗时的数据库管理任务的同时,可提供经济实用的可调容量,使您能够腾出时间专注于应用程序和业务。Amazon RDS 提供六种常用的数据库引擎供您选择,即 Amazon Aurora、PostgreSQL、MySQL、MariaDB、Oracle 和 Microsoft SQL Server。

一、Percona网站宕机事件

Amazon最近给他们的Amazon Web Services (AWS) 平台增加了一个新的MySQL 数据库,叫做Amazon 关系数据库服务(RDS),它能和传统的MySQL系统一样工作。在RDS之前,客户在AWS的数据库服务上有几种选择:

Amazon RDS for SQL Server

https://aws.amazon.com/cn/rds/sqlserver/

  • 备份和灾难恢复(针对实例)

自动备份 – Amazon RDS 的自动备份功能在默认情况下打开,实现数据库实例的时间点恢复。Amazon RDS 以 5 分钟为间隔备份您的数据库和事务日志,并且按您指定的保留期进行存储。这样,您就能够将数据库实例恢复到保留期内任何一秒钟的状态,最多可恢复到前五分钟的状态。自动备份保留期可配置为最长 35 天。

数据库快照 – 数据库快照是用户启动的数据库实例备份。Amazon RDS 将存储这些完整数据库备份,直至您明确删除它们。您可以在需要时随时从数据库快照创建新数据库实例。

适用于 Microsoft SQL Server 的 Amazon RDS 不支持将数据导入 msdb 数据库。

  • 将数据库实例还原至指定时间
    Amazon RDS 自动备份功能将自动为数据库实例创建存储卷快照,并备份整个数据库实例而不仅仅是单个数据库。

从某个时间点进行还原时,Amazon RDS 使用的多种数据库引擎有一些特殊的注意事项。将 Oracle 数据库实例还原到某个时间点时,可指定不同的 Oracle 数据库引擎、许可模式和 DBName (SID) 供新数据库实例使用。将 SQL Server 数据库实例还原到某个时间点时,该实例中的每个数据库均还原到与实例中每个其他数据库相差 1 秒以内的时间点。对于实例内跨多个数据库的事务,还原时可能会发生不一致的情况。

震级:3 
发生时长:2011年7月11日 
持续时长:数日 
地点:加州Pleasanton(幸福屯) 
宕机原因:Percona网站主服务器上的3块硬盘损坏,同时因为人员变更,导致未能如预期地恢复,多个网站资产因此下线数小时到数天不等,影响其软件下载及交易。 
经验:备份不一定永远正常,不应该对其抱有过多期待。

运行在Amazon Machine Image (AMI) 的客户自提供数据库服务

价格

亚马逊RDS计费分为两个主要的部分,一个是“实例费用”(CPU和内存),另一个是“存储费用”(磁盘容量和IOPS)。这两类资源的费用,又细分为单可用区和多可用区,另外,还可以选择“按小时计费”、又或者是“包年计费”的方式购买,这些对价格都有很大影响。本文分多个部分细致介绍了亚马逊如何计算一个RDS实例的价格。
https://aws.amazon.com/cn/rds/faqs/#20
https://aws.amazon.com/cn/rds/sqlserver/pricing/

二、GitHub服务中断

Amazon Web服务所拥有的SimpleDB service

入门

http://docs.aws.amazon.com/zh_cn/AmazonRDS/latest/UserGuide/CHAP_GettingStarted.html

震级:4 
发生时间:2012年9月10-11日 
持续时长:1:46小时 
地点:加州圣弗朗西斯科 
宕机原因:GitHub将一对古老的、基于DRBD的MySQL服务器替换成一个拥有3个节点的集群。在合并到新系统时,“活动的”数据库自动出现了多个故障转移(failover),同时又因为集群管理软件的错误操作导致性能下降,最终造成网站宕机。 
经验:GitHub修改了Pacemaker配置来保证故障转移仅仅可以被运维人员控制。

SimpleDB 是一个简单的数据存储,它缺乏一个完全成熟的关系数据库管理系统(RDBMS) 所拥有的完善的功能,但是提供了一种可伸缩的键值存储。客户自提供数据库服务和传统的数据中心环境差不太多,由客户自己的员工负责管理数据库应用程序,包括配置,性能调优,容量管理,版本升级,打补丁和数据备份等。你可以使用和传统MySQL数据库连接的交互工具来以同样的方式控制它。

针对单独的数据库

DOC

  • 备份
    调用 rds_backup_database 存储过程。
exec msdb.dbo.rds_backup_database 
        @source_db_name='database_name', 
        @s3_arn_to_backup_to='arn:aws:s3:::bucket_name/file_name_and_extension',
        @overwrite_S3_backup_file=1;
  • 取消任务

要取消备份或还原任务,可调用 rds_cancel_澳门新浦京娱乐场网站,task 存储过程。

  • @task_id – 要取消的任务的 ID。可以通过调用 rds_task_status 获取任务 ID。
exec msdb.dbo.rds_cancel_task @task_id=1234;
  • 还原

要还原数据库,可调用 rds_restore_database 存储过程。

exec msdb.dbo.rds_restore_database 
        @restore_db_name='database_name', 
        @s3_arn_to_restore_from='arn:aws:s3:::bucket_name/file_name_and_extension';
  • 跟踪任务的状态

要跟踪备份和还原任务的状态,可调用 rds_task_status 存储过程。

exec msdb.dbo.rds_task_status @db_name='database_name'
  • 所以,要对数据库进行还原和备份,还要借助 S3 的。

三、Journal Space所有数据丢失及网站关闭 

Amazon RDS 使得客户员工减少了很多MySQL的运维任务,有了它,数据库计算资源的可扩展性和性能监测都无需人为的干涉。 而数据库软件通常都由服务提供商来打补丁和备份,并且是由客户定义的保留时间段来做。可扩展性来自AWS 所谓的“实例类”,总共有五个。你可以从一个普通的虚拟CPU 内核以及1.7G的内存被叫做“小的数据库实例” )逐步增大到 “超大型的数据库实例”, 也就是68G内存和8个虚拟CPU内核,而备份存储被活动状态的数据库数据100%占满后,额外的存储空间是要收费的。而且数据存在另一个不同的可用区而不是该实例所在的地方。 这个和传统数据安全模型的异地数据保护的概念是类似的。

DownloadCompleteDBLogFile

DOC
由于数据库日志文件可能为任意大小,因此提供了 DownloadCompleteDBLogFile REST API 以实现对日志文件内容的流式传输。

震级:5 
发生时间:2009年1月5日 
持续时长:无限期 
宕机原因:Journal Space是一个拥有6年历史的博客平台,基于MySQL开发,其唯一的数据库备份机器由RAID系统维护。最终网站的数据因前员工的报复行为被重写,最终导致所有用户数据丢失以及网站关闭。 
经验:永远不要把驱动器镜像当做备份——它能防范物理故障带来的问题,但是不提供时间点恢复功能。

这个服务得益于灵活性,AWS定义了一个每周4小时维护窗口。 这个维护窗口可以被用来为应用软件打补丁和数据备份。客户不能选择退出打补丁的过程。但是他们可以指定维护窗口在一周内何时发生。在维护窗口中,数据库实例会在特定时间段内被离线。Amazon 声明 “只有很少情况下,打补丁需要超过你的维护窗口的部分时间,即使发生也只是为了安全或者持久性相关的补丁。”

四、PHPFog共享数据库运行中断 

这意味着客户必须预期和计划这样一个每周发生的实例离线事件。 即使服务商表示不太可能用完四个小时的时间,但客户也会预期最差的情况,每周要有四个小时的实例离线时间。对于能够接受一个相对短时间的数据库实例不可用的客户,按计划的关闭时间而只有最小可能的影响的方案也许能够被接受。但有一些客户没有这样选择的自由。他们必须保证服务24x7可用,即使在每周的维护窗口运行的时候也一样。在传统的数据库部署中数据库复制技术常常被用来达到高可用性。复制技术能不能也用到RDS中,从而让客户能够为不同的数据库实例指定不同的维护时机呢? 比如,如下几种情况可能吗?

震级:6 
发生时间:2012年10月8日 
持续时长:8小时 
地点:俄勒冈州波特兰 
宕机原因:PHPFog将用户数据合并到一个新的共享数据库服务上,但是在合并过程中遭受过多的堆叠连接,最终共享数据库停止响应,因此在共享数据库从快照中恢复前一直处于服务不稳定状态。从问题发生到解决一共历时8小时。
经验:这一事件后,PHPFog加速Amazon RDS用户迁移活动。

◆2个或更多的实例运行在master-slave 模式?

五、Couch Surfing因MySQL数据库故障导致服务关闭

◆2个实例运行在master-master 模式?

震级:7 
发生时间:2006年6月 
地点:加州圣弗朗西斯科 
持续时长:1个月 
宕机原因:流行社交网站Couch Surfing曾拥有90000名用户,在2006年遭遇了一场严重的硬盘问题,在试图恢复数据时发现数据库增值备份遭遇问题。其MySQL数据库以及应用关键部分丢失,因此创始人最终关闭了这项服务,随后用户社区又将它重启。 
经验:任何MySQL系统必须有一个以上备份服务器;每天都必须验证MySQL备份进程。

◆2个或更多的实例运行在cluster模式?

六、magnolia因丢失主数据库和备份导致最终无法完全恢复 

现在还没有很明确的答案。 在RDS 服务细节页面 的“即将推出的新特性” 一节中,Amazon 预期数据复制可用性的选择将会是:

震级:7 
发生时间:2009年1月30日 
地点:加州圣弗朗西斯科 
持续时长:无限期 
宕机原因:Magnolia和Delicious一样,是一个流行的书签服务,基于MySQL数据库。该服务在由于硬盘损坏以及备份系统的错误,丢失了主数据库和备份,最终无法完全恢复。 
经验:确保硬件的可靠性非常重要;备份系统是否可行必须得到充分的验证。 

提供高可用性 --对于想要超出Amazon RDS 自动备份之外灵活性的那些开发者和商业人士,将不需要对此额外付费。有了高可用性的支持,他们能够很容易并且在成本有效的情况下在多个可用区之间同步复制数据库实例,来防止出现单一存储导致的失败。

七、Amazon RDS宕机事件 

看起来这将会通过多个可用区为代价来来解决可用性问题。而解决可用性的传统技术如master-slave 和 master-master 模型在这一点上并不能起到作用。

震级:9 
发生时间:2012年6月29日 
持续时长:3小时 
地点:弗吉尼亚州北部 
用户影响:亚马逊EC2云计算服务以及包括Netflix公司、Heroku、Pinterest、 Quora、HootSuite和Instagram等。 
宕机原因:一个被称为derecho的强雷暴天气系统通过弗吉尼亚州北部,使得亚马逊在该地区的设施失去了动力,发电机不能正常运行,消耗应急电源的不间断电源(电源)系统,从而导致运行在Amazon RDS上的大概上千个MySQL数据库宕机。 
经验:扩大7*24小时工程师支持团队规模,发生电源系统故障、UPS启动之前完全支持手动操作开启发电机开关。

  1. 云中的MySQL 亚马逊RDS初体验
  2. WEB程序员需要掌握的十大MySQL优化技巧
  3. 被Oracle抛弃,MySQL将何去何从?
  4. MySQL左连接、右连接和内连接详解
  5. PostgreSQL创始人:MySQL衰退属必然

八、Amazon RDS宕机事件 

RDS,也就...

澳门新浦京娱乐场网站从史上八大MySQL事故中学到的经历,亚马逊推出基于云服务的MySQL数据库。震级:10 
发生时间:2011年4月21日 
持续时长:48小时 
地点:弗吉尼亚州北部 
用户影响:导致使用AWS平台的Reddit、Foursquare、Hootsuite、Quora以及其他多家社交网络服务商成为“受害者” 。 
宕机原因:亚马逊修改网络设置,同时在对主网络升级扩容过程中,工程师不慎将主网数据全部切换到从网,由于从网带宽较小,而它的设计目的并非用于主网容灾或备份,因此导致网络堵塞,所有EBS(Elastic Block Store)节点通信全部中断,导致存储着数据和日志的MySQL数据库宕机,其中运行在一个可用区域里41%的MySQL数据库宕机24小时,14.6%宕机48小时。

 

本文由澳门新浦京娱乐场网站发布于数据库,转载请注明出处:澳门新浦京娱乐场网站从史上八大MySQL事故中学到