【救火篇】业务数据存储设计问题引起的事故

写在前面

隔了很久没有更新博客了,这两周一直在忙着处理线上的一个存储故障,设计新的存储方案。现将大概的处理方式记录到博客中,真实的故障情况和新的存储设计文档,不便公开。

写设计文档过程中,真实感觉到自己从开始写博客这几个月来,有了进步。文档排版、组织、问题描述等等明显比之前好了很多。技术文档也像写代码一样,需要精心设计、组织~

事故起因

业务数据库(阿里云RDS)磁盘每天增长50G+,而且持续增长,总空间占用达到85%以上,急需扩容。

分析磁盘占用情况

  • 通过分析RDS binlog定位到写入量比较大的四张表;
  • 通过阿里云DMS控制台,统计占用磁盘空间最大的几张表,跟binlog中定位的表一致;

    大概定位占用空间比较大的几个表,接着就开始分析这几张表的结构

表结构分析

针对这几张大表,分析其字段,发现表结构存在以下几个问题

  • 1)字段太多

    一张表将近40个字段

  • 2)字段类型选择不合适

    类似枚举类型的状态字段,使用int类型

  • 3)业务库存在Text类型字段

    其实页面上没有使用

  • 4)数据庸余太严重

    这个最为严重,为了一个需要统计的数据,而把整条记录这么多字段,并且有Text大字段,写两份,造成至少一倍的空间浪费

临时解决方案

首先,可以确定第4个问题,是最浪费空间,解决掉就可以释放一半的磁盘空间。

于是,想办法将两条相同的业务数据(分两个表存储的),通过分析整合到一条上,删除另一个表中的记录。这样,离线操作就可以实现,又对线上业务基本没有影响。

本想先将磁盘空间降下来,腾出时间,再针对其他问题做进一步的优化。

接下来的问题

通过上面的临时方案,业务端删掉了将近一半的数据。问题是MySQL的Delete操作并不会释放磁盘空间,需要对表执行Optimize操作,才能清理磁盘碎片,将空间释放。

于是我们就准备对表执行Optimize操作,由于Optimize会锁表,所以需要停止写操作。

从库上执行Optimize操作释放了300G+的空间,但主库上Optimize执行14个小时都没有完成,也没有释放出多少空间来,一直卡在那。

通过跟阿里云技术咨询,MySQL对表执行Optimize操作整理碎片,需要临时空间,而我们主库的空间不够,所以一直卡在那。

数据压力

主库Optimize操作执行不动,后端数据又源源不断的有新数据进入。而且主库iops很高,sql执行比较慢。

这个时候,为了不影响业务,我们想到两种方案:

  • 1)新建一个实例,把从库同步到新的实例上,然后drop掉原来的主库。

    这样,由于业务端&后端还有新的数据进入,所以需要先做一次主从切换,然后同步数据完成后,再将主从切换回原来的状态

  • 2)将主库再扩容,等新的存储方案设计并实现后,主库drop表来释放空间

问题解决—空间释放

起初是打算先将主库的磁盘空间释放,为新的设计开发争取时间,但Optimize执行不动,之前清理的庸余数据的空间释放不了,所以,只能采用上面列出的方案。

第一种方案是可以彻底解决问题,但需要重新创建实例,并且同步从库全部数据(将近600G)也需要比较长的时间。再者,本身现在的方案是临时解决问题的方案,没有必要做这么复杂的数据同步和主从切换。

于是,选择第二种方案,先维持现状,不能影响线上业务,扩容主库磁盘空间,为新的存储设计方案争取大概2周的时间。由于主库的磁盘iops比较高,sql执行比较慢,目前iops最大600,主库的iops使用一直处在700到800之间,处于超负荷的状态,所以这次也升级了下iops到1200。

接下来,好消息到了。扩容了磁盘,升级了iops,当前后端数据可以放心入库了。并且由于剩余空间大了,iops也升级了,Optimize表执行也(“出乎意料的”)成功了,最终庸余的磁盘空间也释放掉了,终于可以安心设计新的存储方案了。

相信技术的力量,原创技术文章,感谢您的支持!