缓存最终一致性以及业务解耦

为什么需要缓存

存储如 mysql 通常支持完整的 ACID 特性，因为可靠性，持久性等因素，性能普遍不高，高并发的查询会给 mysql 带来压力，造成数据库系统的不稳定，同时也容易产生延迟。根据局部性原理，80% 请求会落到 20% 的热点数据上，在读多写少场景，增加一层缓存有助提升系统吞吐量和健壮性。

引入缓存后所出现的问题

存储的数据随着时间可能会发生变化，而缓存中的数据就会不一致。具体能容忍的不一致时间，需要具体业务具体分析，但是通常的业务，都需要做到最终一致。

Redis 作为 Mysql 缓存

在我个人接触的开发中，通常会使用 mysql 作为数据存储，而 redis 作为缓存，加速和保护mysql。但是，当 mysql 数据更新之后，就需要考虑 redis 怎样去保持数据的同步。强一致性同步维护成本太高，如果追求强一致，那么没必要用缓存了，直接用 mysql 即可。通常考虑的，都是最终一致性。

常用解决方案

方案一（缓存过期时间控制）

通过设置缓存key的过期时间，mysql 更新时，redis 不同步更新，延时更新。这种方式实现简单，需要根据不同的业务需求设置合理的过期时间，但并不能完全规避问题，如果在设置的过期时间范围内数据发生了更新，则会在此期间产生很多长期的脏数据。

优点：

开发成本低，易于实现；
维护管理成本低，出问题的概率会比较小。

缺点：

完全依赖过期时间，时间太短缓存频繁失效，失去意义，时间过长易有长时间更新延迟（数据不一致）

方案二（同步更新缓存）

在方案一的基础上扩展，通过设置缓存key的过期时间兜底，并且，在更新 mysql 时，同时更新 redis。

优点：

相对方案一，更新延迟更小。

缺点：

如果更新 mysql 成功，更新 redis 却失败，就退化到了方案一；
增加耦合度，因同步更新 redis，造成业务与缓存代码的紧密耦合，如果因 redis 更新异常而导致正常业务不能进行则得不偿失。
在高并发场景，业务 server 需要和 mysql，redis 同时进行连接。这样是损耗双倍的连接资源，容易造成连接数过多的问题。

方案三（异步更新缓存）

针对方案二进行优化，引入中间件，如消息队列，将同步更新 redis 的方式改为异步更新。将 redis 更新操作交给消息队列去完成，完成业务和缓存操作代码的解耦，由消息队列保证可靠性，再搭建一个消费服务，来异步更新 redis。

优点：

引入消息队列中间件，实现了逻辑上的解耦；
消息队列可以用一个句柄，很多消息队列客户端还支持本地缓存发送，有效解决了方案二连接数过多的问题；
消息队列本身具有可靠性，通过手动提交等手段，可以至少一次消费到redis。

缺点：

依旧解决不了时序性问题，如果多台业务服务器分别处理针对同一行数据的两条请求，举个栗子，a = 1；a = 5;，如果mysql中是第一条先执行，而进入kafka的顺序是第二条先执行，那么数据就会产生不一致。
引入了消息队列中间件，增加了服务的复杂度，同时要增加服务来消费消息，成本较高。

方案四（订阅 binlog 来更新 redis）

通过订阅 binlog 来更新 redis，把我们搭建的消费服务，作为 mysql 的一个slave，订阅 binlog，解析出更新内容，再更新到 redis。

优点：

在mysql压力不大情况下，延迟较低；
和业务完全解耦；
解决了时序性问题。

缺点：

要单独搭建一个同步服务，并且引入binlog同步机制，成本较大。

总结

方案选型

首先确认产品上对延迟性的要求，如果要求极高，且数据有可能变化，不建议用缓存。
通常来说，方案1就够了，因为能用缓存方案，通常是读多写少场景，同时业务上对延迟具有一定的包容性。方案1没有开发成本，其实比较实用。
如果想增加更新时的即时性，就选择方案2，不过没必要做重试保证之类的。
方案3，方案4针对于对延时要求比较高业务，一个是推模式，一个是拉模式，而方案4具备更强的可靠性，既然都愿意花功夫做处理消息的逻辑，不如一步到位，用方案4。

小结

任何事物都存在多面性，缓存虽好但不是万能的，不能滥用。没有完美的方案，只有最适合的方案。不论在技术选型还是在架构设计上，都需要考虑实际业务场景和具体需求。那些看似高大上完美的方案，增加了项目的复杂度和维护难度的同时，也增加了开发难度和增大经费资源开销，并不是每个项目都适合。脱离实际纸上谈兵都是空谈。