介绍
在很多业务系统中,我们经常会遇到生成全局唯一的分布式ID的需求,如IM系统,订单系统等。那么生成全局唯一的分布式ID的方法有哪些呢?
UUID
- // 3eece1c6-5b57-4bce-a306-6c49e44a1f90
- UUID.randomUUID().toString()
「本地生成,生成速度快,但识别性差,没有顺序性」
可以用来标识图片等,不能用作数据库主键
数据库自增主键
「我们原来刚开始做IM系统的时候就单独建了一个表来获取自增id作为消息的ID」,单独开一张表来获取自增id也不会影响对消息分库分表
Zookeeper
「每次要生成一个新Id时,创建一个持久顺序节点,创建操作返回的节点序号,即为新Id,然后把比自己节点小的删除即可」
这种方式能生成的Id比较少,因为数字位数比较少
Redis
「用incr命令即可实现」
设置一个key为userId,值为0,每次获取userId的时候,对userId加1再获取
- setuserId 0
- incr usrId //返回1
每获取一次id都会和redis有一个网络交互的过程,因此可以改进为如下形式
直接获取一段userId的最大值,缓存到本地慢慢累加,快到了userId的最大值时,再去获取一段,一个用户服务宕机了,也顶多一小段userId没有用到
- setuserId 0
- incr usrId //返回1
- incrby userId 1000 //返回10001
雪花算法
「雪花算法是最常见的解决方案,满足全局唯一,趋势递增,因此可以用来作为数据库主键」
雪花算法是由Twitter公布的分布式主键生成算法,它能够保证不同进程主键的不重复性,以及相同进程主键的有序性。
在同一个进程中,它首先是通过时间位保证不重复,如果时间相同则是通过序列位保证。同时由于时间位是单调递增的,且各个服务器如果大体做了时间同步,那么生成的主键在分布式环境可以认为是总体有序的,这就保证了对索引字段的插入的高效性。例如MySQL的Innodb存储引擎的主键。
使用雪花算法生成的主键,二进制表示形式包含4部分,从高位到低位分表为:1bit符号位、41bit时间戳位、10bit工作进程位以及12bit序列号位。
「符号位(1bit)」
预留的符号位,恒为零。
「时间戳位(41bit)」
41位的时间戳可以容纳的毫秒数是2的41次幂,一年所使用的毫秒数是:365 * 24 * 60 * 60 * 1000。通过计算可知:
- Math.pow(2, 41) / (365 * 24 * 60 * 60 * 1000L);
结果约等于69.73年。ShardingSphere的雪花算法的时间纪元从2016年11月1日零点开始,可以使用到2086年,相信能满足绝大部分系统的要求。
「工作进程位(10bit)」
该标志在Java进程内是唯一的,如果是分布式应用部署应保证每个工作进程的id是不同的。该值默认为0,可通过属性设置。
「一般情况这10bit会拆分为2个5bit」
前5个bit代表机房id,最多代表 2 ^ 5 个机房(32 个机房) 后5个bit代表机器id,每个机房里可以代表 2 ^ 5 个机器(32 台机器)
「因此这个服务最多可以部署在 2^10 台机器上,也就是1024台机器」
「序列号位(12bit)」
该序列是用来在同一个毫秒内生成不同的ID。如果在这个毫秒内生成的数量超过4096(2的12次幂),那么生成器会等待到下个毫秒继续生成。
理解了实现思路,我们来把算法实现一遍
- publicclass SnowFlake {
- /**
- * 起始的时间戳
- */
- private final staticlong START_STMP = 1480166465631L;
- /**
- * 每一部分占用的位数
- */
- private final staticlong SEQUENCE_BIT = 12; //序列号占用的位数
- private final staticlong MACHINE_BIT = 5; //机器标识占用的位数
- private final staticlong DATACENTER_BIT = 5;//数据中心占用的位数
- /**
- * 每一部分的最大值
- */
- private final staticlong MAX_DATACENTER_NUM = -1L ^ (-1L << DATACENTER_BIT);
- private final staticlong MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);
- private final staticlong MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);
- /**
- * 每一部分向左的位移
- */
- private final staticlong MACHINE_LEFT = SEQUENCE_BIT;
- private final staticlong DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
- private final staticlong TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;
- private long datacenterId; //数据中心
- private long machineId; //机器标识
- private long sequence= 0L; //序列号
- private long lastStmp = -1L;//上一次时间戳
- publicSnowFlake(long datacenterId, long machineId) {
- if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {
- throw new IllegalArgumentException("datacenterId can\"t be greater than MAX_DATACENTER_NUM or less than 0");
- }
- if (machineId > MAX_MACHINE_NUM || machineId < 0) {
- throw new IllegalArgumentException("machineId can\"t be greater than MAX_MACHINE_NUM or less than 0");
- }
- this.datacenterId = datacenterId;
- this.machineId = machineId;
- }
- /**
- * 产生下一个ID
- *
- * @return
- */
- publicsynchronized long nextId() {
- long currStmp = getNewstmp();
- // 发生时钟回拨
- if (currStmp < lastStmp) {
- throw new RuntimeException("Clock moved backwards. Refusing to generate id");
- }
- if (currStmp == lastStmp) {
- //相同毫秒内,序列号自增
- sequence= (sequence+ 1) & MAX_SEQUENCE;
- //同一毫秒的序列数已经达到最大
- if (sequence== 0L) {
- currStmp = getNextMill();
- }
- } else{
- //不同毫秒内,序列号置为0
- sequence= 0L;
- }
- lastStmp = currStmp;
- return(currStmp - START_STMP) << TIMESTMP_LEFT //时间戳部分
- | datacenterId << DATACENTER_LEFT //数据中心部分
- | machineId << MACHINE_LEFT //机器标识部分
- | sequence; //序列号部分
- }
- private long getNextMill() {
- long mill = getNewstmp();
- while (mill <= lastStmp) {
- mill = getNewstmp();
- }
- returnmill;
- }
- private long getNewstmp() {
- returnSystem.currentTimeMillis();
- }
- publicstaticvoid main(String[] args) {
- SnowFlake snowFlake = new SnowFlake(2, 3);
- for(inti = 0; i < (1 << 12); i++) {
- System.out.println(snowFlake.nextId());
- }
- }
- }
「这端代码将workerid分为datacenterId和machineId,如果我们业务上不需要做区分的话,直接使用10位的workerid即可。」
workerid生成
我们可以通过zookeeper的有序节点保证id的全局唯一性,比如我通过以下命令创建一个永久有序节点
- # 创建一个根节点
- create/test \"\"
- # 创建永久有序节点
- create-s /test/ip-port- \"\"
- # 返回 Created /test/ip-port-0000000000
「ip和port可以为应用的ip和port,规则你来定,别重复就行」
其中/test/ip-port-0000000000中的0000000000就是我们的workerid
说一个我们原来生产环境遇到的一个workerid重复的问题,生成workid的方式那叫一个简洁
- // uid为zookeeper中的一个有序持久节点
- List<String> pidListNode = zkClient.getChildren("uid");
- String workerId = String.valueOf(pidListNode.size());
- zkClient.create("uid", new byte[0], CreateMode.PERSISTENT_SEQUENTIAL);
「你能看出来这段代码为什么会造成workid重复吗?」
它把uid子节点的数量作为workid,当2个应用同时执行到第一行代码时,子节点数量是一样的,得到的workerId就会重复。
有意思的是这段代码跑了好几年都没有问题,直到运维把应用的发版效率提高了一点,线上就开始报错了。因为刚开始应用是串行发版,后来改为并行发版
「当使用雪花算法的时候,有可能发生时钟回拨,建议使用开源的框架,如美团的Leaf。」
雪花算法在很多中间件中都被使用过,如seata用来生成全局唯一的事务id