Data Domain的重复数据消除是在Data Domain存储上实现的,这种去重方式也称为目标端去重(Avamar实现了源端去重),那这种目标端去重是否额外增加的磁盘的工作负担,降低了整套存储的性能呢?答案当然是否定的。Data Domain的流通知型数据段布局(SISL)扩展系统结构实现了线内消重,优化了重复数据消除吞吐量的可扩展性,下面我们介绍下SISL 5大工作步骤:

1.GIF.gif

  1. Segments: 首先,数据流在Data Domain RAM中会被切分成412KB的数据段
  2. Fingerprints: SISL为每个数据段创建指纹
  3. Filters: SISL会把每个段的ID和存放在cache中的旧指纹id进行比较。如果id是新的,继续下一部;如果这个idcache中已经存在,SISL会做备注,然后舍弃这个重复的数据段。摘要适量和数据段局部性这2项技术会在RAM中(inline)识别99%的重复数据段
  4. Compresses: 经过确认的新的数据段被压缩成lzgzgzfast格式(默认的是lz
  5. Writes: 压缩后的数据段(包括指纹,元数据)被写到虚拟的容器中,直至容器写满,SISL最终把容器中的数据写入磁盘保存。

 

        整个处理过程都在RAM中实现,同时通过尽可能减少磁盘访问次数,最大程度地减少了磁盘容量的占用,这使系统吞吐量能够以CPU为中心,随着CPU的性能提高,速度也会直接得到提高。