论文阅读:DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node
diskann 是我看的第一篇关于 disk 上的 ANNS 算法,收获确实很大。有时间确实得好好读一读 diskann 的实现源码。 # 作者的动机 作者其实很简单,之前大部分 ANNS 算法都是基于内存来构建索引。如果把索引放到 disk,即使是 SSD,那么查询的延迟也会大幅度提升。所以需要提出一种基于 SSD 的 ANNS 算法,这种算法必须尽可能的降低 disk 的随机存取次数。 这里我感觉挺吃力的,有必要补全这块 io 相关的知识。 基于 SSD 索引方法必须实现 1)降低 SSD 随机访问的次数。2)round trip 的 request 数应该低于 10,最好 5。 #...
more...