想象一下,我有一个存储一系列稀疏向量的表.稀疏向量意味着它仅在数据结构中显式存储非零值.我可以有一个100万维向量,但我只存储非零的维度的值.因此,大小与非零条目的数量成比例,而不是向量的维数.
表定义如下:
vector_id:int
dimension:int
值:浮点数
现在,在正常的编程范围内,我可以在O(| v1 | | v2 |)时间内计算两个向量的内积或点积.基本上算法是存储按维度排序的稀疏向量并迭代每个维度,直到找到维度之间的碰撞并乘以共享维度的值并继续添加它们直到你到达任一个向量的末尾.
解决方法
您应该能够在一个查询中复制此算法:
select sum(v1.value * v2.value) from vectors v1 inner join vectors v2 on v1.dimension = v2.dimension where v1.vector_id = ... and v2.vector_id = ...