单点优化评测

搜索系统由多个不同作用的模块组成, 多模块相互配合返回搜索结果, 是个复杂的多模块系统. 不同模块存在相同的部分, 也存在特有的部分, 也可能存在一些相矛盾的部分. 在优化某个模块时, 其带来的影响通常是不止模块本身, 而是以pipeline影响到下游模块直至最后的搜索结果. 因此如何评测搜索系统的好坏是个比较关键的问题.

单点优化评测

为了判断单个模块优化后, 影响面有多大, 效果提升有多少, 需要一些合理的评测方法.

和上一版本的对比评测

Diff率

衡量单模块优化产生的影响大小, 并不评价优化结果的好坏. 不同的模块, 对比的内容也不同, 例如:

  • 优化同义词, 比较多少百分比的query和上一版的结果不同

  • 优化一路召回, 比较这路召回前后内容差异比例等

胜出率 / SBS评测

也称为SBS(side by side)评测, 需要人工介入. 评测人员同时对比新旧版本的结果, 依据评测标准标记, , 一样好, 一样坏四种对比结果, 胜出率为: 胜出率 = (好 + 一样好 + 一样坏 / 2) / 样本总数. 一般胜出率大于55%说明影响是比较正向的.

最后更新于

这有帮助吗?