搜索系统由多个不同作用的模块组成, 多模块相互配合返回搜索结果, 是个复杂的多模块系统. 不同模块存在相同的部分, 也存在特有的部分, 也可能存在一些相矛盾的部分. 在优化某个模块时, 其带来的影响通常是不止模块本身, 而是以pipeline影响到下游模块直至最后的搜索结果. 因此如何评测搜索系统的好坏是个比较关键的问题.
单点优化评测
为了判断单个模块优化后, 影响面有多大, 效果提升有多少, 需要一些合理的评测方法.
和上一版本的对比评测
Diff率
衡量单模块优化产生的影响大小, 并不评价优化结果的好坏. 不同的模块, 对比的内容也不同, 例如:
优化同义词, 比较多少百分比的query和上一版的结果不同
优化一路召回, 比较这路召回前后内容差异比例等
胜出率 / SBS评测
也称为SBS(side by side)评测, 需要人工介入. 评测人员同时对比新旧版本的结果, 依据评测标准标记好
, 坏
, 一样好
, 一样坏
四种对比结果, 胜出率为: 胜出率 = (好 + 一样好 + 一样坏 / 2) / 样本总数
. 一般胜出率大于55%说明影响是比较正向的.
最后更新于