利用人工优化的数据,改善搜索相关性算法

05/12/2020

在着手改善搜索算法时,有哪些可用的工具?我们将和来自于 Adobe 和 Etsy 的客户一起就他们每天使用的一些工具和策略,是如何改进他们的搜索算法展开讨论。


为什么需要人工优化的数据?

通过挖掘个人对搜索结果的评估,您将获得明确的相关性判断,这是一个比点击次数更优质的可用于优化的指标。例如,Etsy 请求澳鹏帮助他们提升品牌亲和力。他们想确保最符合 Etsy 品牌形象的产品(也可以说是最“Etsy-ness”的产品)出现在搜索结果最前沿。这是一个需要人工判断的问题。

由于 Etsy 平台的性质,典型的点击数据不足。比如,有一个明显的事实可以证明这一点:浏览 Etsy 是一件很有趣的事情。如果用户一页一页地点击搜索结果,这并不代表他们找不到所需的内容,仅表明他们喜欢浏览Etsy网页。


为什么我们要使用人工优化的数据?

Etsy 使用我们的数据服务来创建更好的筛选搜索,从而减轻独立卖家为产品贴标签的负担,他们将这项工作交给了澳鹏的数据服务团队。拥有超过 4000 万产品的生态系统,这可不是一件容易的事。

在着手为人工优化后的数据建立相关性评分系统时,我们建议您让内容标注团队给当前的搜索算法评分,确立一个基准。然后,您可以根据适合您和您的网站的指标进行变更,再重新测试新算法针对旧查询在同一随机查询集上生成的查询结果配对。

通过这种方法,您可以了解新算法是否有所改进,或者您是否应该进一步变更算法。


内容标注员(contributor)可以帮您提升算法的方法:

对查询结果对进行评分:最有效方法是利用内容标注员(contributor)对查询结果对进行评分,以评估相关性。要建立该指标,您必须设计一个数值量表(通常我们的客户会创建一个 2、3 或 5 分数量表),内容标注员(contributor)用来对每个查询结果对进行评分。这样,您就能清晰地了解搜索相关性算法表现如何,并且可以在以后的相关性测试中尝试超过这个分数。

附加标记:元数据项可以大大提高搜索的相关性。可以采用内容标注员(contributor)标注方式,或者结合基于机器学习的自动化标记功能,用新标签快速填充产品数据库。数据清理和产品分类:产品数据库非常混乱。制造商可能使用不同的措辞描述类似的产品;不同的分销商可以用不同的方式描述或命名相同的产品;有时,您可能只是将几个图像与一个产品关联起来,却无法知道哪个图片最好。内容标注员可以轻松调和这些差异

结语: 要实现搜索相关性算法从良好到卓越的跨越,人工优化的数据是关键。想了解澳鹏、Adobe 和 Etsy 数据科学负责人的一些真实的相关性评分示例,请和我们的专家联系。

澳鹏支持多语言的内容相关性标注,包括内容审核、结果评估、行业相关性判断等。