11 | 召回层：如何快速又准确地筛选掉不相关物品？

召回层和排序层的功能特点

如何理解“单策略召回”方法？

单策略召回指的是，通过制定一条规则或者利用一个简单模型来快速地召回可能的相关物品。这里的规则其实就是用户可能感兴趣的物品的特点，我们拿 SparrowRecSys 里面的电影推荐为例。在推荐电影的时候，我们首先要想到用户可能会喜欢什么电影。按照经验来说，很有可能是这三类，分别是大众口碑好的、近期非常火热的，以及跟我之前喜欢的电影风格类似的。基于其中任何一条，我们都可以快速实现一个单策略召回层。比如在 SparrowRecSys 中，我就制定了这样一条召回策略：如果用户对电影 A 的评分较高，比如超过 4 分，那么我们就将与 A 风格相同，并且平均评分在前 50 的电影召回，放入排序候选集中。基于这条规则，我实现了如下的召回层：

//详见SimilarMovieFlow class public static List<Movie> candidateGenerator(Movie movie){ ArrayList<Movie> candidates = new ArrayList<>(); //使用HashMap去重 HashMap<Integer, Movie> candidateMap = new HashMap<>(); //电影movie包含多个风格标签 for (String genre : movie.getGenres()){ //召回策略的实现 List<Movie> oneCandidates = DataManager.getInstance().getMoviesByGenre(genre, 100, "rating"); for (Movie candidate : oneCandidates){ candidateMap.put(candidate.getMovieId(), candidate); } } //去掉movie本身 if (candidateMap.containsKey(movie.getMovieId())){ candidateMap.remove(movie.getMovieId()); } //最终的候选集 return new ArrayList<>(candidateMap.values()); }

如何理解“多路召回”方法

所谓“多路召回策略”，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用的策略。其中，各简单策略保证候选集的快速召回，从不同角度设计的策略又能保证召回率接近理想的状态，不至于损害排序效果。所以，多路召回策略是在计算速度和召回率之间进行权衡的结果。这里，我们还是以电影推荐为例来做进一步的解释。下面是我给出的电影推荐中常用的多路召回策略，包括热门电影、风格类型、高分评价、最新上映以及朋友喜欢等等。除此之外，我们也可以把一些推断速度比较快的简单模型（比如逻辑回归，协同过滤等）生成的推荐结果放入多路召回层中，形成综合性更好的候选集。具体的操作过程就是，我们分别执行这些策略，让每个策略选取 Top K 个物品，最后混合多个 Top K 物品，就形成了最终的多路召回候选集。整个过程就如下所示：

在 SparrowRecsys 中，我们就实现了由风格类型、高分评价、最新上映，这三路召回策略组成的多路召回方法，具体代码如下：

public static List<Movie> multipleRetrievalCandidates(List<Movie> userHistory){ HashSet<String> genres = new HashSet<>(); //根据用户看过的电影，统计用户喜欢的电影风格 for (Movie movie : userHistory){ genres.addAll(movie.getGenres()); } //根据用户喜欢的风格召回电影候选集 HashMap<Integer, Movie> candidateMap = new HashMap<>(); for (String genre : genres){ List<Movie> oneCandidates = DataManager.getInstance().getMoviesByGenre(genre, 20, "rating"); for (Movie candidate : oneCandidates){ candidateMap.put(candidate.getMovieId(), candidate); } } //召回所有电影中排名最高的100部电影 List<Movie> highRatingCandidates = DataManager.getInstance().getMovies(100, "rating"); for (Movie candidate : highRatingCandidates){ candidateMap.put(candidate.getMovieId(), candidate); } //召回最新上映的100部电影 List<Movie> latestCandidates = DataManager.getInstance().getMovies(100, "releaseYear"); for (Movie candidate : latestCandidates){ candidateMap.put(candidate.getMovieId(), candidate); } //去除用户已经观看过的电影 for (Movie movie : userHistory){ candidateMap.remove(movie.getMovieId()); } //形成最终的候选集 return new ArrayList<>(candidateMap.values()); }

基于 Embedding 的召回方法

一方面，多路召回中使用的“兴趣标签”“热门度”“流行趋势”“物品属性”等信息都可以作为 Embedding 方法中的附加信息（Side Information），融合进最终的 Embedding 向量中。因此，在利用 Embedding 召回的过程中，我们就相当于考虑到了多路召回的多种策略。另一方面，Embedding 召回的评分具有连续性。我们知道，多路召回中不同召回策略产生的相似度、热度等分值不具备可比性，所以我们无法据此来决定每个召回策略放回候选集的大小。但是，Embedding 召回却可以把 Embedding 间的相似度作为唯一的判断标准，因此它可以随意限定召回的候选集大小。最后，在线上服务的过程中，Embedding 相似性的计算也相对简单和直接。通过简单的点积或余弦相似度的运算就能够得到相似度得分，便于线上的快速召回。在 SparrowRecsys 中，我们也实现了基于 Embedding 的召回方法。我具体代码放在下面，你可以参考一下。

``` public static List retrievalCandidatesByEmbedding(User user){ if (null == user){ return null; } //获取用户embedding向量 double[] userEmbedding = DataManager.getInstance().getUserEmbedding(user.getUserId(), "item2vec"); if (null == userEmbedding){ return null; } //获取所有影片候选集(这里取评分排名前10000的影片作为全部候选集) List allCandidates = DataManager.getInstance().getMovies(10000, "rating"); HashMap movieScoreMap = new HashMap<>(); //逐一获取电影embedding，并计算与用户embedding的相似度 for (Movie candidate : allCandidates){ double[] itemEmbedding = DataManager.getInstance().getItemEmbedding(candidate.getMovieId(), "item2vec"); double similarity = calculateEmbeddingSimilarity(userEmbedding, itemEmbedding); movieScoreMap.put(candidate, similarity); }

List<Map.Entry<Movie,Double>> movieScoreList = new ArrayList<>(movieScoreMap.entrySet());
//按照用户-电影embedding相似度进行候选电影集排序
movieScoreList.sort(Map.Entry.comparingByValue());


//生成并返回最终的候选集
List<Movie> candidates = new ArrayList<>();
for (Map.Entry<Movie,Double> movieScoreEntry : movieScoreList){
    candidates.add(movieScoreEntry.getKey());
}
return candidates.subList(0, Math.min(candidates.size(), size));

}

```
这里，我再带你简单梳理一下整体的实现思路。总的来说，我们通过三步生成了最终的候选集。第一步，我们获取用户的 Embedding。第二步，我们获取所有物品的候选集，并且逐一获取物品的 Embedding，计算物品 Embedding 和用户 Embedding 的相似度。第三步，我们根据相似度排序，返回规定大小的候选集。在这三步之中，最主要的时间开销在第二步，虽然它的时间复杂度是线性的，但当物品集过大时（比如达到了百万以上的规模），线性的运算也可能造成很大的时间开销。那有没有什么方法能进一步缩小 Embedding 召回层的运算时间呢？这个问题我们留到下节课来讨论。

小结

今天，我们一起讨论了推荐系统中召回层的功能特点和实现方法。并且重点讲解了单策略召回、多路召回，以及深度学习推荐系统中常用的基于 Embedding 的召回。为了方便你对比它们之间的技术特点，我总结了一张表格放在了下面，你可以看一看。

《深度学习推荐系统实战》 学习笔记 3月Day 15

11 | 召回层：如何快速又准确地筛选掉不相关物品？

召回层和排序层的功能特点

如何理解“单策略召回”方法？

如何理解“多路召回”方法

基于 Embedding 的召回方法

小结

《深度学习推荐系统实战》学习笔记 3月Day 15