一桥飞架双塔:腾讯“虚拟内核”双塔
在双塔模型中,腾讯的MVKE(Mixture of Virtual-Kernel Experts)为“虚拟内核”引入了新的视角,实现了双塔间信息的交叉,以实现“千物千面”的个性化推荐。传统双塔模型虽强大,但用户与物料间信息交流受限。
双塔模型最后一层为什么都进行l2norm?
1、引入L2 norm相当于为模型设置了一个时间限制,即7点断电,避免了无意义的竞争。然而,这同时带来了一个问题:内积范围被限制在[-1,1],导致在极端情况下,如正样本预估logits为1,负样本为-1时,计算出的概率仅为0.4249,这表明了模型在拟合数据时可能受到限制。
2、双塔模型中,L2归一化常用于提升训练效果和线上检索性能。离线训练时,L2 Norm限制了自由度,有助于优化目标,降低热门物品的热度影响。线上检索时,内积度量不保序,而欧式距离(如HNSW所用)则能够保持顺序关系,确保检索的准确性和效率。
推荐系统-双塔模型基本原理与实践
DSSM原理与实践:原理: 核心思想:将query和文档映射到共同维度的语义空间中,通过最大化它们的余弦相似度来训练模型,实现检索目的。 模型结构:包含两部分塔,分别通过各自的深度神经网络得到用户和项目的嵌入表示,以进行相似度计算。 损失函数:通常采用二分类交叉熵损失。
DSSM模型是双塔在文本领域应用的早期典范,通过优化向量点积预估值,达到query与文档向量的匹配。推荐系统中,双塔模型通常分为Retrieval阶段的召回和Ranking阶段的粗排。模型包含user侧和item侧编码塔,学习用户和商品的表示。双塔召回广泛应用,但存在特征交叉模型限制问题,影响精度提升。
在推荐系统的世界里,双塔模型就像一座矗立的灯塔,引领着大规模检索和粗排阶段的精准导航。它凭借其独特的设计,将用户和项目编码成两座塔,每座塔都承载着关键信息,通过相似度的桥梁连接起来。其核心在于用户和项目(item)的编码,双塔模型如DSSM,巧妙地将文本转化为向量,实现高效召回。
DSSM 双塔模型,即深度结构语义模型,由微软研究院提出,利用深度神经网络将文本表示为低维度的向量,主要用于文本相似度匹配场景,效果显著且对工业界友好,广泛应用于推荐领域。在推荐系统中,DSSM双塔模型的两个主要应用是召回和排序。
推荐系统领域中,双塔模型因其独特优势,在召回与粗排中扮演着关键角色。双塔模型通过用户侧和物料侧特征的分离,利用DNN分别生成用户向量和item向量,通过点积或cosine计算得出用户与item之间的匹配程度,进而优化推荐效果。
双塔模型的结构更为精细,例如输入层专门处理用户和广告特征,表示层则通过全连接网络提取特征并转化为统一的向量维度,匹配层则负责计算两者之间的深度相似性。这一设计为模型的扩展提供了可能,如引入Transformer技术,进一步提升模型的表达能力。在广告推荐领域,双塔模型因其出色的性能和广泛应用而备受瞩目。
推荐系统(二十三)双塔模型优化思路梳理(一)
推荐系统领域中,双塔模型因其独特优势,在召回与粗排中扮演着关键角色。双塔模型通过用户侧和物料侧特征的分离,利用DNN分别生成用户向量和item向量,通过点积或cosine计算得出用户与item之间的匹配程度,进而优化推荐效果。
粗排模型一般采用双塔结构,对于双塔结构user和Item表征向量分离学习,隐层特征蒸馏不太适合,可以通过共享Embedding层的方式,蒸馏学习精排Embedding特征表示。(2)对于采用非双塔结构的模型,可以对隐层特征蒸馏[1,2],把teacher和Student模型隐层特征向量MSE差异最小化作为损失。
总的来说,双塔模型是一个实用且可扩展的推荐系统框架,它不断演化以适应实际业务需求,从数据输入到模型构建,再到优化和应用,每一环节都体现了其强大的适应性和灵活性。尽管仍有挑战,但随着研究的深入,双塔模型的潜力将被进一步挖掘,为推荐系统带来更精准的用户体验。
DSSM模型是双塔在文本领域应用的早期典范,通过优化向量点积预估值,达到query与文档向量的匹配。推荐系统中,双塔模型通常分为Retrieval阶段的召回和Ranking阶段的粗排。模型包含user侧和item侧编码塔,学习用户和商品的表示。双塔召回广泛应用,但存在特征交叉模型限制问题,影响精度提升。