美团大脑中生活服务知识图谱的构建及应用

导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:

  • “美团大脑”简介
  • 标签图谱构建及应用
  • 菜品知识图谱构建技术

01

“美团大脑”简介

“美团大脑”是什么?

以下是“美团大脑”构建的整体RoadMap,最先是2018年开始餐饮知识图谱构建,对美团丰富的结构化数据和用户行为数据进行初步挖掘,并在一些重要的数据维度上进行深入挖掘,比如说对到餐的用户评论进行情感分析。2019年,以标签图谱为代表,重点对非结构化的用户评论进行深入挖掘。2020年以后,开始结合各领域特点,逐个领域展开深度数据挖掘和建设,包括商品、美食、酒旅和到综和cross图谱等。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

02

标签图谱构建及应用

1. 标签知识图谱介绍

在搜索中,通常用户需要将其意图抽象为搜索引擎能够支持的一系列精搜关键词。标签知识图谱则是通过“标签”来承载用户需求,从而提升用户搜索体验。例如,通过标签知识图谱,用户可直接搜索“带孩子”或者“情侣约会”,就可返回合适的商户/内容供给。从信息增益角度来说,用户评论这种非结构化文本蕴含了大量的知识(比如某个商户适合的场景、人群、环境等),通过对非结构化数据的挖掘实现信息增益。该团队以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自下而上梳理用户需求,场景及主要关注点完成图谱构建。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

2. 标签知识图谱构建

标签知识图谱构建分为以下四个部分:知识抽取、关系挖掘、图谱打标和图谱应用。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

① 知识抽取

标签挖掘采用简单的序列标注架构,包括Single span标签挖掘和跳字标签挖掘,此外还会结合语义判别或者上下文判别,采用远监督学习+结果投票方式获取更精准的标签。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

② 关系挖掘

同义词挖掘:同义词挖掘被定义为给定包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。现有的同义词挖掘方法包括搜索日志挖掘、百科数据抽取、基于规则的相似度计算等,缺乏一定的通用性。当前我们的目标是寻找通用性强,可广泛应用到大规模数据集的标签同义词挖掘方法。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

以下是作者给出的同义词挖掘的具体方案,首先将离线标签池或者线上查询标签进行向量表示获取向量索引,再进行向量哈希召回,进一步生成该标签的TopN的同义词对候选,最后使用同义词判别模型。该方案的优势在于降低了计算复杂度,提升了运算效率;对比倒排索引候选生成,可召回字面无overlap的同义词,准确率高,参数控制简单。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

对于有标注数据,主流的标签词嵌入表示方法有word2vec、BERT等。word2vec方法实现较为简单,词向量取均值,忽略了词的顺序;BERT通过预训练过程中能捕捉到更为丰富的语义表示,但是直接取[CLS]标志位向量,其效果与word2vec相当。Sentence-Bert对于Bert模型做了相应的改进,通过双塔的预训练模型分别获取标签tagA和tagB表征向量,然后通过余弦相似性度量这两个向量的相似性,由此获取两个标签的语义相似性。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

对于无标注数据来说,可以通过对比学习的方法获取句子的表示。如图所示,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最大化batch内同一样本的相似度,最小化batch内其他样本的相似度。最终结果显示,无监督学习在一定程度上能达到监督学习的效果,同时无监督学习+监督学习相对于监督学习效果有显著提升。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

同义词判别模型设计:将两个标签词拼接到Bert模型中,通过多层语义交互获取标签。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

标签上下位挖掘:词汇包含关系是最重要的上下位关系挖掘来源,此外也可通过结合语义或统计的挖掘方法。但当前的难点是上下位的标准较难统一,通常需要结合领域需求,对算法挖掘结果进行修正。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

③ 图谱打标:如何构建标签和商户供给的关联关系?

给定一个标签集合,通过标签及其同义词在商户UGC/团单里出现的频率,卡一个阈值从而获取候选tag-POI。这样会出现一个问题是,即使是频率很高但不一定有关联,因此需要通过一个商户打标判别模块去过滤bad case。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

商户打标考虑标签与商户、用户评论、商户Taxonomy等三个层次的信息。具体来讲,标签-商户粒度,将标签与商户信息(商户名、商户三级类目、商户top标签)做拼接输入到Bert模型中做判别。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展
张鸿志:美团大脑百亿级知识图谱的构建及应用进展

微观的用户评论粒度,判断每一个标签与提到该标签的评论(称为evidence)之间是正面、负面、不相关还是不确定的关系,因此可当作四分类的判别模型。我们有两种方案可选择,第一种是基于多任务学习的方法, 该方法的缺点在于新增标签成本较高,比如新增一个标签,必须为该标签新增一些训练数据。笔者最终采用的是基于语义交互的判别模型,将标签作为参数输入,使该模型能够基于语义判别,从而支持动态新增标签。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

基于语义交互的判别模型,首先做向量表示,然后是交互,最终聚合比较结果,该方法的计算速度较快,而基于BERT的方法,计算量大但准确率较高。我们在准确率和速度上取balance,例如当POI有30多条的evidence,倾向于使用轻量级的方式;如果POI只有几条evidence,可以采用准确率较高的方式进行判别。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

从宏观角度,主要看标签和类目是否匹配,主要有三种关系:一定不会,可能会,一定会。一般通过商户层关联结果进行投票结果,同时会增加一些规则,对于准确率要求较高时,可进行人工review。

张鸿志:美团大脑百亿级知识图谱的构建及应用进展

④ 图谱应用:所挖掘数据的直接应用或者知识向量表示应用

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1219982080@qq.com 举报,一经查实,本站将立刻删除。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-06 09:09
下一篇 2022-06-06 09:10

相关推荐

  • 网友连续下载网盘中的数据之后被阿里云盘封号,官方回应

    在目前仅剩不多的网盘中,阿里云盘以免费、不限速的优势赢得了网友的认可,不少人都抛弃了百度网盘投入阿里云盘中,不过日前有网友表示自己连续下载了网盘中的数据之后被阿里云盘封号,这是怎么回事? 据网友爆料,他连续两天下载了大约2TB的网盘数据,次日账号就被封禁了,不能再下载了,他认为这是阿里云盘方面违背了不限速下载的承诺。 对于这个问题,阿里云盘方面对蓝点网作了回…

    2022-04-11
    00
  • 深交所中止有屋家居发行上市审核,资料过期

    近日,据深交所发布的公告显示,青岛有屋智能家居科技股份有限公司(以下简称“有屋家居”)系IPO申请文件中记载的财务资料已过有效期,需要补充提交,根据相关规定,深交所中止其发行上市审核。 图源:深交所官网 此前,有屋家居曾收到深交所针对其资产重组、关联交易、毛利率、资金流水核查等26个问题的发行审核问询函。 据有屋家居的招股书显示,该公司拟募资约12.81亿元…

    2022-04-10
    00
  • “古籍数字化平台”面向读者的数字化阅读

    四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用智慧化。 把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。在此基础上,要解决的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅使用。否则,录入计算机的古籍…

    2022-06-03
    00
  • 企业转型线上商城如何选择适合自己的平台

    最近很多企业想转型做线上商城之前,都是说我想做一个商城卖东西,但是不知道自己根本的需求是什么,商城应用场景也分为很多种类,比如:o2o、社区团购、多商家入驻的等,多种模式的电商商城平台,今天微三云段老师就简单分享下,企业如何选择适合自己的平台商城? 1.分销商城 社交电商有个很重要的模式就是分销,通过分销系统直接与消费者建立关系,把广告流量费则转变成利润直接…

    2022-04-16
    00
  • 互联网平台封禁行反不正当竞争法价值基础的传统与发展

    互联互通是互联网的本质属性,也是造就互联网经济繁荣的核心要素。然而近年来,互联网企业特别是大型互联网企业似乎背弃了传统,开始封闭其疆域,拒绝资源开放共享。这样的封禁行为不仅引起其他经营者的不满,亦使得国家层面担忧互联网经济持续繁荣会受阻碍。目前,学界对平台封禁的讨论主要集中在反垄断法领域。然而,平台封禁行为与反不正当竞争法同样密切相关,它既可能因为干扰他人正…

    2022-05-18
    00

发表回复

您的电子邮箱地址不会被公开。

联系我们

13515318674

在线咨询: QQ交谈

邮件:1219982080@qq.com