当前位置:K88软件开发文章中心办公应用办公应用19 → 文章内容

AI小编问世!阿里智能写手核心技术首次公开!

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-3-5 0:56:41

原标题:AI小编问世!阿里智能写手核心技术首次公开!一. 引言内容化已经成为淘宝近几年发展的重点,我们可以在手机淘宝APP(以下简称手淘)上看到很多不同的内容形式和内容型导购产品,例如,“有好货”中的以单个商品为主体的富文本内容,“必买清单”中的清单,即围绕一个主题来组织文本和商品的长图文型内容,等等。不同于商品的形式,内容可以从不同的维度组织商品,从更丰富的角度去描述商品、定义商品,丰富了手淘的产品形式,提供给了用户更多有价值的购物信息。随着手淘内容化战略的持续推进,我们也在内容自动化生成上持续探索,并构建了“智能写手”这个产品,旨在利用淘宝的海量数据,结合人工经验和知识输入,逐步实现内容的自动化、规模化生产,和人工编写的更高质量的内容一起,带给用户更丰富、更有价值的信息。经过一段时间的沉淀,目前智能写手在短文案生成、标题生成、商品推荐理由生成、图文型内容(清单)生成上都取得了一定的进展,期间针对若干文本生成的问题也进行了不同程度的优化。在刚过去的2017年双十一中,智能写手主要做了两件事情,一是支持了大规模实时个性化生成双十一会场入口的短文案(下面称作“智能利益点”项目),保守估计生成了上亿的文案,提升了引导效率;二是进行了图文型清单的生产和投放试水,收集到了用户的直接数据反馈,验证了方案的有效性。1.1 智能利益点在每年的双11大促中,手淘首页、主会场等大促活动的主要流量通道上都会有很多的会场入口(参见图1-图4),会场入口一般由三部分构成,分别是会场名称、利益点文案和商品图片素材。其中,利益点往往表达了一个商品或者一个大促会场最核心的亮点,是商家、运营提升点击效果的一个抓手。传统生产利益点文案的方式,有以下特点:1.受限于数量和人力成本,一个商品或者会场的利益点一般不会超过三个,大多数情况只有一个利益点,这有时会导致利益点文案和商品不匹配的case发生,影响用户体验。2.用户对一个商品不同的卖点或者说不同的文案表述的关注度是不同的,例如有人关注性价比,有人关注品质等等,人工编辑的较少的利益点文案没办法提供多样的信息,不利于引导效率的提升。因此,这次双十一,智能写手和首页推荐算法团队、大促平台算法团队一起合作了智能利益点项目,分别在手淘首页人群会场入口、猫客首页人群会场入口、猫客首页标签会场入口、双十一主会场行业会场入口、双十一主会场标签会场入口等多个场景上线了智能利益点。几个场景样式详见以下图片,其中用红色虚线框起来的使用了智能利益点的会场入口的实际效果:我们在双十一期间做了分桶测试,相比使用人工编辑利益点文案的分桶,智能利益点的分桶在多个场景都取得了用户点击率两位数左右的提升,这个提升是在各个场景自身优化效果的基础上的额外提升,还是比较可观的,这也说明了文案个性化生成确实给用户带来了更多的有价值的信息。1.2 图文型清单生成在手淘中,图文型清单是一种重要的商品组织形式,可以理解为有主题的商品集合富文本内容,主要由人工编辑而成,生产清单费时费力,尤其在大促期间,要短时间内生产大量的清单更是一个很大的挑战。这次双十一,智能写手也参与到这个工作中,结合在文本内容生成上的沉淀,生产了少量单品盘点类型的清单,具体样式如下:为了验证智能写手生成的清单的效果,我们在双十一期间小流量上线,和人工编辑的清单进行了分桶测试。对比人工编辑的单品盘点清单,智能写手清单在平均商品点击转化率上的表现要更好。下面我们将分别介绍智能写手在智能利益点和图文清单生成两部分的工作。二. 智能利益点智能利益点解决的问题是,给定任意一个商品,挖掘这个商品各个潜在的卖点,并根据挖掘出来的用户偏好,从商品卖点集合中圈定用户最感兴趣、最可能点击的卖点,然后基于这些卖点实时生成一小段6个字以内的文案。利益点生成的解决方案主要分为这么几部分:1.用户的偏好挖掘:主要基于用户的离线和实时行为数据来做,通过挖掘得到用户的TOP K个偏好标签集合。由于线上系统性能的限制,我们不可能使用用户所有行为过的标签,于是我们构建了用户偏好标签的排序模型对标签进行优选。2.商品的卖点挖掘:卖点挖掘更多的依赖一些基础的数据,包括商品的标签库、属性库、人工编辑的信息等等。3. 利益点文案的实时个性化生成:首先,我们提出了PairXNN模型,用于预估用户对一个商品的卖点的点击概率,然后,根据不同的场景要求选择合适的卖点,基于语义规则和人工设计的模板进行利益点文案的实时个性化生成。下面主要介绍PairXNN的细节。2.1 PairXNN概要在商品卖点的点击率预估问题中,我们把用户偏好标签和商品卖点都用文本的方式进行了表示,因此我们选择的base模型是Aliaksei Severyn[1]的工作,他们的工作主要解决短文本pair的排序问题。在经过不断迭代实验优化后,我们最终形成了我们的PairXNN网络结构,如下图所示:模型包含几个主要的部分:1.用户偏好和商品卖点的语义表示:由于用户的偏好标签量比较大,如何对用户的大量偏好标签进行更深层次的偏好挖掘,是这个部分要解决的重点问题。2.Multi-level的相似度模块:在不同的语义层级上计算用户偏好和商品卖点的相似度。3.Additional Features:引入人工定义的额外的特征,辅助模型效果。例如用户偏好的特征、卖点的统计类特征、用户偏好和卖点的overlap特征等。整个PairXNN模型的训练和在线预测是基于我们内部自研的XTensorflow平台进行搭建。2.2 语义表示在对用户侧的偏好标签做语义抽取的时候,考虑到用户偏好标签的特殊性,它不是一个真正的有合理语义意义的句子,因此我们尝试了多种不同的语义表示的网络结构,包括全连接DNN、和[1]一样的CNN、Gated CNN[3]、self-attention[2] 和tailored attention。其中,Gated CNN是对传统的CNN结构做了优化,加入了gate机制,可以决定哪些信息更为重要,需要保留或者说舍去哪些信息。而采用Self-attention则是考虑到对于用户的偏好标签序列,需要更关注全局的语义相关性。tailored attention则是我们为了优化性能,简化语义表示网络所提出的新结构,因为智能利益点的场景都是重要场景,流量很大,对性能要求比较高。最终经过双十一期间的线上分桶测试,Gate

[1] [2] [3]  下一页


AI小编问世!阿里智能写手核心技术首次公开!