用户画像的标签系统
随着互联网的兴起,每天都有大量的内容以视频的形式产生并上传到各大平台。面对海量内容,如何提高这些内容的智能分发效率,是各大平台面临的重要课题。
要实现这个目标,第一步是更好地了解我们的用户。建立用户画像的过程,本质就是给用户信息贴标签的过程。通过标签系统的建设,一方面数据变得可读、易懂,方便业务使用;另一方面,通过标签类别体系对标签进行组织和排列,以更适用的组织方式匹配未来不断变化的业务场景的需求。如何合理的规划贴标体系对产品的运营有很大的影响,所以贴标是产品策略中特别关键的一环。
二、标签是什么?
在不同的场景下,标签的定义往往是不同的。如果过于纠结或执着于单一的概念定义,将无法推动实际的业务和工作。我们所有的技术和业务工作都是为了业务目标,应该是实用适用的,而不是纯学术的。
一般来说,我们认为标签是指“利用原始数据,通过一定的处理逻辑输出,能够被业务直接使用的可读、可理解、有价值的数据。”
有两种方式来组织标签系统:结构化标签和半结构化/非结构化标签。
所谓结构化标签,就是按照一定的分类来制定层次化的标签体系,其中上层标签是下层的父节点,包含人群覆盖中的关系。一些以品牌为导向的广告经常使用这种结构化标签系统进行受众导向。需要指出的是,这个系统中的标签是根据需求方的逻辑制定的,一些对媒体方意义重大的涉密标签,比如军事,由于没有明确的需求对应关系,不应该出现在标签系统中。
另一种整理兴趣标签的方法是根据具体需求设置相应的标签。所有标签不能在同一个分类体系中描述,没有明确的父子关系。这种半结构化或非结构化的标签系统往往包含一组相对精准的标签,因此主要适用于多种目标,尤其适用于效果目标并存的内容精准投放需求。
选择结构化兴趣标签系统还是非结构化兴趣标签系统更多的是基于业务场景的决定。当标签只是投放系统需要的中间变量,并作为CTR预测或其他模块的变量输入时,那么结构化的标签系统实际上是不必要的,应该完全以效果驱动的方式对标签进行规划或挖掘,标签之间不需要层级关系约束。
还有一种特殊的标签形式,关键词。直接根据搜索或浏览内容的关键词来划分人群和投放广告,往往能达到更精准的效果。关键词这个标签系统是无层次的,完全无结构的。虽然很好理解,但操作起来并不容易。但由于搜索在互联网中的重要地位,一种特殊的选择和优化关键词的技术已经发展得相当充分,所以这种标签在实践中也是常用的。
三、如何构建标签体系?
1.确定对象
进行标签构建,首先要知道要标注什么样的对象,也就是确定对象。对象是研究对象在客观世界中的抽象,既包括物理对象,也包括虚拟对象。在企业管理过程中,有许多对象可以抽象。这些对象在不同的业务场景中是交叉关联的,是企业的重要资产,需要充分描述和理解。
在总结了很多行业、很多标签体系的经验后,对象可以分为三类:人、物、关系。这三个对象是不同的。“人”往往具有主动性和智慧,能够主动参与社会活动,主动发挥推动作用,往往是关系的发送者。“物”往往是被动的,包括原材料、设备、建筑物、简单的工具或功能集,是关系的接受者。当常规意义上的设备有了足够的人工智能,变成了机器人,就属于“人”这一类了。“人”和“物”都是实物,也就是看得见摸得着的物体,而“关系”则属于一个虚拟的物体,是两个物理实体之间联系的定义。因为关系非常重要,企业在大多数情况下都是在定义、重复、记录、分析和优化关系,所以需要“关系”这个对象来描述和研究关系。根据动机的不同,关系可以分为事实关系和归因关系。事实关系可以产生可量化的事实度量,归属关系只是一个归属属性。
通过定义对象的定义和分类,我们可以根据业务的需要确定建立标签系统的对象。基于内容的对象非常多,不可能为所有对象建立一个独立的标签系统。一般我们会根据业务流量需求、稿件数量、类别相似度、类别之间的关系进行排序,确定标签的优先级和必要性。
2.设计框架
一般来说,互联网产品需要使用的标签类别数量非常多。当标签项目的数量超过一定数量时,业务人员使用或查找标签就变得很麻烦,管理标签也变得很困难。因此,作者借鉴了图书馆管理中的经典方法:大量的图书需要专门的图书分类系统对图书进行编号,并按照编号排列在柜子中。读者在查阅图书时可以通过编号索引快速找到自己需要的图书,图书管理员也可以方便有效地对所有图书进行整理。
构建标签类别系统,首先要确定根目录。根目录就是上面说的对象,所以有三种根目录:人、物、关系。根目录和根一样,直接决定了是什么树。
如果根目录是一个人,也就是这个标签类别系统是一个人的标签类别系统,每个根目录都有一个标识列来唯一标识特定的对象。人的范畴包括两个子根:自然人和公司法人。同时,自然人团体或公司法人也可以被认为是人的对象范畴内的次根。自然人的例子可以是消费者、雇员、特许经营者等。,于是可以形成消费者、员工、加盟商的标签品类体系。同样,法人也可以细分为实体公司、营销公司、运输公司等等。从最大的“人”根,到“自然人/法人/自然人集团/法人集团”的子根,再到例子“用户/员工/加盟商”,都属于根目录的范畴。
同理,事物也可以细分为物品、对象、物品集合、对象集合等子类,根也可以在每个子类下细分。关系还可以细分为“关系记录”和“关系集”。
标签分类系统是采用分类系统对业务所需的标签进行设计、分配和分类。类别系统本身就是对某一类目标进行分类组织,分类通常用一级类别、二级类别、三级类别作为分类名称。
范畴结构可以比作树形结构,从根上长出的一级分支称为一级范畴;从第一个分支长出的第二个分支称为第二类;从第二个分支长出的第三个分支称为第三类。通用类别结构可以设置为三级分层结构。没有下一个分类的类别叫做叶类,挂在叶类上的具体叶就是标签。
需要注意的是,类目框架的构建一般是基于业务的,因为类目体系的核心意义是帮助用户快速找到和管理数据/标签。
下图是某银行构建的客户标签类别体系,其中客户是根目录,将由custom_id唯一标识,根目录下有基本特征、资产特征、行为特征、偏好特征、价值特征、风险特征、营销特征等一级类别。第一类基本特征分为两类:身份证信息、人口统计信息、地址信息和职业信息。第二类地址信息进一步细分为三类:账单地址、家庭地址、工作地址、手机地址。“账单地址”三级类目下,有“详细账单地址”、“账单地址邮编”、“账单地址所在省份”等标签。
标签品类设计完成后,整个标签系统的框架就有了。接下来要做的就是给每个叶子类别填充有商业价值,可以加工的标签,然后完成整个标签系统的设计。
填写内容
通过标签类别设计,已经有了某个对象的标签体系框架,但是还没有具体的标签内容。标签设计就是设计一个合适的标签,并将其挂载到标签类别中。在这一部分,笔者将尝试脱离技术角度,从产品角度分析如何“做标签”。
第一,如何拆解内容。内容的拆解首先分为用户、内容、关系三个部分,作为根目录。接下来关于“人”的部分,我们可以分为:人口属性、兴趣属性、行为偏好、发表时间等。同样,关于内容,我们可以分为“统计类”、“质量类”、“向量类”。然后,我们拆分二级类目,比如统计类目包括点击率、时长、播出完成率、评论好评和跳出率。
需要特别注意的是,通常的给别人贴标签、贴标签的动作,其实并不是设计标签,而是设计特征值。比如对某人的定义是“女,20-30岁,白领,活泼开朗”,这些都是性别、年龄、职业、性格标签的具体特征值。
这些特征在某种程度上会交叉,赋予这个特征更多的意义。比如将用户画像与内容画像交叉,可以得到用户的长短期兴趣匹配、会话兴趣泛化匹配、用户对某些内容类别的年龄偏好、用户对某些内容类别的性别偏好等等。如果把用户的特征和请求的上下文交叉,就会得到用户住在哪里,用户的兴趣随时间的变化。比如有的用户早上会看新闻,晚上会看一些娱乐资讯。还有一些场景,比如用户喜欢在地铁上看视频,但是喜欢在工作时看图文。通过这些特征值的组合,尽可能高效地划分用户群,从而实现内容的精准分发。
现在,我们知道如何构建标签体系,如何通过标签体系划分用户群体,但要做好标签,不仅要从需求上解构技术,更要立足于“好内容”。在这一部分,作者将通过操作&;创作者视角简单分析如何做好“好标签”。
想做一个能打动人的标签,首先要了解用户,切中用户痛点。
怎样才能理解用户?一种方法是转换角色,设身处地,把自己当成一个用户,做一个什么都不懂的“小白用户”,从这个角度看问题,想问题。
举个例子,你作为一个UP主,接到了一个推销“降噪耳机”的营销订单。你的任务是让用户下单,完成内容的价值转化。想一想,这个故事该怎么设计?
以下是参考文案:你是一家银行的经理,维护客户关系非常困难,你守不住岗位。你有房贷和车贷,月供五千块你孩子数学成绩不好。你妻子在市人民医院当护士。她妈妈尿毒症,透析多年。她不爱你。你年轻的时候,以为可以成就一番事业,现在就是这样,你的朋友都比你处得好。生活如此糟糕,你需要一个独立的环境来表达你的情绪。这个时候,你戴上降噪耳机。
这是典型的“用户视角”,描述的是一个场景。它让你在观看的同时产生强烈的代入感,不由自主地被内容所感染,产生情绪波动。在情绪的驱动下,可以完成订单,实现价值转化。
除了以上基于内容体验的标注方式,还有一种方式,就是我们之前提到的“特征值”。基于算法生成的高精度内容标签一般基于视频帧、标题、作者、内容属性、地理属性、时间等。算法生成的这些内容标签可以替代人工标注,从而节省人力成本,提高内容标签的生产效率。目前内容标签技术的准确率已经达到90%以上,部分标签值是通过算法分析内容自动生成的。
例如,在上面的视频中,生成的标签值可能是中国的乡村狗、农村地区、百万次广播、狗、华农兄弟、可爱的宠物和动物。
经过对象确定、框架设计、类别设计、标签设计、标注等几个步骤,我们完成了整个标签系统的构建。文章比较简单,应该作为指引。
第四,一些问题
在标签系统落地的过程中,我们会遇到很多问题,下面的问题也是笔者一直在思考的。有什么好的建议可以加作者微信交流:shmusk
内容的时效性:任何内容,包括视频或图文,都有生命周期,内容有长有短。预测一个内容的生命周期是非常困难的,无论是通过算法还是其他技术;假设我们已经知道了内容的生命周期,那么如何在有效的周期内给内容有效的曝光也是一个难题。如何平衡这两个问题,时效性很重要,因为内容过了生命周期再推荐给用户是没有意义的,用户体验会很差。
内容质量的判定:如何判定一个内容质量的好坏,好的标准是什么,如何建模,如果可以建模,有哪些特征,如何有效利用特征来判定我们的模型?
冷启动问题:分为内容冷启动和用户冷启动。内容冷启动是指一个新的内容进入平台,没有分发;用户冷启动是新用户,交互数据和行为非常稀疏。如何做出更好的推荐,引导后续更密集的交互,增加粘性,从而提升用户体验,更好的满足用户需求?