首页 > 技术方案 > 构建用户画像系统解决方案

构建用户画像系统解决方案

2021-03-29

一、认识用户画像

1. 什么是用户画像

用户画像是一个描述用户的工具,刻画出用户个体或者用户群体全方位的特征,为运营分析人员提供用户的偏好、行为等信息进而优化运营策略,为产品提供准确的用户角色信息以便进行针对性的产品设计。

用户画像系统集用户画像的生产与应用于一身,对外(如产品运营、推荐系统等)封装提供用户画像信息,以便对产品更好的设计以及对用户更好的运营。

2. 用户画像与数仓的关系

前面介绍了数据仓库的搭建《数据产品经理如何推进数据仓库的落地》,那么用户画像与数仓是一个什么样的关系?

一般来说,数据仓库存储的是结构化的数据,而构建用户画像需要结构化数据,也有非结构化和半结构化数据,既拥有结构化数据又拥有半结构化数据和非结构化数据的系统称之为数据湖。

相对来说,结构化的数据更容易构建用户画像,只需要对结构化的数据直接进行标签化,而非结构化和半结构化数据需要通过算法进行处理后再进行标签化。


3. 用户画像(User Profile)与用户角色(User Persona)区别

①性质:用户角色为定性研究,只考虑用户的特征性质不考虑程度,而用户画像是对用户的精细刻画,为定量研究。

②使用时机:一般来说,用户角色的使用场景在产品上线之前,此时几乎没有任何数据,需要产品同学针对产品的使用方进行特征描绘,以便了解目标群体进行针对性的设计;用户画像的使用场景在产品上线后,此时已积累了一定的数据量,可以对用户进行数据统计构建用户画像,获得精细化运营的能力。

③描述程度:用户角色是对某个用户群体特征进行高度概括,用户画像是对用户个体或者用户群体的精细描述。

④用途:用户角色用于辅助产品进行设计,研究用户体验,例如权限控制系统会分为以下几个角色:分析师、产品、运营、数据科学家等角色,用户画像用于了解用户特征以及偏好,以便提供个性化的服务和提高盈利。

二、用户画像规划

在构建用户画像之前,需要产品同学进行一个规划,说明下项目的背景以及做这个系统的必要性,最终要实现的目标是什么,即提供什么样的功能,为了达成这个目标需要的人力以及物力资源。

1. 所需物力资源

这里需要计算一下需要什么硬件,如多大的磁盘、内存,需要哪些,具体可以将硬盘和内存分配到每个存储及计算组件上,这个工作可与技术同学协商完成。

2. 所需人力资源

基于前面的介绍,设备的维护以及各存储计算组件的运行保障这里需要运维工程师,数据的清洗需要ETL工程师。

数据的存储、标签生成、流式计算等需要用到多种的大数据组件,这就需要大数据开发工程师,同时存储的数据库各种备份维护等工作需要配备数据库工程师。

非结构化和半结构化数据需要经过算法处理,所以算法工程师也是必需的;最后,用户画像需要进行可视化,还需要配备一个前端工程师。

三、怎么构建用户画像

1. 用户画像实施

在开始构建用户画像之前,需要数据产品出一个详细的实施文档,如果说用户画像规划文档是说做什么的话,那用户画像实施文档就是说明具体要怎么做;这样开发人员才知道具体的逻辑着手实施,如受多个因素影响的标签每个因素的权重是多少,这样才能计算出最终标签的值。

2. 数据建模

数据的如何从原始数据最终转化成标签数据,需要定义一个标准处理流程,这就是数据建模。

1)建模流程

① 获取原始数据,包含用户访问的行为日志、用户基本属性等,具体需要的数据视用途而定,这里预测客户类别用到的信息有地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别。

② 数据预处理,挖掘出事实标签,对用户数据进行过滤、清洗、简化表示,例如:过滤掉表中的无关字段,指定字段类型,处理缺省值等。

③ 分析用户行为及属性,构建用户画像的模型标签,通过用户行为属性分析,得到各类型用户的行为规律及特征属性,构建用户行为属性模型,训练出最终模型。

④ 调优模型,对模型进行调优,使预测结果更准确。

⑤ 通过模型进行预测,完善用户画像,预测用户的操作行为。

2)建模常用模型

以下列出常见的建模模型,以便了解熟悉各模型的常见用途。

① 文本挖掘模型(TF-IDF):常用于文本的特征提取,处理与清洗数据,匹配标识用户数据,TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率越高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,能更好的代表本篇文章,适合用来分类。

② 分类聚类模型(贝叶斯、KNN、K-Means):通过分析有相同特征的群体信息,对用户进行划分。

③ 机器学习:通过特征提取挖掘出标签。

④ 相似度模型(余弦相似度、皮尔逊相似度):用于辅助分类、聚类。

⑤ 推荐算法(Apriori):根据用户访问情况推荐出兴趣标签,完善画像。

3. 用户画像维度拆解

思考通过各种维度来全方位描述用户画像,根据产品是To B还是To C注重的方向又不一样,To C类型产品会关注用户的性别、年龄、兴趣、职业等信息;而To B类产品不太关注这些,会更倾向于研究用户的工作能力、行为习惯等。

产品所处的行业对用户画像侧重点也有影响,社交类和金融类的产品关注点又不一样;一般来说,可通过以下信息来基本构建用户画像,其余的维度视具体需求再进行定制化开发。

总之,用户画像的多维度刻画需要遵循MECE法则进行全方位不重复的拆解,这里同时引出了一个问题,维度的细分是不是越细越好?

如果用户画像的颗粒度过于精细。意味着开发成本直线提升,同时,过细的拆分意味着每个类别对应的用户量变少,造成服务目标单一化。

举一个比较极端不存在的例子,将用户ID作为标签,则每个ID对应一个用户,这样的细分对精细化运营是没有帮助的;在维度细化拆分的过程中也要不停关注标签值覆盖面来进行微调。

4. 用户画像标签生成

由于用户需求和用户场景不断更新,所以标签体系需要持续完善。不同的用户需求和业务场景,不同的业务标签,用户标签系统就不同。

5. 标签值映射规则

各类标签在底层存储中并不会储存具有实际意义的值,为了节省存储成本和提高查询效率通常用0、1等简单字符来表示;所以具体的映射规则需要数据产品进行定义并维护,业务人员咨询某标签里面的1代表什么意思的时候不至于一头雾水。

从生成逻辑上来区分主要有几大类:统计标签、规则标签、模型标签、算法标签。

6. 用户画像质量评估

经过以上步骤,用户画像的维度逐渐丰富,此时需要对用户画像的质量进行检验,主要从以下几个方面:

用户覆盖率:用户画像具体能够覆盖到多少用户,如年龄标签有80万人打上的具体的值,有20万人没打上,则年龄标签的用户覆盖率是80%;覆盖率是用户画像应用的一个评价,覆盖率越高,对后续精准营销的策略选择越准确。

准确率:标签有值但是打错了标签也是质量差的一个表现,,使用算法模型导致的用户分群错误或者对用户的购买意向预测错误,将直接影响购买率,影响GMV。此项指标可以通过灰度测试来验证。

可拓展:用户画像系统在维度刻画方面应该是可扩展的,支持后续方便的增加其他标签维度。

及时性:标签的实时更新对一些场景化推荐营销起到至关重要的作用,需要对近10分钟内做过某些行为的用户进行针对性广告推荐,如果用户做了该行为但是标签没有及时更新的话那这个推荐系统将起不到任何作用。此项指标可以人工进行操作后观察用户画像更新的时长。

7. 用户画像可视化

用户画像完成之后,需要对用户画像进行可视化以便只管感受,可通过Echarts、Tableau等可视化工具进行绘图;对于用户个体,可生成类似于简历的用户信息描述,对于用户群体,可展示该群体在各个维度的分布情况。

四、用户画像的应用

用户画像的应用场景十分广泛,无论是用户精细化运营还是系统个性化服务都能很好的支持,以下列举一些用户画像常见的应用:

  • 精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销;
  • 用户统计,比如APP用户的性别、年龄分布;
  • 推荐系统,通过数据挖掘利用关联规则计算,进行物品关联推荐,利用聚类算法分析,上班一族使用APP的时间分布情况;
  • 广告推荐,其实也是推荐系统的一种;
  • 提供种子用户,筛选出与种子用户类似的用户群体或者相反的用户群体,进行定制化的服务。

ADD:沈阳市浑南区沈阳国际设计谷6号楼503
TEL:13898875525
辽ICP备2022008173号-1
E-mail:1215183355@qq.com
查看地图
电话咨询
微信咨询
13898875525
微信扫码联系
×