建立用户画像的标签体系

王建军

前一篇粗略的介绍了建立用户画像的过程，连载二更进一步，以时尚杂志全媒体为业务原型，把抽象的文字描述实例化，从战略目的分析、如何建立用户画像体系、怎么对标签进行分类分层级三个不同角度来说说用户画像建立的过程。梳理标签体系是实现用户画像过程中最基础、也是最核心的工作，后续的建模、数据仓库搭建都会依赖于标签体系。

可以获取到的数据分两类，一类是业务系统数据，一类是用户访问网站、APP产生的行为数据。

不同的企业做用户画像有不同的战略目的，广告公司做用户画像是为精准广告服务，电商做用户画像是为用户购买更多商品，内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。

战略理清楚后，首先要画出描述用户画像的框架，建立用户画像体系框架的目的是进一步明确用户画像的用途、把标签限定在合理的范围内。具体要结合战略目标、数据情况、应用场景来规划标签系统，选取和战略目标一致的标签维度，把标签按照应用场景进行分门别类。同时注意聚焦和收敛，不要把没用标签装进来，以降低系统的复杂性，避免无用信息干扰分析过程。

用户画像体系和标签分类从两个不同角度来梳理标签，用户画像体系偏战略和应用，标签分类偏管理和技术实现侧。

把标签分成不同的层级和类别，一是方便管理数千个标签，让散乱的标签体系化；二是维度并不孤立，标签之间互有关联；三可以为标签建模提供标签子集，例如计算美妆总体偏好度，主要使用美妆分类的标签集合。

梳理某类别的子分类时，尽可能的遵循MECE原则（相互独立、完全穷尽），尤其是一些有关用户分类的，要能覆盖所有用户，但又不交叉。比如：用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户，用户消费能力分为超强、强、中、弱，这样按照给定的规则每个用户都有分到不同的组里。

标签还可以按照处理过程、标签获取的方式进行划分，分为事实标签、模型标签、预测标签。不同类别的处理方式不一样。

事实标签：直接从原始数据中提取，例如性别、年龄、住址、上网时段等等

模型标签：需要建立模型进行计算，例如美妆总体偏好度

预测标签：通过预测算法挖掘，例如试用了某产品后是否想买正品

但是有些事实标签，如果用户没有填写的话，就需要建立模型来预测。例如数据库中的年龄字段为空，建立依据用户行为来建立特征工程，然后做预测。

参考文档

《如何构建用户画像》

《你确定你真的懂用户画像？》

基于大数据的用户画像构建(理论篇)

基于大数据的用户画像构建（理论篇） ◎什么是用户画像？简而言之，用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。举例来说，如果你经常购买一些玩偶玩具，那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”，甚至还可以判断出你孩子大概的年龄，贴上“有5-10岁的孩子”这样更为具体的标签，而这些所有给你贴的标签统在一次，就成了你的用户画像，因此，也可以说用户画像就是判断一个人是什么样的人。

除去“标签化”，用户画像还具有的特点是“低交叉率”，当两组画像除了权重较小的标签外其余标签几乎一致，那就可以将二者合并，弱化低权重标签的差异。 ◎用户画像的作用罗振宇在《时间的朋友》跨年演讲上举了这样一个例子：当一个坏商家掌握了你的购买数据，他就可以根据你平常购买商品的偏好来决定是给你发正品还是假货以提高利润。且不说是否存在这情况，但这也说明了利用用户画像可以做到“精准销售”，当然了，这是极其错误的用法。其作用大体不离以下几个方面： 1.精准营销，分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销； 2.用户统计，比如中国大学购买书籍人数TOP10，全国分城市奶爸指数； 3.数据挖掘，构建智能推荐系统，利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌，利用聚类算法分析，喜欢红酒的人年龄段分布情况； 4.进行效果评估，完善产品运营，提升服务质量，其实这也就相当于市场调研、用户调研，迅速下定位服务群体，提供高水平的服务； 5.对服务或产品进行私人定制，即个性化的服务某类群体甚至每一位用户（个人认为这是目前的发展趋势，未来的消费主流）。比如，某公司想推出一款面向5－10岁儿童的玩具，通过用户画像进行分析，发现形象＝“喜羊羊”、价格区间＝“中等”的偏好比重最大，那么就给新产品提供类非常客观有效的决策依据。 6.业务经营分析以及竞争分析，影响企业发展战略

【数据分析技术系列】之用户画像数据建模方法

【数据分析技术系列】之用户画像数据建模方法目录一、什么是用户画像？ (1) 二、为什么需要用户画像 (1) 三、如何构建用户画像 (2) 3.1数据源分析 (2) 静态信息数据 (3) 动态信息数据 (3) 3.2目标分析 (3) 3.3数据建模方法 (4) 四、总结： (6)

从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始到2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像？男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜

欢红酒的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。 3.1 数据源分析构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。本文将用户数据划分为静态信息数据、动态信息数据两大类。

产品经理必备技能之用户画像

产品经理必备技能之用户画像用户画像说简单点就是要你虚构出一个产品的用户，设定用户性别、年龄、收入、家庭等基本情况进行场景模拟。通过用户画像，我们可以将产品用户具体化、形象化，从而更好地理解产品用户，设计出更加符合用户需求的产品。那么用户画像怎么做？用户画像的应用场景在产品生命周期的各个阶段，我们可以通过用户画像形象生动表达的需求，让产品经理及团队成员有进一步的思考。通过用户画像，了解产品的用户是谁、用户希望产品可以做什么以及用户在使用产品过程当中做了什么。我们可以根据这三个目的，把用户画像分为一下三种应用场景： 1.了解用户是谁在产品的BRD文档编写阶段和产品构想阶段，产品经理最关注的就是产品的用户、需求、场景，通过三要素判断产品的构想是否成立以及将产品的解决方案向boss进行汇报。用户画像包含元素：基本属性：照片、姓名、年龄、职业、爱好等；需求：目前需要满足的需求；用户故事：虚拟产品的使用场景，例如用户会在生命情况下使用产品。数据来源：有些产品新人可能会问，用户画像中的信息从哪里来？自己编吗？怎么可能！还是要有人物原型的。在这里对于用户信息的收集有几种方式： 1）通过行业分析报告分析、获取产品的用户信息、用户需求，进行信息整个形成用户画像2）通过用户访谈、问卷调查等方式收集用户信息及需求，根据调查结果形成用户画像实战：关于外卖类产品的用户画像 2.用户希望产品可以做什么在产品设计阶段，产品经理需要将产品的设计思路、构想提交给各个团队进行产品设计开发。那么如何能让设计开发团队清晰理解你想表达的思想以及用户的真实需求，这时就需要用户

画像进行辅助说明。通常以PRD、原型图为主，用户画像为辅。用户画像包含元素：基本属性：照片、姓名、年龄、职业、爱好等；使用场景：明确产品使用是移动端还是PC端，什么情况下使用，设计产品性能，用户体验用户故事：描述用户任务以及用户完成任务时的产品使用路径。数据来源：在产品设计阶段已经明确了用户的需求及使用场景，那么关于用户故事的描述可以总结为一下两点：， 1）对用户进行访谈和问卷调查， 2）可以邀请目标用户对产品原型进行模拟使用，了解用户的使用方式和行为，设计出更符合用户习惯的产品。实战：关于女性电商产品用户画像 3.用户在使用产品过程中做了什么了解用户行为也可以叫做用户研究，关于用户研究的内容就比较广泛了，比如用户数据挖掘分析、用户流失行为分析、用户推荐等等，根据你的目的不同可以建立不同种类的用户画像。通常在这个阶段的用户画像都建立在产品上线运营了一段时间，希望从某一个具体方面对某一类用户行为进行具体研究、分析，提出针对这一类用户的解决或推荐方案。用户画像包含元素：基本属性：照片、姓名、年龄、职业、爱好等；使用行为：用户使用产品时的行为或特点，通过寻找共性发现你希望找到的一类用户用户故事：目的在找到符合这类使用习惯的用户群体数据来源：这时，产品已经运营一段时间了，使用行为的来源是通过产品后台收集到的数据分析得来，然后再将用户行为特点放入后台数据库中得到一类用户的具体数据。实战：关于国际漫游业务用户推荐

快速构建用户画像

思路+步骤+方法，三步教你如何快速构建用户画像如果你走在大街上，看到迎面走来了一个前凸后翘、长发飘飘、五官精致、皮肤白皙、大腿修长的人，你内心肯定会一阵惊喜：“哇，美女！”。假如你对这个美女产生了兴（性）趣，你想追求这个美女，那么你会想办法去了解这个美女，比如约她吃饭，出去玩以了解她的性格特征，从她闺蜜那打听她的兴趣、爱好等。当你对这个美女的外在和内在都做了详细的了解之后，你觉得的实时机差不多了，就开始了对美女的表白。其实在你向美女表白前的一些列过程就是在对这个美女进行画像。你在表白前你肯定会对这个美女有了以下判断：外在，她是一个美女。判断依据：前凸后翘，长发飘飘，五官精致，皮肤白皙，大腿修长内在，她很温柔、贤惠、知书达理，她喜欢……判断依据：声音好听、细腻，举止优雅，会做饭，能持家，善解人意等其实我们在做产品或者运营过程中的用户画像也是同样的道理和思路，前面是对单个人的特征描述。在做产品运营过程中的用户画像唯一不同的就是：我们需要对一群人做特征描述，是对一个群体的共性特征的提炼，说白了就是给用户群体打标签。所以用一句话概括：用户画像就是给用户打标签！当然给用户画像不是随随便便的给用户打几个标签就完事，就像你追美女之前的了解工作一样，你需要对美女的外表进行判断，你需要通过跟美女的交往和沟通，或者从闺蜜那进行打听来了解美女的性格，爱好和需求。所以我们在构建用户画像的时候需要遵循一定的思路、步骤和方法。用户画像的思路前面在用美女举例的时候，对美女从内在和外在两个方面进行了判断，用户画像的构建思路其实也是从这两个方面进行展开。在这里我们称之为：显性画像和隐性画像两个方面，具体的思路都是围绕这两个方面进行展开。

大数据挖掘的用户画像应用方案

在大数据时代，机器要学会从比特流中解读用户，构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践，以及在实际中的应用。如何根据用户画像进行精准营销？将用户画像应用于个性化推荐？一起来寻找答案吧~ 首先看一下大数据与应用画像的关系，现在大数据是炙手可热，相信大家对大数据的四个V都非常了解，大数据应该说是信息技术的自然延伸，意味着无所不在的数据。我们先看下数据地位发生转变的历史，在传统的IT时代，TI系统围绕业务服务，在这个服务的过程中沉淀了很多数据，再在数据的基础上做一些分析。但是到了DT时代不一样了，数据是现实世界的虚拟化表现，数据本身构成了一个虚拟世界，IT系统构建在虚拟系统上，变得更加智能。

大数据无处不在体现在几个方面第一个就是说我们社会信息化的建设越来越发达。第二个是随着可穿戴设备的发展，人产生了越来越多的数据，接入网络当中，同时人和人之间沟通的方式也不仅仅是传统的面对面，传统理解人、与人沟通的方式发生了根本的变革，因此我们要学会从比特流中去认识人类，因此构建用户画像这件事就变得更加重要。而且现在机器也变得很智能了，所以我们还要教会机器来认识人类，这样才能在画像的基础上构建应用，譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发，因此知道用户画像对于这些应用的重要性。如果大家是来自互联网公司的话，我们经常会提到这些词：用户画像、标签、360度用户视图等等，有不少人甚至就是做这面的研发工作，但是这些概念让你感觉有一点似是而非，我以前也有这样的感觉，就是说没有从根本上把这些概念弄清楚，因此有必要把这些概念从根本上弄清楚。首先看一下我们生活中的用户画像

用户画像数据建模方法

用户画像数据建模方法从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像？男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像

如何运用CRM的数据分析,完善企业用户画像模型

销帮帮CRM：用CRM的数据分析，完善企业用户画像模型对一家企业最重要的是什么，没错，是客户，那么你对目标客户的了解有多深？进入大数据时代，人群信息越来越多，企业没有精力去触达到每个用户去一一追踪验证，这就需要企业对用户进行大数据分析，将目标人群的信息根据需要划分成不同维度，让信息标签化，提炼出个体或整体的用户画像模型，为企业决策指明方向，助力企业迅速找到目标用户，从而转化成更多的价值。互联网时代，客户的信息散乱、庞大，运用人工的统计成本太大，这就需要利用更高效更精准的平台来进行统计分析，C RM重要的作用之一就是大数据分析，建立企业CRM不仅可以实现高效的销售管理，更重要的是可以帮助企业更快更深的了解客户。 CRM，是一个可以将客户所有信息整合的系统，运用一段时间后，系统内就会积累大量的用户信息数据，那么如何将这些数据提炼成用户画像模型从而转化成价值呢? 1、用成交客户模型指导潜在客户对于成交客户，可用CRM挖掘出他们的共性特征，由此来指导对潜在客户的行为。在初始使用CRM时，客户可自定义用户的标签，比如地域、所处阶段、来源等等。成交客户积累一定数量后，CRM会对成交的客户进行阶段平均周期、行业、来源、产品等共性方面统计，形成用户画像模型，让企业了解到哪个行业或地域机会最多，哪种产品最受客户喜爱......

这些共性特征，可用来对潜在客户进行更好的挖掘和服务。例如，在CRM机会分析应用中，直接对销售漏斗阶段进行了呈现，通过大量数据计算出每个阶段的平均停留时间，由此时间点来安排对潜在客户的跟进对策，更快赢单。在营销推广应用中，CRM可以统计成交客户来源数据，通过和最终转化率相比对，提炼出合适的推广渠道，进行精准营销，让利益更大化。 2、个性特征指导个性化服务对成交客户，要研究每个客户的自身数据，如对购买频率、产品购买喜好等进行分析，挖掘出客户购买行为规则，个性化为客户服务，提升客户的满意度和黏性，延长与客户的合作周期。对未成交客户，对客户列表信息、跟进记录等整体情况仔细研究，挖掘出客户顾虑点，更好的为客户服务。用户画像的核心就是数据，如果通过人力进行数据分析，会增加企业的人工、时间成本。CRM可帮助企业实现科学化数据管理，深度认识企业的目标客户，不断完善客户模型，减少目标客户的流失率。企业数据化的实现，CRM是非常关键的一步。

建立用户画像的标签体系

建立用户画像的标签体系王建军前一篇粗略的介绍了建立用户画像的过程，连载二更进一步，以时尚杂志全媒体为业务原型，把抽象的文字描述实例化，从战略目的分析、如何建立用户画像体系、怎么对标签进行分类分层级三个不同角度来说说用户画像建立的过程。梳理标签体系是实现用户画像过程中最基础、也是最核心的工作，后续的建模、数据仓库搭建都会依赖于标签体系。可以获取到的数据分两类，一类是业务系统数据，一类是用户访问网站、APP 产生的行为数据。

不同的企业做用户画像有不同的战略目的，广告公司做用户画像是为精准广告服务，电商做用户画像是为用户购买更多商品，内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。战略理清楚后，首先要画出描述用户画像的框架，建立用户画像体系框架的目的是进一步明确用户画像的用途、把标签限定在合理的范围内。具体要结合战略目标、数据情况、应用场景来规划标签系统，选取和战略目标一致的标签维度，把

标签按照应用场景进行分门别类。同时注意聚焦和收敛，不要把没用标签装进来，以降低系统的复杂性，避免无用信息干扰分析过程。用户画像体系和标签分类从两个不同角度来梳理标签，用户画像体系偏战略和应用，标签分类偏管理和技术实现侧。把标签分成不同的层级和类别，一是方便管理数千个标签，让散乱的标签体系化；二是维度并不孤立，标签之间互有关联；三可以为标签建模提供标签子集，例如计算美妆总体偏好度，主要使用美妆分类的标签集合。梳理某类别的子分类时，尽可能的遵循MECE原则（相互独立、完全穷尽），尤其是一些有关用户分类的，要能覆盖所有用户，但又不交叉。比如：用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户，用户消费能力分为超强、强、中、弱，这样按照给定的规则每个用户都有分到不同的组里。

用户画像数据建模方法

从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少喜欢红酒的人群中，男、女比例是多少也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌利用聚类算法分析，喜欢红酒的人年龄段分布情况

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。数据源分析构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。本文将用户数据划分为静态信息数据、动态信息数据两大类。静态信息数据

基于大数据的校园就业用户画像的构建与应用

2019年9月10日第3卷第17期现代信息科技 Modern Information Technology Sep.2019 Vol.3 No.17 1102019.9 基于大数据的校园就业用户画像的构建与应用刘艳（湖南科技职业学院软件学院，湖南长沙 410118）摘要：随着时代的发展和进步，大数据理念已经逐渐为人们所熟知，并无时无刻不在影响着人们的生活和工作。通过利用大数据能够有效促进校园管理和建设的开展，能够对校园就业情况进行用户画像建设，一方面实现校园就业用户的更好管理，另一方面也能够促进校园就业工作的更好开展。关键词：大数据；校园就业；用户画像；数据收集中图分类号：TP311.13；TP391.1 文献标识码：A 文章编号：2096-4706（2019）17-0110-03 Construction and Application of Campus Employment User Portrait Based on Big Data LIU Yan （Software College of Hunan Vocational College of Science and Technology ，Changsha 410118，China ） Abstract ：With the development and progress of the times ，the concept of big data has gradually become known to people ，and has always been affecting people ’s lives and work. The use of big data can effectively promote the development of campus management and construction ，and can build user portraits of campus employment. On the one hand ，it can achieve better management of campus employment users ，on the other hand ，it can also promote better development of campus employment work. Keywords ：big data ；campus employment ；user portrait ；data collection 收稿日期：2019-07-08 0 引言伴随着大数据时代的到来，社交网络与互联网的应用范围处于持续扩大之中。在整个互联网中，社交发挥着重要的基础作用。对于各个重大网站而言，其重要课题之一就是采集用户数据，并对其开展科学推荐工作。在开展个性化推荐工作的过程中，其包括许多步骤，用户画像提取过程发挥着关键作用。 1 画像的定义和用途 1.1 画像的定义画像与profile 为同一概念，均是通过不同的维度，来对一个人进行描述，这些维度可以是事实的，亦可以是抽象的；可以是性别、年龄等自然属性，亦可以为职业、社交特征等社会属性；可以为是否高收入人群、是否有固定资产等财富情况，亦可以为是否已婚、是否有子女等家庭情况；可以是喜欢网购、喜欢逛商场等购物习惯，亦可以是位于在城市生活等位置特征；也可以是其他行为习惯。总而言之，在画像的范围中，将各个大家能够想象到的表达一个人特征的都包括进来，实际上，画像就是利用各种方法，通过数据来对人的特征进行描述。 1.2 画像的用途（1）能够精确开展相关营销工作，对产品潜在用户进行科学分析。通过短信邮件等形式，针对特定群体，开展相关营销工作。（2）针对对用户进行相关统计，例如：全国就业高等院校有哪些、中国大学购买书籍人数TOP10等。（3）进一步挖掘相关数据，建设智能推荐系统，通过关联规则，开展相关计算工作，比如，就业岗位更喜欢什么样的学生。通过聚类算法，开展相关分析工作，了解就业学生的特点以及行业分布状况等。（4）开展效果评估工作，健全产品运营情况，以此来实现服务质量的提升。换而言之，就是开展市场与用户调研活动，在短时间内对服务群体做出定位，并提供具备较高水平的服务，（5）针对特殊用户开展私人定制工作，换而言之，对某类群体，甚至每位用户提供个性化服务。（6）可以科学分析业务经营情况，亦可以合理分析竞争情况，上述分析结果会对企业发展战略的制定与实施，造成一定的影响。 2 大数据的校园就业用户画像的构建和应用 2.1 数据收集通常情况下，在数据收集方面，可以分为四种类型，即：基本用户数据、就业行为数据、就业行业数据以及未来发展数据。（1）基本用户数据。其主要内容包括就业学生的姓名、性别、年龄、年级、学习的专业等。（2）就业行为数据。其主要包含：就业中的表现、就业的情绪、就业过程中的经历、面试的单位、参与面试的心

如何构建用户画像

作为一名SEMer或信息流优化师，了解用户并满足用户需求是必须要具备的技能。但由于每个人都受限于自己对于事物的认知，可能会导致对同一件事情的理解出现偏差。尤其是当我们把自己对产品的理解拿来当做用户对产品的理解来定义需求时，就容易出现所谓的“弹性用户”。每个人都说是为了用户体验着想，但这样定义出来的用户显然不是产品真实的用户。所以用户画像这个工具就出现了，它是一些真实用户构建出来的原型，用来帮助产品设计人员有针对性的制订产品功能，服务策略，销售策略，从根本上来讲，用户画像就是网络营销人了解用户所使用的。问题来了：我们构建出来的用户画像，真的能够帮助到我们吗? 在用户画像中，我们得知用户的年龄、性别、学历、婚姻状况等基本信息和工作信息，还有用户的一些特点和目标，是不是感觉已经很完善了? 现在这个用户处于无房无车的状态。假设我现在是一个卖车的商家，我应该给她推荐什么样的车? 也许你会说，她比较文艺，那么应该给她推荐带有文艺气息的车。也许你会说，她注重享受，那么应该给她推荐配置豪华的车。也许你还会说，她没车的同时也没房，那可以给她推荐个房车，同时解决了房和车的问题。

于是在有用户画像的情况下，“弹性用户”依然出现了，那么问题到底出在哪呢，这个用户画像为什么不能帮助我们作出正确的决策呢? 人口结构≠用户画像用户画像最早是由Alan Cooper在提出的，在经典的著作《About Face》中有专门的一个章节是讲用户画像，他在书中提到用户画像的核心是观察用户，把观察到的行为的一些独特的方面列出来，形成一个行为变量集。虽然说人口变量(比如年龄、性别、学历、地理位置)等等因素对于行为也有一定的影响，但是这种影响并不能构成用户与用户之间差异化的核心。真正形成差异化核心的是用户的行为，更深入的来说，是用户行为背后的动机。所以这就是为什么上面那个用户画像没办法帮助我们做一个卖车的策略，因为它并没有告诉我们当用户买车的时候，主要考量的因素是什么，是价格，品牌，还是其他的因素。常见的用户画像错误还有描述用户生活中的一天，因为通过观察用户一天的行为只能观察到他做了什么事情，而不能观察到他做这件事情的动机是什么，尤其是对于买车这样决策周期很长的事情来说，观察用户某一天的生活其实意义并不大。这里我们就要讲解一个概念，叫考量度。什么是考量度呢? 它是指用户在做一个决策之前，所需要思考的程度，从思考的多少可以分为高、中、低三个考量度等级。

新浪微博的用户画像是怎样构建的

新浪微博的用户画像是怎样构建的? 1.概述从上一篇《认识每一个“你”：微博中的用户模型》里面对用户模型维度的划分可以看出，属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。而所谓用户画像，简单来说就是对用户的信息进行标签化。如图1所示。一方面，标签化是对用户信息进行结构化，方便计算机的识别和处理；另一方面，标签本身也具有准确性和非二义性，也有利于人工的整理、分析和统计。用户属性指相对静态和稳定的人口属性，例如：性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调

查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等，在收集和清洗用户属性的过程中，需要注意的主要是标签的规范化以及不同来源信息的交叉验证。用户兴趣则是更加动态和易变化的特征，首先兴趣受到人群、环境、热点事件、行业……等方面的影响，一旦这些因素发生变化，用户的兴趣容易产生迁移；其次，用户的行为（特指在互联网上的行为）多样且碎片化，不同行为反映出来的兴趣差异较大。接下来主要介绍一下微博画像中兴趣维度的构建方法。 2.微博用户兴趣分析 1标签来源用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外，他关注用户的标签也会传递到该用户身上。如图2所示（蓝色实线代表关注关系，橙色虚线代表兴趣标签来源）。 2权重计算

在收集到一个用户可能存在的标签后，还需要给标签赋一定的权重，用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量，标签的传递路径，转发关系，标签的本身，以及标签与用户之间的共现关系都会考虑在内。不同质量的用户自身产生的标签权重不一样，质量越高，认为该标签的可信度越高，无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递，亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博，权重值会有区别，一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词，那么它用于刻画用户的兴趣的区分性是比较差的，相反如果是一个长尾词，则区分性较强。出于这样的考虑，越是长尾词，标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现，评价的是两者的关联性。关联性越高，则标签的权重值越高。综合上述的因素，一个标签对于特定用户的权重值可以大致表示为：标签权重= (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。 3时效性随着时间的变化，用户的兴趣会发生转移，时间越久远，标签的权重应该相应的下降，距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑，一般会在标签权重值上叠加一个时间衰减函数，这个时间衰减函数被设计成如图3所示的指数衰减的形式，通过定义衰减幅度和半衰期，调节衰减的程度，体现不同的时效性。此外，针对用户的兴趣，还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签，并计算标签

用户运营知识结构归纳之用户画像(精编文档).doc

【最新整理，下载后即可编辑】用户运营知识结构归纳之用户画像智能手机新增流量消失、红利过去、超级用户思维、智能手机市场国内饱和…… 这是我们从2016年起至今，在各类互联网大咖以及媒介平台看到最多的关键词了。因此，用户运营开始有了地位，如何盘活现有的用户群体是每一个（移动）互联网公司老板们考虑的问题。 2018年始，在给自己做工作规划的时候，定下了运营知识深度学习的两个方向：用户运营、数据分析。做运营这些年，也看了不少用户运营的文章和书籍，每个大咖写的都特别好，但是都不够系统，所以想着自己可以梳理下用户相关的知识结构。终于拖延了四分之一2018年之后的近1个月时间，把沉淀在Evernote的大咖文章做了梳理和归纳，分享给大家，仅供参考。文章主要从三个方向来梳理用户运营的知识结构：用户画像、用户生命周期、用户成长激励。内容穿插会给到每个环节需要的准备工作、监测数据等，篇幅较长，分三次发布，看官要有耐心~

误区：Persona（用户角色）VS Profile（用户画像）Persona用户角色描绘抽象一个自然人的属性通过调研问卷、电话访谈等手段获得用户的定性特征——用户间有差异，因为存在差异，所以需要描述是用户属性的集合，不是具体谁，放一张某某的照片也是为了达到共情。它应该能准确描述出产品用户，一般会设置三到四个用户角色，也是通常意义上的目标用户群体用户角色有缺点，评估用户属性时难以量化，也很难证伪。你不知道它确定的是不是真的目标群体，用户群体也随时间推移变化，所以用户角色需要不断修改。 Profile用户画像和数据挖掘、大数据息息相关的应用，被更多运营和数据分析师使用，是各类描述用户数据的变量集合通过数据建立描绘用户的标签基于用户画像的应用：个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好当我们想要选择某部分用户群体做精细化运营时，会用用户画像筛选出特定的群体

用户画像构建研究

2019年3月25日第3卷第6期现代信息科技 Modern Information Technology Mar.2019 Vol.3 No.6 17 2019.3 用户画像构建研究马朋辉，王雪宁，李勇，邵帅（吉林大学，吉林长春 130012）摘要：本文主要研究了基于搜狗引擎用户浏览数据下的用户画像构建，我们具体地、标签化地、有针对性地描述了用户特征，并以此作为市场分析、商业决策、精准营销的依据。用户画像技术可以帮助搜索引擎更有针对性的服务用户。本文主要工作：一是对用户搜索数据集进行预处理，分词上我们选用了Jieba 分词工具；二是特征词的选取采用了基于TF-IDF 的向量空间模型；三是使用Word2vec 将特征词转变为词向量；最后使用不同的分类器构建用户画像，我们在这里使用了Stacking 模型。关键词：用户画像；Word2vec ；词向量；Stacking 中图分类号：TP391.1；TP391.4 文献标识码：A 文章编号：2096-4706（2019）06-0017-03 Research on User Portrait Construction MA Penghui ，WANG Xuening ，LI Yong ，SHAO Shuai （Jilin University ，Changchun 130012，China ） Abstract ：This paper mainly studies user portrait construction based on user browsing data of Sogou engine. We describe user characteristics concretely ，labeled and targeted ，and use this as the basis of market analysis ，business decision-making and precise marketing. User portrait technology can help search engines more targeted service users. The main work of this paper is as follows ：Firstly ，the data set of user search is preprocessed. In word segmentation ，we choose Jieba word segmentation tool ；secondly ，we use TF-IDF-based vector space model to select feature words ；thirdly ，we use Word 2vec to transform feature words into word vectors ；finally ，we use different classifiers to construct user portraits ，we use Stacking model here. Keywords ：user portrait ；Word 2vec ；word vector ；Stacking 收稿日期：2019-03-15 0 引言大数据时代的到来，有力的缓解了信息爆炸的问题，搜索推荐系统也一直在致力于从“拉”模式到“推”模式的改变[1]，与此同时，随着互联网计算机技术的快速发展，云计算技术的出现为大数据的及时性分析、处理提供了技术上的支持[2]，用户画像是根据用户的社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”。通过构建搜索引擎的用户画像可以大大减少平台的运营成本。 1 相关技术介绍 Word2vec ：Word2vec 模型其实就是简单化的神经网络，一般分为CBOW （Continuous Bag-of-Words ）与Skip-Gram 两种模型。CBOW 模型的训练输入是与某一个特征词的上下文相关的词相对应的词向量，而输出的就是这特定的一个词的词向量。Skip-Gram 模型和CBOW 的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。CBOW 对小型数据库比较合适，而Skip-Gram 在大型语料中表现更好。 Stacking 模型：Stacking 是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为训练集进行再训练，从而得到完整的Stacking 模型。 2 用户画像模型构建 2.1 数据集本文中所采用的数据来源于CCF 竞赛平台，搜狗公司提供的用户搜索数据，其中用户的ID 经过加密算法加密。其中每条数据包含用户的ID 、Age （年龄）、Gender （性别）、Education （教育程度）、Query List （用户搜索词列表）。数据说明如表1。表1 数据属性说明表属性性别年龄学历分类 0：未知性别0：未知年龄0：未知学历1：男性1：0-18岁1：博士2：女性 2：19-23岁2：硕士3：24-30岁3：本科4：31-40岁4：高中5：41-50岁5：初中6：51岁以上 6：小学 2.2 预处理数据的预处理包括数据清洗、自定义词典、分词处理。在数据清洗过程中，我们主要对空值进行了处理，为了提高

用户画像标签建模

用户画像标签建模用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，因此这方面信息的数据建模不是本篇文章重点。动态信息数据目标分析用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。数据建模方法如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址+内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同

用户画像方法与案例——从具象到抽象

象的个性描述，再到抽象应用，如下图所示：

一、群体定量统计分析做用户画像的基础，是通过数据对海量用户有一个初步的了解，一般采用用户数据提取分析与问卷调研两种方式进行，根据产品目标确定统计分析的维度指标。分析的维度，可以按照人口属性和产品行为属性进行综合分析，人口属性：地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等；产品行为：产品类别、活跃频率、产品喜好、产品驱动、使用习惯、产品消费等；以下是腾讯开放平台的一些产品用户属性，年龄与性别的交叉分析，付费用户与年龄的交叉分析。无论是后台数据分析还是用户问卷调研，都需要进行研究的效度与信度论证，保证数据尽量准确可用。做问卷调研，需要做多少份问卷呢？一般是4000份以上，这个时候的抽样置信区间可以达到99%，错误率幅度在2%左右。如果保持错误率2%的水平，置信水平95%，那么问卷数量可以下降到2500份。需要注意的是一般我们回收问卷，还会通过答题完整性、一致性等多项标准剔除无效问卷，所以回收问卷尽量高于标准数量的10%。案例：页游用户年龄与性别分布数据来源：2013年腾讯开放平台白皮书案例：付费用户年龄分布

数据来源：2013年腾讯开放平台白皮书这本白皮书还是有不少用户数据可以供大家参考，有兴趣的同学可以去腾讯开放平台下载：https://www.360docs.net/doc/84646939.html,/ 二、具象的定性个体描述也就是创造人物角色，这里先说一个概念：Persona。Alan Cooper提出了Persona这一概念。《赢在用户》这本书将其翻译为“人物角色”，是在上面的海量数据分析基础上，进行具象化得到一个的虚拟用户。有兴趣了解AlanCooper的可以去他的Google+主页看看。链接：https://https://www.360docs.net/doc/84646939.html,/101097598357299353681/about