AI驱动的电商「用户模型」：如何确定用户的「购物性别」？

桂林seo半杯酒博客 2017-11-02 19:17:20

　　我们经常谈论的用户精细化运营，到底是什么?简单来讲，就是将网站的每个用户标签化，制作一个属于他自己的网络身份证。

　　然后，运营人员通过身份证来确定活动的投放人群，圈定人群范围，更为精准的用户培养和管理。

　　当然，身份证最基本的信息就是姓名、年龄和性别。与现实不同的是，网络上用户填写的资料不一定完全准确，还需要进行进一步的确认和评估。

　　下面我来介绍一下具体的识别思路。

　　一、用户画像需要的数据

　　用户平时在电商网站的购物行为、浏览行为、搜索行为，以及订单购买情况都会被记录在案，探查其消费能力，兴趣等。数据归类后，一般来讲，可以通过三类数据对用户进行分群和定义。

　　1、用户信息

　　社会特征：马克思的人性观把人分为社会属性和自然属性。社会特征主要指的是人在社会上的阶级属性，当然也包括服从性、依赖性或者自觉性等，这是人类发展的必然的基本要求。

　　自然特征：也可以说成是人的生物性，通常来讲可以是食欲，物欲或者购买欲，自我保存能力。但不同人会有不同的自然特征，比如学习能力和逻辑思维等。

　　兴趣特征：对于电商来讲，主要是对某件商品，某个品牌或者品类的兴趣程度，如加购、浏览、收藏、搜索和下单行为。

　　消费特征：消费能力的评估，消费倾向的评估，能够判断用户的消费层级，是高消费力还是低消费力。

　　2、商品

　　商品属性：基本信息，品类，颜色尺码型号等。

　　商品定位：商品层级，是否为高中低端，商品类型倾向于哪类客户，区域或者其他的特征。

　　最后通过以上的信息来获取用户信息，判断其具体的画像特征，然后得到类似于酱紫的网络身份证。

　　通常，拿到数据后，我们会将每个环节进行拆解，落实到具体的行动策略上。大体可以根据以下流程进行模型的预估：

　　业务目标：精准投放——针对已有产品，寻找某性别偏好的精准人群进行广告投放。

　　技术目标：对用户购物性别识别——男性，女性，中性。

　　解决思路：选择一种分类算法，建立spark模型，对模型进行应用。

　　线上投放：对得到的数据进行小范围内的测试投放，初期不宜过大扩大投放范围。

　　效果分析：对投放的用户进行数据分析，评估数据的准确性。若不够完美，则需要重新建模和测试。

　　二、产品如何理解建模过程

　　重点来了，虽然能够通过用户的行为、购买和兴趣数据，了解用户的基本信息，但是仍然不清楚如何建模?用什么语言建模?

　　其实，购物性别的区分使用的是spark，但是spark也有很多分类，包含逻辑回归，线性支持向量机，朴素贝叶斯模型和决策树。那么，又该如何选择呢?

　　其中，决策树的优点较多，主要是其变量处理灵活，不要求相互独立。可处理大维度的数据，不用预先对模型的特征有所了解。对于表达复杂的非线性模式和特征的相互关系，模型相对容易理解和解释。看起来决策树的方法最适合区分性别特征了，所以决定用决策树进行尝试。

　　什么是决策树?简单来讲，是通过训练数据来构建一棵用于分类的树，从而对未知数据进行高效分类。可以从下面的图了解决策树的工作原理。

　　构造决策树的步骤为：

　　起始阶段，所有历史数据当作一个主节点;

　　我们选择某个属性测试条件用于分割节点，以择偶标准模型为例，把长相作为首节点;

　　将长相节点分割，以帅和丑作为条件，导致的结果作为其子节点，如分割成牵手和是否公务员;

　　对子节点，如牵手和是否公务员，继续执行第2、3步，直到节点满足停止分割的条件。

　　通过训练数据来构建一棵用于分类的树，从而对未知数据进行高效分类。

　　以上步骤中，能够得出一个结论，在构建决策树的过程中，最重要的是如何找到最好的分割点。决策树值得注意的问题是过拟合问题，整个算法必须解决「如何停止分割」和「如何选择分割」两个关键问题。

　　最简单的做法就是设定树的深度或枝叶的最少样本量。但是，过少的样本量又不具有代表性，所以一般情况，可以使用交叉验证的方法。交叉验证就是可以使用一部分数据用于模型的训练，另一部分数据可以用来评估模型的性能。业内常用的划分方法是讲样本进行50/50分，60/40分或者80/20分。

　　三、模型确立过程

　　在建模前期，首要考虑的事情就是先确定指标，以及对样本的定义。购物性别指的是什么?通过哪些数据来确定购物性别，样本的准确性，如何验证数据的可信度等。

　　四、购物性别的定义

　　先看下图，具体的逻辑可从图中查看。一般来讲，用户填写的资料不一定真实，我们对他/她的性别数据持怀疑态度，所以，就需要其他数据进行辅助证明其性别。

　　订单数据能够真实反映用户的购买心态，预测购买行为，并且能够通过购买商品的所属类别，判断用户的购买倾向，最后得到性别特征类目。不过本文就不展开探讨甄别特征类目的区分方法了。

　　根据数据结果，最终，确认了购物性别的定义。分为：

　　购物性别男：N月购买的男性特征类目子下单数> N月购买的女性特征类目子下单数;

　　购物性别女：N月购买的男性特征类目子下单数> N月购买的女性特征类目子下单数;

　　购物性别中性：未下单男女特征类目。

　　N需要具体根据业务场景来定。

　　五、建模数据准备过程

　　本节是具体的操作过程，模型的实操阶段。一般来讲，不同模型的训练其实大体雷同。从技术上来讲，各家算法大多使用spark，不同点是所运算的模型都是针对于场景来定的。

　　在全部样本中，取80%的数据用于训练模型;

　　在全部样本中，取20%的数据用户数据测试。

　　这种方式可以更好的根据数据的规模，提高模型的准确性。

　　六、模型效果分析

　　根据各类参数的评估结果，以及人工经验选定的模型参数，建立模型。值得注意的是，决策树的深度不要过深，以防止过拟合的问题：

　　行业内当前采用数据挖掘、机器学习和推荐系统中的评测指标：准确率(Precision)、召回率(Recall)。准确率是应用最广的数据指标，也很清晰易懂，以男性为例：

　　准确率=命中的男性用户数量/所有预测男性数量，一般来讲，准确率可以评估模型的质量，他是很直观的数据评价，但并不是说准确度越高，算法越好。

　　召回率=命中的男性用户数量/所有男性数量，反映了被正确判定的正例占总的正例的比重。

　　模型建立完后，需根据模型的结果与预期的对比，进行调优。

　　七、最后要说的

　　购物性别定义对于用户精准营销十分重要，疑难杂症，对症下药，才能出现更好的疗效。

本文地址： http://www.mna5.com/wangluotuiguang/379.html