人工智能驱动的电子商务“用户模型”:如何确定用户的“购物性别”?
浏览:334 时间:2021-1-12

我们经常谈论的用户改进是什么?它是什么?简而言之,网站的每个用户都被标记并创建了个人身份证。

然后,操作员使用ID卡来确定事件的人口,定义人群的范围,并更准确地培养和管理用户。

当然,身份证的最基本信息是姓名,年龄和性别。与现实不同,网络上用户填写的信息可能不完全准确,需要进一步的确认和评估。

让我介绍具体的识别思路。

 一、用户画像需要的数据

将记录用户在电子商务网站上的通常购物行为,浏览行为,搜索行为和订单购买状态,以探索他们的消费能力和兴趣。在对数据进行分类之后,通常,可以通过三种类型的数据对用户进行分组和定义。

1.用户信息

社会特征:马克思的人性观将人们分为社会属性和自然属性。社会特征主要指社会中人的阶级属性,当然也包括服从,依赖或意识。这是人类发展不可避免的基本要求。

自然特征:它也可以说是人的生物,通常它可以是食欲,物质欲望或购买欲望,自我保护能力。但不同的人有不同的自然特征,如学习能力和逻辑思维。

兴趣特征:对于电子商务,主要是某个产品,某个品牌或类别的兴趣水平,如购买,浏览,收集,搜索和订购行为。

消费特征:消费能力的评价,消费倾向的评价,可以判断用户的消费水平,是消费能力还是低消费能力。

2,商品

产品属性:基本信息,类别,颜色大小模型等。

产品定位:产品的水平,无论是高中还是低端,客户的类型,区域或其他特点。

最后,通过以上信息获取用户信息,确定其特定的肖像特征,然后获得类似于紫色酱汁的网络ID。

通常,在获取数据之后,我们将反汇编每个链接并将其实现为特定的操作策略。通常,可以根据以下过程估计模型:

业务目标:准确交付——对于现有产品,寻找特定性别偏好的精确性别用于广告。

技术目标:用户购物的性别认可——男,女,中性。

解决方案:选择分类算法,构建火花模型并应用模型。

在线交付:获得的数据将在小范围内进行测试,不建议在初始阶段扩大交付范围。

效果分析:对交付的用户执行数据分析,并评估数据的准确性。如果它不完美,则需要进行改造和测试。

二、产品如何理解建模过程

关键是虽然通过用户的行为,购买和兴趣数据可以了解用户的基本信息,但仍然不清楚如何建模和使用什么语言?

事实上,购物性别的差异是火花,但火花有许多分类,包括逻辑回归,线性支持向量机,朴素贝叶斯模型和决策树。那你怎么选择?

其中,决策树有许多优点,主要是因为它的变量是灵活的,不需要独立性。它可以处理大尺寸数据而无需事先知道模型的特征。该模型相对容易理解和解释复杂非线性模式和特征的相互关系。似乎决策树方法最适合区分性别特征,因此我决定使用决策树进行尝试。

什么是决策树?简而言之,训练树用于构建用于分类的树以有效地对未知数据进行分类。您可以从下图中看到决策树的工作原理。

构建决策树的步骤是:

在初始阶段,所有历史数据都被视为主节点;

我们选择一个属性测试条件来分割节点,以配对模型为例,并以长相为第一节点;

拆分长期节点,以条件好看和丑陋为条件,导致结果成为他们的子节点,如分手和是否公务员;

对于子节点,例如握手和公务员,继续执行步骤2和3,直到节点满足停止分段的条件。

通过训练数据来构建用于分类的树,以有效地对未知数据进行分类。

在上述步骤中,可以得出结论,在构建决策树的过程中,最重要的是如何找到最佳分割点。值得决策树的问题是过度拟合的问题。整个算法必须解决如何停止分割和如何选择分割的两个关键问题。

最简单的方法是设置树的深度或树叶的最小样本大小。然而,太小的样本大小不具有代表性,因此通常可以使用交叉验证方法。交叉验证意味着部分数据可用于模型培训,而另一部分数据可用于评估模型的性能。工业中常用的分割方法是进行50/50,60/40或80/20的样品。

三、模型确立过程

在建模的早期阶段,首先要考虑的是首先确定指标并定义样本。购物性别意味着什么?使用哪些数据来确定购买的性别,样本的准确性,如何验证数据的可信度等等。

  四、购物性别的定义

我们来看下图。从图中可以看出具体的逻辑。通常,用户填写的信息不一定正确。我们对他/她的性别数据持怀疑态度,因此需要其他数据来帮助证明性别。

订单数据可以真实地反映用户的购买心态,预测购买行为,并且可以通过购买产品的类别来确定用户的购买倾向,并最终获得性别特征类别。但是,本文没有探讨区分特征类别的方法。

根据数据结果,最终确定了购物性别的定义。分为:

购物性别男性:在N个月购买的男性特征类别的数量>在N个月购买的女性特征类别的数量;

购物性别女性:N个月购买的男性特征类别的数量> N个月购买的女性特征类别的数量;

购物性别中立:没有男性和女性角色类别。

需要根据业务场景确定N.

 五、建模数据准备过程

本节是具体的操作过程,模型的实际操作阶段。通常,不同模型的训练通常是相似的。从技术上讲,大多数算法都使用spark,不同之处在于模型是针对场景计算的。

在所有样本中,80%的数据用于训练模型;

在所有样本中,测试了20%的数据用户数据。

该方法可以根据数据的规模更好地提高模型的准确性。

 六、模型效果分析

基于各种参数的评估结果和通过人工经验选择的模型参数建立模型。值得注意的是,决策树的深度不应太深,以防止过度拟合:

该行业目前在数据挖掘,机器学习和推荐系统中使用评估指标:Precision,Recall。准确度是使用最广泛的数据指标,也非常清晰易懂。以男性为例:

准确度=男性用户数/所有预测男性数。通常,准确性可以评估模型的质量。他是一个非常直观的数据评估,但这并不意味着准确度越高,算法越好。

召回率=男性用户数/男性总数,反映正确确定为总阳性病例的阳性病例比例。

建立模型后,需要根据模型结果与预期结果之间的比较进行调整。

 七、最后要说的

购物性别的定义对于用户准确上市,治愈疾病和合适的药物非常重要,以便有更好的疗效。