专注APP运营推广与商业变现
  • APP图标 APP
    Android二维码
    扫码下载APP干货铺子
  • 注册 登录
  • 首页
  • 特邀专栏
  • 活动福利
  • 投稿合作
标签数据——如何全面科学地评估用户标签的质量?

作者:首席数据科学家 · 2021-02-23

关于标签画像系统,已经有分享过《标签类型及分类》。今天,针对标签质量评估,简单进行一些分享。



01

—

为什么要评估标签质量


首先,为什么要进行标签质量评估?


想象一下,我们开发了一个“用户年龄”标签,业务想针对20-30岁的人进行精准投放。但经过筛选,才筛出来几千个人,和公司总体用户相比仅仅是九牛一毛,那这样的标签,还有价值不?


因此,对标签的质量进行科学完整地评估,有助于指导标签的管理者、开发者不断地提升标签质量。通过创建一套完整的评估体系,对于质量过差的标签,不着急上线,等达到基本的质量要求后再开放给业务使用。不然,既对业务带来不了价值,也容易让标签画像系统失去用户的信任。


回过头来,上面这个例子反映的问题,其实就是标签的质量差。准确地说,是标签的覆盖度太低了。除了覆盖度,还有很多指标可以衡量一个标签的质量,咱们在下面详细展开,主要通过 数据质量、应用质量、业务质量 三个方面来评价标签的质量。



02

—

标签质量评估:数据质量评估


数据质量是标签质量最基础的评价,主要分为准确度、覆盖度、稳定性 三部分。


(1)标签的覆盖度


标签覆盖度的含义,是指在一个标签中,有业务含义的人群数量与总人群数量的比例。


图片


举个例子,【性别】标签,全量用户是100万的规模,其中40万打上了“男性”标签,35万打上了“女性”标签,其他25万人都没有打上任何标签。那么,【性别】标签的覆盖度就是75%。


这个覆盖度还算是比较可以,想象一下如果覆盖度只有20%,会有哪些影响呢?可能会有下面的负面影响


  • 用标签进行人群圈选的时候,人数过少

  • 用标签统计平台用户的特征时,和真实情况会有偏差


因此,提升标签的覆盖度是标签的基本质量要求。


为啥会出现标签覆盖度低的情况?往往是一些用户自己填写的标签,覆盖度极低,之前的文章中也介绍过。


(2)标签的准确度

标签准确度的含义,是指给用户打的标签中,准确反映事实的人群数量与总人群数量的比例。


举个例子,【性别】标签,用户A真实情况是男性,但是打标签打成了女性,那么这就是一个错误的标签值。假设100万用户,真实情况50万男性50万女性,有以下表格:


图片


那么这个标签的准确度就是:(35+30)/(35+5+5+30)=86.7%


提升标签准确度的意义也是不言而喻的。准确度如果太低,那这个标签基本丧失了应用价值。至于阈值的设置,还是基于各自的业务情况来定。


(3)标签的稳定性


标签的稳定性也是影响标签质量的重要因素。


什么是稳定性呢?举个用户年龄标签的例子。昨天30岁以下的用户有200万,占比10%,今天就成了1000万,占比50%。这种标签数据,你敢用么?是数据的计算逻辑出现问题,还是其他原因导致?


因此在标签的质量评估中,标签值的相对稳定性,是重要的评估标准之一。


具体怎么衡量标签的稳定性呢?主要可以通过PSI指标的方式来衡量。


图片

PSI 计算步骤:


假设我们要比较样本A与样本B中某一变量Y的分布,首先按照同一标准将Y分为几个区间(通常分为10段),计算样本A和样本B中每个区间的占比。在每个区间段上,将两个样本的各自占比相除再取对数,然后乘以各自占比之差,最后将各个区间段的计算值相加,得到最终PSI。


图片


最终计算的PSI指标中,若PSI<0.1 样本分布有微小变化,模型基本可以不做调整。若PSI 在0.1~0.2之间,样本分布有变化,根据实际情况调整评分切点或调整模型。若PSI>0.2,样本分布有显著变化,必须调整模型。



03

—

标签质量评估:应用质量评估


应用质量的评估是从产品角度出发,评估标签对于产品应用的价值。


若一个标签的数据质量高,但是用户都用不起来,不好用,那么也是难以发挥出标签内在的价值。


举个常见的例子。大家都会做的一个标签,【用户近30天gmv值】。这个标签(是个连续性值,但可以说是个广义的标签)按照上文的标准衡量,覆盖度高,100%的用户;准确度也高,100%(SQL正确的话……)。那这个标签有用吗?往往业务不太爱用这种连续值的标签。


为什么?因为这种标签的应用质量太差了。


对于业务来讲,【近30天gmv值】是1万美金,这个是高还是低?如果是没有经验的业务人员是完全无法判断的。


因此,要将这种标签的应用价值提升。针对这个例子,提升的方法可以是把连续值分段,做成【高价值】、【中价值】、【低价值】,也可以做分布曲线给用户提供参考。


再比如,一个标签是用户常用的搜索词,如果不进行一些特殊的加工,将是很冗余的长串字符,用起来也是体验很差。这也属于应用质量低。


关于应用价值的衡量,往往会用一些滞后性的指标衡量。基础假设是,业务人员用的多的标签,一定是应用质量好的;业务人员用得少的标签,一定是应用质量弱的。


具体衡量应用多少的指标,可以用【使用次数】、【使用热度】、【调用次数】等来综合衡量。


对于应用价值低的标签,可以针对性地进行分析,不断提升每个标签的应用价值。



04

—

标签质量评估:业务价值评估


最后一个衡量标签质量的方面,就是业务质量。


这个方面是最不好衡量的,但又是最最重要的。因为相比于数据质量是从数据层出发、应用质量是从产品层出发,业务质量是从业务层出发,是离业务价值最近的。


想象一下,业务如果用了一个标签,对一群人进行了投放,ROI是日常投放的好几倍,那这个标签的价值可以说是毋庸置疑了。这时,我们可以说这个标签的业务质量很高。


什么样的标签的业务质量会比较高呢?比如:【用户购买偏好】、【用户的营销敏感度】等等。这类的标签往往都是一些复杂逻辑的算法标签,常常有比较强的业务质量。


但这里存在的一个悖论,就是业务质量是后验的。即想知道一个标签的业务质量,就一定要进行投放测试才行。而且往往不同场景的一些投放带来的结果也不太一样,就导致业务质量的评估往往很难落地。


这确实是个难点。作者的经验是,在评估标签质量时,先重点考虑数据质量和应用质量,这两者都没问题的时候,就可以上线开放给业务使用。但对于业务使用标签后的数据进行回流,监控标签应用在业务场景的价值情况。最终可以有个比较公允的衡量。而这个衡量,将对后面标签的优化方向,带来很强的指导性意义。


今天先分享这些,欢迎关注后续内容


作者:首席数据科学家

本文经授权发布,不代表APP干货铺子立场。如若转载请联系原作者。

原文链接如下:https://mp.weixin.qq.com/s/dKjDLYm5x08imJFfRFIiVQ

    标签:

  • 用户画像

    分享到:

下一篇文章:
  • 热门文章
  • 热门标签
  • 1 盘点8种移动端广告样式常见尺寸和设计规范
  • 2 阿成谈商业化:掌上大学 APP
  • 3 QuestMobile2023兴趣圈层洞察报告
  • 4 美食自媒体如何在微博获取大量粉丝,实现销售转化?
  • 5 阿成谈商业化:小黑盒APP
  • 6 阿成谈商业化:虎扑 APP
  • 7 40个互联网广告专业术语,投放必备!
  • 8 一文搞懂小红星、星知任务、星火计划!
  • 移动互联网
  • 运营
  • APP推广
  • 行业快讯
  • 运营分析
  • 互联网+
  • 渠道推广
  • 用户运营
  • ASO
  • 商业化模式
  • 增值服务
  • 广告变现
  • 移动APP
  • 渠道
  • 内容运营
  • App Store
  • 推广
  • 电商
  • APP营销
  • 产品运营
  • 微博营销
  • 活动运营
  • 游戏
  • 信息流广告
  • 社区运营
  • 职场
  • 创业
  • 产品推广
  • 广告投放
  • 网红经济
  • 微信
  • 广告技术
  • 网红
  • 行业洞察
  • 直播
  • 新媒体运营
  • 程序化广告
  • B站
  • 品牌营销
  • APP广告变现
  • 行业报告
  • 广告商业变现
  • 手游
  • 抖音
  • 快手
  • 腾讯
  • 游戏运营
  • 流量变现
  • 小红书
  • 短视频
  • APP
  • APP干货铺子
  • APP干货铺子
  • APP干货铺子
  • APP干货铺子
  • APP干货铺子
app干货铺子
APP干货铺子
APP干货铺子 APP干货铺子 老板娘微信:18938040424
app干货铺子

合作伙伴

  • 皓量科技 |
  • 微思敦 |
  • 小敦客户中心 |
  • 活动盒子 |
  • 鸟人网 |
  • App Growing |
  • 热云数据 |
  • 爱运营 |
  • 手游那点事 |
  • 诸葛智能 |
  • 微营销手册 |
  • 蝉大师 |
  • APP营 |
  • 量江湖ASM智投 |
  • 艾奇在线 |
  • 饮鹿网 |
  • 七麦数据 |
  • 运营狗 |
  • CC数据 |
  • 起点学院 |
  • 信息流雷达 |
  • 运营喵 |
  • 有米有站 |
  • 新媒体之家 |
  • 蜂库导航 |
  • 一只青蟹 |
  • easyAI知识库 |
  • PaaSoo国际短信 |
  • 小码助手 |
  • 闯奇科技 |
  • CQADO信息流数据 |
  • 蝉妈妈抖音数据 |
  • 快出海 |
  • BigBigAds |
  • 鸟人笔记 |
  • 阿里巴巴国际站 |
  • 数字时代 |
  • 侃文案 |
  • 洞见研报 |
  • 神赞新媒体营销 |
  • ASOTools |
  • NIUKE跨境通 |
  • 得书网 |
  • 宜日达 |
  • 外贸客户开发软件 |
  • Smartproxy |
  • Diffshop店湖 |

联系我们

联系微信:18938040424

纯干货,喂饱你

订阅
微信公众号

微 信 公 众 号

Copyright © 2015- APP干货铺子 版权所有 京ICP备20017819号

您的报名信息已提交!
请等待工作人员的进一步通知

好的

欢迎报名

您的姓名:
请填写您的真实姓名(必填)
手机号码:
请填写您常用的手机号码(必填)
电子邮箱:
请填写您常用的电子邮箱(必填)
公司名称:
请填写您所在的公司名称(必填)
职位名称:
请填写您的职位名称(必填)
所 在 地:
请填写您的所在地(必填)
微博昵称:
请填写您的微博昵称(选填)
QQ 号码:
请填写您的QQ号码(选填)
微信:
请填写您的微信(选填)
提交
APP干货铺子
  • 首页
  • 特邀专栏
  • 活动福利
  • 投稿合作
标签数据——如何全面科学地评估用户标签的质量?

首席数据科学家 · 2021-02-23

关于标签画像系统,已经有分享过《标签类型及分类》。今天,针对标签质量评估,简单进行一些分享。



01

—

为什么要评估标签质量


首先,为什么要进行标签质量评估?


想象一下,我们开发了一个“用户年龄”标签,业务想针对20-30岁的人进行精准投放。但经过筛选,才筛出来几千个人,和公司总体用户相比仅仅是九牛一毛,那这样的标签,还有价值不?


因此,对标签的质量进行科学完整地评估,有助于指导标签的管理者、开发者不断地提升标签质量。通过创建一套完整的评估体系,对于质量过差的标签,不着急上线,等达到基本的质量要求后再开放给业务使用。不然,既对业务带来不了价值,也容易让标签画像系统失去用户的信任。


回过头来,上面这个例子反映的问题,其实就是标签的质量差。准确地说,是标签的覆盖度太低了。除了覆盖度,还有很多指标可以衡量一个标签的质量,咱们在下面详细展开,主要通过 数据质量、应用质量、业务质量 三个方面来评价标签的质量。



02

—

标签质量评估:数据质量评估


数据质量是标签质量最基础的评价,主要分为准确度、覆盖度、稳定性 三部分。


(1)标签的覆盖度


标签覆盖度的含义,是指在一个标签中,有业务含义的人群数量与总人群数量的比例。


图片


举个例子,【性别】标签,全量用户是100万的规模,其中40万打上了“男性”标签,35万打上了“女性”标签,其他25万人都没有打上任何标签。那么,【性别】标签的覆盖度就是75%。


这个覆盖度还算是比较可以,想象一下如果覆盖度只有20%,会有哪些影响呢?可能会有下面的负面影响


  • 用标签进行人群圈选的时候,人数过少

  • 用标签统计平台用户的特征时,和真实情况会有偏差


因此,提升标签的覆盖度是标签的基本质量要求。


为啥会出现标签覆盖度低的情况?往往是一些用户自己填写的标签,覆盖度极低,之前的文章中也介绍过。


(2)标签的准确度

标签准确度的含义,是指给用户打的标签中,准确反映事实的人群数量与总人群数量的比例。


举个例子,【性别】标签,用户A真实情况是男性,但是打标签打成了女性,那么这就是一个错误的标签值。假设100万用户,真实情况50万男性50万女性,有以下表格:


图片


那么这个标签的准确度就是:(35+30)/(35+5+5+30)=86.7%


提升标签准确度的意义也是不言而喻的。准确度如果太低,那这个标签基本丧失了应用价值。至于阈值的设置,还是基于各自的业务情况来定。


(3)标签的稳定性


标签的稳定性也是影响标签质量的重要因素。


什么是稳定性呢?举个用户年龄标签的例子。昨天30岁以下的用户有200万,占比10%,今天就成了1000万,占比50%。这种标签数据,你敢用么?是数据的计算逻辑出现问题,还是其他原因导致?


因此在标签的质量评估中,标签值的相对稳定性,是重要的评估标准之一。


具体怎么衡量标签的稳定性呢?主要可以通过PSI指标的方式来衡量。


图片

PSI 计算步骤:


假设我们要比较样本A与样本B中某一变量Y的分布,首先按照同一标准将Y分为几个区间(通常分为10段),计算样本A和样本B中每个区间的占比。在每个区间段上,将两个样本的各自占比相除再取对数,然后乘以各自占比之差,最后将各个区间段的计算值相加,得到最终PSI。


图片


最终计算的PSI指标中,若PSI<0.1 样本分布有微小变化,模型基本可以不做调整。若PSI 在0.1~0.2之间,样本分布有变化,根据实际情况调整评分切点或调整模型。若PSI>0.2,样本分布有显著变化,必须调整模型。



03

—

标签质量评估:应用质量评估


应用质量的评估是从产品角度出发,评估标签对于产品应用的价值。


若一个标签的数据质量高,但是用户都用不起来,不好用,那么也是难以发挥出标签内在的价值。


举个常见的例子。大家都会做的一个标签,【用户近30天gmv值】。这个标签(是个连续性值,但可以说是个广义的标签)按照上文的标准衡量,覆盖度高,100%的用户;准确度也高,100%(SQL正确的话……)。那这个标签有用吗?往往业务不太爱用这种连续值的标签。


为什么?因为这种标签的应用质量太差了。


对于业务来讲,【近30天gmv值】是1万美金,这个是高还是低?如果是没有经验的业务人员是完全无法判断的。


因此,要将这种标签的应用价值提升。针对这个例子,提升的方法可以是把连续值分段,做成【高价值】、【中价值】、【低价值】,也可以做分布曲线给用户提供参考。


再比如,一个标签是用户常用的搜索词,如果不进行一些特殊的加工,将是很冗余的长串字符,用起来也是体验很差。这也属于应用质量低。


关于应用价值的衡量,往往会用一些滞后性的指标衡量。基础假设是,业务人员用的多的标签,一定是应用质量好的;业务人员用得少的标签,一定是应用质量弱的。


具体衡量应用多少的指标,可以用【使用次数】、【使用热度】、【调用次数】等来综合衡量。


对于应用价值低的标签,可以针对性地进行分析,不断提升每个标签的应用价值。



04

—

标签质量评估:业务价值评估


最后一个衡量标签质量的方面,就是业务质量。


这个方面是最不好衡量的,但又是最最重要的。因为相比于数据质量是从数据层出发、应用质量是从产品层出发,业务质量是从业务层出发,是离业务价值最近的。


想象一下,业务如果用了一个标签,对一群人进行了投放,ROI是日常投放的好几倍,那这个标签的价值可以说是毋庸置疑了。这时,我们可以说这个标签的业务质量很高。


什么样的标签的业务质量会比较高呢?比如:【用户购买偏好】、【用户的营销敏感度】等等。这类的标签往往都是一些复杂逻辑的算法标签,常常有比较强的业务质量。


但这里存在的一个悖论,就是业务质量是后验的。即想知道一个标签的业务质量,就一定要进行投放测试才行。而且往往不同场景的一些投放带来的结果也不太一样,就导致业务质量的评估往往很难落地。


这确实是个难点。作者的经验是,在评估标签质量时,先重点考虑数据质量和应用质量,这两者都没问题的时候,就可以上线开放给业务使用。但对于业务使用标签后的数据进行回流,监控标签应用在业务场景的价值情况。最终可以有个比较公允的衡量。而这个衡量,将对后面标签的优化方向,带来很强的指导性意义。


今天先分享这些,欢迎关注后续内容


作者:首席数据科学家

本文经授权发布,不代表APP干货铺子立场。如若转载请联系原作者。

原文链接如下:https://mp.weixin.qq.com/s/dKjDLYm5x08imJFfRFIiVQ

    标签:

  • 用户画像

    分享到:

APP干货铺子作者 首席数据科学家 用数据科学的方法赋能业务,发挥数据价... 5篇

纯干货,喂饱你

订阅

合作伙伴

  • 皓量科技 |
  • 微思敦 |
  • 小敦客户中心 |
  • 活动盒子 |
  • 鸟人网 |
  • App Growing |
  • 热云数据 |
  • 爱运营 |
  • 手游那点事 |
  • 诸葛智能 |
  • 微营销手册 |
  • 蝉大师 |
  • APP营 |
  • 量江湖ASM智投 |
  • 艾奇在线 |
  • 饮鹿网 |
  • 七麦数据 |
  • 运营狗 |
  • CC数据 |
  • 起点学院 |
  • 信息流雷达 |
  • 运营喵 |
  • 有米有站 |
  • 新媒体之家 |
  • 蜂库导航 |
  • 一只青蟹 |
  • easyAI知识库 |
  • PaaSoo国际短信 |
  • 小码助手 |
  • 闯奇科技 |
  • CQADO信息流数据 |
  • 蝉妈妈抖音数据 |
  • 快出海 |
  • BigBigAds |
  • 鸟人笔记 |
  • 阿里巴巴国际站 |
  • 数字时代 |
  • 侃文案 |
  • 洞见研报 |
  • 神赞新媒体营销 |
  • ASOTools |
  • NIUKE跨境通 |
  • 得书网 |
  • 宜日达 |
  • 外贸客户开发软件 |
  • Smartproxy |
  • Diffshop店湖 |

联系我们

联系微信:18938040424

Copyright © 2015- APP干货铺子 版权所有
京ICP备20017819号

您的报名信息已提交!请等待工作人员的进一步通知

您的报名信息已提交!
请等待工作人员的进一步通知

好的
APP干货铺子
APP 干货铺子
专注APP运营推广与商业变现
免费下载
APP 干货铺子