在日常生活中,我们经常会看到不同的平台使用不同的评分制度来展示用户对产品或服务的评价。例如,豆瓣和虎扑采用10分制,而淘宝店铺和美团点评则选择5分制。那么,为什么同样是为了反映用户评价的功能会有不同的分制呢?这背后是否有着特定的考量?

01 一个有意思的现象

最近在人人都是产品经理上看到了一个非常有意思的问题。为什么豆瓣、虎扑等用十分制评分,而淘宝店铺、美团点评等用五分制?(https://wen.woshipm.com/question/detail/8s2csf.html)。这个问题我从来没有注意过,去app上一看,果然如此。豆瓣、虎扑都是十分制,淘宝、美团都是五分制。

那么问题来了,为啥同样都是评价性质的功能,还要搞不同的分制呢?是不是可以统一成五分制或十分制呢?如果不能,背后有什么考量吗?

02 什么是星级评分

想探究以上的这些问题,就要搞清楚星级评分的一些基本概念。从本质上讲,星级评分是评估产品质量或受欢迎程度的一种算法。在一定意义上,星级评分能够比较真实地反映用户对产品的评价或情感,是一种相对客观的方法。

回想一下,每次去吃一家不太熟悉的餐馆,场景是不是先看一下大众点评上的分数咋样,然后再决定去不去。这就是星级评分的好处,它不需要用户很繁琐地看具体评价,可以通过一个分数,直接获知一个产品或是店铺的优劣,大大节省了用户决策的时间成本。另外,这些数据对于一些有良心的企业,也是监控他们的产品是否得到消费者的信赖和支持的良好指标。

星级评分这种收集用户反馈的方式非常常见。目前主流的评价方式,都是给一个五颗星,然后把所有人的评价通过一个算法转化成分数,分数有五分制和十分制之分。其他的星级评价方式,诸如三星级,十星级都见过,但是不较五星级少见。

回到文章开头的五分制和十分制的问题。既然星级评分就是一种算法,那是不是也可以只给两颗星星让用户去评价,或者一个赞的按钮,一个踩的按钮来评价呢?我觉得是没有问题的,因为这也是一种评价,也反映了用户比较真实的看法和情感。

所以,是什么东西影响使用的评分方式和分制呢?

03 影响星级评分方式和分制的因素

1. 成本因素

从心理测量学角度来说,星级评价可以看做是一种量表。而心理测量学中被广泛使用的测量方法是李克特量表。这是一种总加量表类型的一种,主要是用来反映填写者整体的认同程度和主观评价。一般量表大多采用5级,但是也有7级的,6级的,甚至11级的。

但是从成本角度来说,误差成本会随着量表等级的增加逐步降低,回答成本会随着量表等级的增加而增加。很好理解,回答的星级越多,越能够真实反应用户对产品的满意程度和评价,但是星级越多,让用户回答起来就会非常痛苦,最好的就是能够既让误差没那么大,用户填写起来也不太痛苦。这里贴一个网上的图,图显示,星级为5的时候,是最优的。

2. 量表指标因素

既然星级评价是一种量表,那就需要考虑一些量表指标,比如,信效度、区分度等。

最近在开奥运会,我用奥运会的一个项目举例子说明一下信效度。一个射击运动员,每次都射击6环,我们可以说他信度高,所以,信度代表的是量表的可靠程度。还有一个运动员,虽然不是每次都能够射击同一环数,但是要不就是10环,要不就是9环。我们可以说这个运动员效度比较高。

所以,效度代表的是量表的准确程度。区分度呢,就是这个量表测量的东西,一定能够把不同水平的人给区别开。如果靶子设定的特别大,枪法好和枪法差的都能很轻松地打出10环,那这个靶子的区分度就非常差。

搞清楚了这几个概念,我们就看一下,不同星级评价数量对这几个指标的影响。

曾经有学者做研究表明,7个等级的星级评价要比5个等级的星级评价能得到更可靠的结果,也就是信度会更高些。但是,信度和等级数量之间并不是线性关系。另外的研究表明,等级数量超过9个时,不同等级的差异就没有意义了,不会再提供更多的有效信息,反而会让用户填写起来非常累和困惑。

3. 用户使用习惯问题

通过以上的分析,星级评价的等级数基本锚定在5到9个左右。这和人类短时记忆的容量,7±2个组块的数量不谋而合。所以,在星级评价数量的选取的时候,也要遵循用户的使用习惯。

首先用户是非常不喜欢思考的。对一个事物的评价,最优解就给我一个好还是不好的选项,二极管思维是最受大多数用户的喜爱了。但是这种评价的区分度又太差。又想评价准,又想有区分度,又想不让用户那么累,避免评价数过少,最后分析下来,只有5个等级是最合适的了。

4. 产品调性、对象特征

评价都是为了还原用户对产品整体的认同程度和主观评价。那么,准确和恰当是非常重要的。

比如,B站上,用户对视频的评价就只有顶或者踩。在B站,用户对视频的评价,不是一个谱系,而是一个是或否的关系,要不好看,要不难看,没有稍微不好看,或者稍微好看,这对于用户来说,区分好看和稍微好看非常有难度,且没有必要。这种情况下,就可以牺牲区分度,采用两星级评价。

但是对于电影来说,需要评价的维度特别多,如果仅仅用顶或者踩,准确性会大大折扣。所以,主流的网站,大多采用5等级星级评价。

04 分数呈现有什么讲究

回到开头我们讨论的那个现象,会发现,不管是十分制的豆瓣、虎扑,还是五分制的点评、美团。都采用的是五等级的星级评价。但是分数最终呈现却不是一样的。这有什么讲究吗?

要想知道不同分制的区别,我们就要知道分数是咋算出来的。具体的规则细节肯定是获取不到,我们也不需要知道的那么详细。

简单来说,分数主要还是来自于分数平均(可以看一下豆瓣CEO阿北的回答)。我理解,算法主要是处理评价是否可信的问题,比如,阿北提到的,“和影托或者其他非正常个人意见PK”,“时间和打分这自身的情况”。

这些都是在识别,某一个或某一些评价是否是真实的评价,而不是刷的,或者只是因为个人情绪,恶意给的差评。

算法可以理解是一个门槛,这个门槛只让真实的评价进去,只要你能进去,那算法就简单了,就是计算平均分,阿北也说了嘛,“接近和还原普通观众最原汁原味的平均观影意见。”

其他的平台也应该是这种考虑和算法。

那么,同样的五等级评分,有的是五分制,为啥有的十分制呢?

两种分制的不同,可以理解成,分制越大,区分度越大,越能够将细微的好坏差别体现出来。所以,分制的不同,要回归用户。

如果某个平台上的用户,对某个事物具体比较高的了解程度和鉴赏水准,那就需要比较高的分制。如果某个平台上的用户,对某个事物没有高的了解程度,那就需要给用户一个相对来说较为简单明了的分数,那就需要一个稍微低一点的分制。

所以,这就是为啥同样的五等级评分,美团用五分制,而豆瓣用十分制。

参考

问卷设计:量表到底是要用5级还是6级?– 人人都是产品经理

评价体系用什么规则好?豆瓣是5星10分制,时光网是10星10分制,淘宝是5星5分制 – 知乎

量表等级,5分、7分、10分哪种更好?等级量表数据应该如何分析?

为什么豆瓣、虎扑等用10分制评分,而淘宝店铺、美团点评等用5分制?

本文由 @孟老湿 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自pixabay,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com