导航菜单

A/B test 评价指标的选择

凯发k娱乐l

#如何定义评估指标

这是前一篇关于什么是A/B测试续集的文章。前一个是关于A/B测试的历史。以下是如何选择指标。

bbe9d90e56c44b89b56ce74e03830c13

根据我自己的经验,如何选择指标非常重要,但更重要的是,有必要从上到下理解和实施科学实验。您可以随意更改指标,而只是在报告时列出有利指标,而不是考虑指标。

如果你想用一句话来解释,如何定义一个评估指数,它必须是“在一开始”。在定义指标时,请考虑您要定义此指标的原因。该指标定义为解释会发生什么。如果此指标发生变化,您需要对其进行解释。

这里,定义指标时有两类:一类是不变量,即变量组和控制组应该相同;另一个是变量,即需要观察的变化量。

对于不变量,您需要注意两者的总量是否相同以及数据的分布是否相同。以上保证了实验的正常运行。对于变量,首先要考虑高级业务指标。如收入,市场份额,用户数量等。下一步是细节的指标,例如用户体验和页面停留的时间长度。

例如,在游戏中,玩家没有完成新手教程,虽然不能直接知道原因,但根据经验,可能是导致时间过长,网卡或其他原因。这种情况是用户体验中的问题。有一些方法可以提及以后如何评估它。

在实验中,可能获得的不是所需信息,或者实验时间太短,并且获得的结果不准确。甚至有些事情无法衡量,我们应该如何评估呢?别担心,以下内容将为您解答。

#自上而下的设计评估指标

如何确定进行声音测试的指标

高级度量(例如,活动用户,点击转换率CTR)度量详细信息(例如,如何定义用户活动)使用一组度量并将它们集成到单个度量(例如,总体评估度量(OEC))/p中>

对于评估,您可以选择指标或一组指标。如果使用一组指标,则可以将它们聚合为指标,例如构建目标函数或简单加权指标。

最后要考虑的是指标具有多大的普遍性。如果您正在使用A/B测试,那么最好有一个贯穿整个系统的指标。

例如:用户漏斗。

它表示用户通过站点执行的一系列步骤。它被称为漏斗,因为每个后续阶段的用户数量少于上述阶段。每个阶段的总指标为,比率和概率。

#如果数据不足怎么办

有些数据可能难以获得,主要原因如下:

没有数据的权限需要很长时间才能收集数据

|使用外部数据

其他数据收集技术:公司的3种常用方法

数据中介研究公司学术论文

以上内容可以帮助您根据整个行业设置指标。

|其他内部数据

还可以使用其他内部数据,例如:

回顾性分析:查看历史数据以查找变化并进行评估研究和用户研究:这有助于您找到想要学习的点

上述方法的缺点是它只告诉你相关性而不告诉你因果关系,实验可以在一定程度上解释因果关系。

最后,不要忘记与同事交换意见,看看他们认为哪些指标很重要。

附件:获取其他数据的其他方式:

用户体验研究(UER)高深度和低用户。这也适用于头脑风暴,其中诸如眼动摄像机之类的设备也可以在UER中使用,同时回溯历史以进行分析。焦点组中到中等大小的用户。很容易得到一些假设的反馈,但也很容易陷入集体思维状态(即,真正的个人意见很难表达)。研究报告深度较低但用户规模较大。对于难以直接测量的指标很有用。不能用于直接与其他指标进行比较,因为调查的对象和指标可能与大盘不同。

#indicators的实际例子

高级指标:点击率

定义1:cookie的总点击次数除以cookie的总数。定义2:点击的页数除以总页数定义3:总页面点击次数除以总页数

可能还需要过滤爬行动物,利润等,以消除数据偏差。切片用于确定数据是否需要偏置或过度偏置。过滤掉数据后,计算每个切片的性能。如果数据显示偏差,则可能表示数据中可能需要进行调整。

为了消除数据周期引起的周末效应,最好每周或每年划分数据。

#性性性

|指标的改进和稳健性

灵敏度和稳健性:灵敏度是指指标是否对其相关性足够敏感,而稳健性指的是它是否对不受关注的事物足够敏感。这可以通过预先小型实验来完成,以验证指标是否直观。另一种方法是使用A/A测试,这意味着没有任何改变以排除一些错误的关系。分布:通过分析历史数据获得。

|指标分类

4种指标

计数或求和(例如,访问该页面的用户数量)度量分布 - 均值,中位数和百分位概率和比率(比率)

|选择绝对和相对指标

比较测试组和控制组的最简单方法是做差异。

如果您正在进行大量实验,更好的方法是进行更多相对比较。如百分比变化。

计算百分比指标的优势在于您有一个不会随时间变化的清晰边界。如果您同时运行多组指标,则绝对数据可能会经常更改。此时,使用相对指标的好处是显而易见的,并且随着系统的变化,数据不会发生显着变化。

相对指标的主要缺点是灵活性和比例的相对差异不如绝对指标那么明显。

|参数估计

在实验之前,有必要检查指标的分布,以确定实验的规模,评估的置信区间和支持的最终结论。

如果要检查的指标分布范围很大,则最终结果可能不显着。

为了计算置信区间,您需要

方差(或标准差)分布

对于二项分布,估计的方差是p(1πp)/N.估计的均值方差是σ^ 2/N.如果原始数据正常,则中位数将是正常的。但是,如果原始数据不正常,则中位数可能不正常。由于中心极限定理,无论原始数据的分布如何,均值通常是正态分布的。

例如:

x< - c(87029,113407,84843,104994,99327,92052,60684)

Stder< - sd(x)/sqrt(length(x))

Conf95_min=mean(x)-1.96 * stder

Conf95_max=mean(x)+ 1.96 * stder

Conf95_min

## [1] 79157.54

Conf95_max

## [1] 104367

|非参数方法

这是一种分析数据而无需对分布进行假设的方法。在谷歌,上述参数估计很少使用,他们使用基于A/A测试的结果来估计方差。如果A/A测试中发现的指标有很多变化,则指标可能过于敏感而无法使用。

进行多组A/A测试的一种方法是进行大量的A/A测试,然后执行引导程序以生成多组样本并测试变化范围。

通过A/A测试,您可以

将结果与期望进行比较(健康测试)根据经验估计方差,并使用分布假设计算直接估计置信区间的置信度,而不做任何数据假设

简而言之,不同的指标具有不同的变化范围。一些指标可能差异很大,即使它们具有商业或产品影响,使它们无法使用。小心对待他们。

对于许多分析师来说,与运行实验相比,大部分时间用于验证和选择指标。标准化已定义指标的能力在测试中至关重要。

例如:网站延迟测试

定义:是时候讨论加载第一个字节并加载最后一个字节,还是别的什么?

数据分布:此外,对于延迟,平均值可能根本不会改变。信号(例如慢速/快速连接或浏览器)可能导致非常集中的分布并且没有相应的调整方法。

对策:在这种情况下,您需要查看百分位数分布。这里的关键是建立直觉,理解数据和业务,并与工程师一起理解数据的记录方式。