腾讯优测解析AB测试构建测试平台的注意事项 - 大连高新园软件园软件开发

腾讯优测解析AB测试构建测试平台的注意事项
构建AB测试平台需要关注的重要问题

在设计AB测试平台中，我们需要关注如下几点，才能让AB测试能力得到正确的运用，更好的发挥应有的价值。
1 .灵活的分组/分桶
AB测试一般需要根据各种维度对用户来分组，因此需要设计灵活(方便快速迭代)、有效(效果评估置信度高)的分组方案。
具体可能会根据随机、用户版本、用户地域、时间、渠道、年龄、性别、收入、行为等各种维度来对用户分组。AB测试平台要具备多维度分组的能力。
2 .AB测试一定要具备统计学意义上“显著”的置信度
AB测试是有成本的，AB测试的目的是得出正确的结论来优化产品体验、提升收益转化，所以AB测试指标的提升一定要是统计学上“显著”的，是真实有效的。
关于置信度有很多统计学方法来验证，这里我不细讲，有兴趣的读者可以自行搜索相关材料。
3 .用户体验一致性
根据上节讲的AB测试的实现方案，有些方案(如方案3)用户在一定周期内体验是一致的(同一天多次重复进入该页面或者使用该功能看到的结果是一样的)，而有的方案(如方案2类)用户每次进入页面或者使用该功能看到的结果可能是不一样的。显然前一种用户体验是一致的，后一种不一致。
个人建议涉及到UI展示及交互的、用户会多次进入/使用的功能点，利用体验一致的AB测试方案比较好。但是像广告投放这类业务，是在不同场景不一样的，没必要采用用户体验一致的做法。
4 .测试周期要足够长
要让AB测试得出可信服的结论，AB测试需要经历一定的周期，才能得出比较有价值的结论。这里举一些例子来说明。
像UI及用户交互的优化，新的UI及交互方式可能开始用户有新鲜感，但是等用户新鲜感过去后可能就对该功能没有那么热衷了(这就像你刚找了个女朋友，恨不得每时每刻待在一起，但是过了2年3年，甚至几个月后，你可能就不是这种想法了)。如果只测试较短时间，发现新功能使用更频繁，这时如果我们就得出新的优化是比老的好，可能就被数据欺骗了。这时做法是让AB测试运营一个足够长的时间段，让结果稳定下来，再来比较核心指标。具体选用多长的时间需要根据行业及经验来定，并且在在计算核心指标时，可以剔除掉初期的数据，避免初期的新鲜感影响终评估结果。
另外，像有些特殊行业的产品，用户在不同时间行为是不一样的，比如视频行业(特别是智能电视上的视频应用，由于是多人使用一个产品，每个人的时间是不一样的，父母可能平时要上班，小孩只有在晚上有时间看电视，老人整天都有机会看电视)，用户在周末跟工作日的行为是不一样的。这是AB测试周期不能是一天的某段时间，也不能是某几天，是一周的整数倍，得出的结论才比较可靠。
5 .损失小性原则
我们做AB测试的目的是优化用户体验，但是有可能我们认为有效的优化在真实上线时反而是不好的，为了避免这种情况发生对用户体验和收益的负面影响。我们在做AB测试时尽量用小的流量来测试新的算法或者优化点，当数据证明优化点是有效的，才逐步推广到所有用户。实验过程中如果数据不好，多只影响到测试的这批少量用户，不至于产生大的负面影响。
6 .处理好AB测试与缓存的关系
互联网公司通过大量采用缓存技术来加速查询，同时提升整个系统的高性能、高可用能力。当为某个功能模块做AB测试时，特别要考虑缓存情况，这时可能会存在问题。
这里举个例子说明，如果某个用户开始是老算法策略，如果在做AB测试时，给用户分配到了新算法策略，如果有缓存的话，那么用户会从缓存获取到老算法策略，这时跟实际上用户分配到的新算法策略不一致。
解决方案是当用户的缓存跟用户的实际分配的策略不一致时，清空缓存，让请求回源。当然，具体实现方式可以有很多种且跟具体业务和AB测试实现方案有关，这里不详细说明。

腾讯优测：https://utest.21ku***/home