[TOCE] 26 P3-C10-S1 补充性技术

时间:2021-6-12 作者:qvyue

Trustworthy Online Controlled Experiments Part 2 Chap 10


第三部分 替代与补充

第三部分介绍了在线控制实验的补充方法。该内容对数据科学家和其他可能使用该技术的人特别有用,并且对于领导者了解如何将资源分配到各个部门,并建立实验以做出数据明智的决策特别有用。

我们从互补技术开始,该技术概述了几种技术-用户体验研究,调查,焦点小组和人工评估-与在线控制实验结合使用。在投资于在线控制实验之前,将这些技术用作“想法漏斗”中生成和评估想法的一部分,并生成和验证可供组织广泛使用的度量,或用作在线控制实验中的替代度量。

然后,我们将重点放在观察性因果关系研究上。尽管在线控制实验被认为是检验因产品或服务变的金标准,但并非总是这样的。在本章中,我们讨论了一些可能无法进行在线控制实验的常见情况,并简要概述了这种情况下的常见解决方法。

第10章 补充性技术

如果你手里有一把锤子,那么你眼里到处都是钉子。
− Abraham Maslow

在进行实验时,还需要产生想法来测试,创建和验证指标,并建立证据以支持更一般的结论。为了满足这些需求,可以使用诸如用户体验研究,焦点小组,调查,人类评估和观察性研究之类的技术来补充和增强 A / B测试。

补充性技术的空间

为了成功进行A / B实验,我们不仅需要在分析以及创建实验平台和工具时格外谨慎和严谨,而且还需要:

  • 用于实验的想法,即想法漏斗(Kohavi等,2013)。

  • 经过验证的指标来衡量我们关注的影响。

  • 支持实验的证据, 或者反驳实验的的证据。

  • (可选)与受控实验计算得出的指标互补的指标。

对于创意漏斗,可以使用所有可用的方法来生成创意,包括在用户体验研究中观察用户等方法。对于易于实现的想法,我们建议通过运行受控实验直接对其进行测试;但是,对于实施成本高昂的想法,可以使用这些补充技术进行早期评估和调整,以降低实施成本。

使用补充技术的另一个例子,如果想要一个可靠的代理指标来提高用户满意度,该概念很难衡量,该怎么办。可以进行调查并收集用户满意度数据,然后分析检测的日志数据以查看哪些大规模观测指标与调查结果相关。可以通过运行受控实验来验证提议的代理指标来进一步扩展此功能。

我们在本章中讨论的方法沿两个轴变化:规模(即用户数)与每用户的信息深度,如图所示,当我们讨论每个方法时,我们将在将在这两个方面进行权衡。

[TOCE] 26 P3-C10-S1 补充性技术
image.png

基于日志的分析

运行可信赖的A / B实验的先决条件是对用户视图,操作和交互进行适当的测试,以计算用于评估受控实验的指标。基于日志的分析(也称为追溯分析)也是如此。这些帮助:

建立直觉:可以回答以下问题,以定义指标和建立直觉:

  • 每用户会话数或点击率的分布是什么?

  • 按关键细分市场(如按国家或平台划分)有什么区别(请参阅第3章)?

  • 这些分布如何随时间变化?

  • 用户如何随着时间增长?

建立这种直觉可以帮助了解产品和系统的基准,差异是什么,看似与实验本身无关的事情可能会起到很大作用。

  • 表征潜在指标:建立直觉是发现潜在指标的前提。它可以帮助了解方差和分布,新指标与现有指标的联系。基于日志的分析使你了解了潜在指标在过去的实验中的表现。例如,它对做出决策有用吗?它提供了比现有指标更好的新信息吗?

  • 基于探索数据来产生A / B实验的想法:可以在购买渠道的每个步骤中检查转化率,以识别出较大的下降(McClure 2007)。分析会话化数据可以发现特定的操作序列花费的时间比预期的长。通过这种发现路径,可以发现如何优化产品,是否要引入新功能或UI设计。可以探索互补技术是否可以大规模使用,以及是否值得花费时间来实施和评估A / B实验。例如,在开发使电子邮件附件更易于使用之前,分析的影响上限。

  • 自然实验:由于外部情况(例如,外部公司更改默认设置)或错误(例如,导致所有用户退出的错误),有时会发生这种情况。在这种情况下,需要进行观察性分析(请参阅第11章)以评估效果。

  • 观察性因果研究(请参见第11章):可以在无法进行实验的情况下进行这些研究,例如,可以使用准实验设计。当将准实验设计与实验结合使用时,它们可以改进对更一般结果的推断。

基于日志的分析可以满足A / B实验的许多目的。一个局限性是,这些分析只能根据过去发生的事情来推断将来会发生什么。例如,可能决定不进一步投资于电子邮件附件功能,因为当前的使用量很小。但是,当前的低使用率可能是由于该功能难以使用造成的,基于日志的分析可能无法揭示这一事实。如本章稍后所述,将基于日志的分析与用户和市场研究相结合,可以提供更全面的信息。

人工评估

人工评估是公司聘请人工评估(也称为评估员)以完成某些任务的地方。然后将结果用于后续分析。这是搜索和推荐系统中的一种常见评估方法。简单的评分可能是诸如“你喜欢A面还是B面”或“此图片是否色情?”之类的问题。并可能变得越来越复杂,例如“请为这张图片加标签”或“此结果与该查询的相关性如何”。较复杂的评级任务可能具有详细的说明,以确保进行更多校准的评级。通常,可能会给多个评估者分配相同的任务,因为评估者意见可能不同。可以使用各种投票或其他争议解决机制来获得高质量的聚合标签。例如,诸如Mechanical Turk(Mechanical Turk 2019)之类的薪酬系统将激励措施和支付金额和的数据质量联系起来,从而提高了质量控制(Buhrmester,Kwang和Gosling,2011年)。

人工评估的局限性之一是,评估者通常不是的最终用户。评估人员通常会完成分配给他们的任务,而最终用户则是使用产品。此外,评估者可能会错过真实用户的本地环境。例如,对许多评分者而言,搜索查询“ 5/3”是一种算术查询,预期结果为1.667,但居住在徽标为“ 5/3”的“第五银行”附近的用户的搜索可能意味着他们想搜索该银行的信息。这是评估个性化推荐算法有多难的一个例子。但是,此限制也可能是一个优势,因为可以培训评估者以检测用户可能无法感知或其他有害的体验。最好认为人工评估可以提供经过校准的标签数据,以补充从真实用户那里收集的数据。

可以将基于人工评估的指标用作评估A / B实验的指标(Huffman 2008)。同样,对于搜索排名更改, 可以要求评分者对给定查询的“对照”或“治疗”结果进行评分,并汇总评分以查看最优版本是哪个。或使用并行实验,在该实验中,“控制和治疗”的搜索结果会并排显示,评估者会回答哪一方“更好”。例如,必应(Bing)和Google的将人工评估结果与在线控制的实验结果一起使用,以确定是否要启动更改。

人工评估结果对于调试也很有用:因为可以详细检查结果,以了解更改在哪些方面表现良好和不良。在搜索查询示例中,可以检查被评定为匹配不佳的结果,以帮助确定算法为何返回结果。还可以将人工评估与基于日志的分析结合使用,以了解哪些用户操作与查询结果高度相关。

用户体验研究 User Experience Research (UER)

尽管用户体验研究(UER)使用多种方法,但我们还是将重点放在通常只涉及少数用户的现场研究和实验室研究的子集上,通常是通过观察他们在实验室设置或在实验室环境中执行感兴趣的任务并回答问题来完成的。现场(Alvarez 2017),这种类型的研究通常是深度和密集的,通常最多会有数十个用户使用,对于产生想法,发现问题以及从直接观察和及时提出的问题中获得见解很有用。例如,如果你的网站正在尝试出售商品,则可以观察试图完成购买的用户,并根据观察他们购买时比较麻烦的地方来分析:购买时间是否很长?用户是否遇到了困难,例如寻找优惠券代码?

这些类型的现场研究和实验室研究可以包括:

  • 收集数据的专用设备,例如眼动仪

  • 日记研究,用户可以自我记录其行为,在线工具也可以收集类似数据,但日记研究可收集一些在线工具收集不到的数据,比如用户意图以及离线活动。

这些技术对于基于将“真实”用户意图与我们通过仪器观察到的内容相关联起来很有用。必须使用可以扩展到更多用户的方法来验证这些想法,例如观察分析和受控实验。

焦点小组

焦点小组是与招募用户或潜在用户进行的小组讨论。可以讨论任何主题,从关于用户态度的开放式问题,比如在 “在同龄人中通常做或讨论的事情”,到更具体的问题。

焦点小组比UER研究更具可扩展性,它可以处理含糊的,开放式的问题,这些问题可以指导产品开发和设计。但是,考虑到小组的性质和讨论形式,与UER研究相比,可以涵盖的领域更少,而且如果与会人员观点比较少, 那么效果就不会很好。客户在焦点小组或调查中所说的可能与他们的真实偏好不符。飞利浦电子公司成立了一个焦点小组,以深入了解青少年对于动臂式音箱功能的偏好,就出现了这种现象的一个著名例子。焦点小组与会者在焦点小组会议期间强烈偏爱黄色的动臂音箱,并将黑色的动臂音箱描述为“保守”。但是,当与会者离开会议室并有机会带回一个动臂箱作为对参加活动的奖励时,大多数人选择了黑色的音箱(Cross and Dixit 2005)。

焦点小组对于在早期阶段获取用户反应很有好处,或者对于试图理解潜在的情绪反应(通常用于品牌或营销的变化)很有用。同样,它可以收集无法通过仪器测量的信息,并获得有关尚未形成的变更的反馈,以帮助下一步的设计过程。

调查

调查需要招募人来回答一系列问题(Marsden和Wright,2010年)。问题的数量可以随问题的类型而变化。可以是选择题,也可以选择开放式问题,用户可以自由回答。这些操作可以面对面进行,通过电话完成,也可以直接在应用程序或网站上在线进行,也可以通过其他吸引用户和定位用户的方法(例如Google Surveys(Google 2018))进行。还可以从产品内部运行调查,有可能将它们与受控实验配对。例如,Windows操作系统向用户提示有关操作系统和其他Microsoft产品的一两个简短问题; Google提供了一种方法来询问与用户的产品体验和满意度有关的快速问题(Mueller和Sedley,2014年)。

虽然调查看似简单,但实际上在设计和分析方面却颇具挑战性(Marsden和Wright,2010年,Groves等,2009年)

  • 问题必须谨慎措辞,避免有意无意的引导回答者选择某一方向的答案。问题的顺序可能会改变受访者的回答方式。而且,如果希望定期进行调查,或者调查数据,则需要注意问卷中题目的顺序, 不同的顺序可能导致不同版本的调查之间无法比较。

  • 答案是自我报告额:即使在匿名调查中,用户也可能无法给出完整或真实的答案。

  • 人口分布很容易产生偏差,受调查人员分布可能无法代表真实的用户人口分布。 “响应偏见”加剧了这种情况,也就是说,用户的响应可能有偏见(例如,仅对不满意的人进行调查)。由于这种偏见,相对调查结果(例如一段时间的结果 对比另外一段时间的结果)可能比绝对结果更有用。

这些陷阱表明,调查几乎永远无法直接与从仪器中观察到的任何结果相提并论。与UER或焦点小组相比,调查可以吸引到更多的用户,调查对于从工具化数据中获取无法观察到的问题的答案(例如,当用户离线发生了什么,信任度,意见,以及满意度水平)非常有用。 问题还可能包括用户在做出购买决定时还使用了哪些其他信息,包括离线操作(例如与朋友交谈或在购买后三个月询问用户的满意度)。

调查对于观察不太直接可测量的问题(例如信任或声誉)随时间变化的趋势也很有用,有时还用于与高度聚合的业务指标(例如总体使用或增长)的趋势相关。然后,这种相关性可以推动更大的决策,例如如何提高用户信任度。一旦定义了更大的决策,就可以将有针对性的UER研究用于产生想法。

可以将调查结果与观察分析配对,以查看哪些调查响应与观察到的用户行为相关,但是调查受访者的偏见将影响结果的可信度和可泛化性。

扩展数据

外部数据有几种来源:

  • 公司根据从招募到的,同意跟踪所有在线行为的大量用户中收集的数据,提供每个站点的详细数据(例如,网站的用户数或有关用户在线习惯的详细信息)。这些用户的代表性存在一个问题-尽管它们是从明确的人口统计数据桶中抽样的,但同意以这种详细程度进行跟踪的用户与其他用户可能还有其他差异。

  • 提供按用户细分的数据(例如用户收入细分)的公司可能会与基于日志的数据结合在一起。开展调查和问卷调查的公司可以发布自己的信息,也可以聘请人来进行自定义调查。这些公司使用多种方法来回答可能感兴趣的问题,例如用户拥有多少设备或他们对品牌信誉度的看法。

  • 学术论文。研究人员经常发表他们感兴趣的研究。有很多论文,例如,比较眼动追踪的论文-用户在实验室中所观察的内容以及他们如何点击搜索引擎(Joachims等,2005年),可以帮助你了解点击数据的代表性。

  • 提供历史经验公司和网站,通常会通过众包来收集经验。可以是关于UI设计的经验(Linowski 2018b)

如果可以从以上几个渠道获取外部数据,则外部数据可以帮助验证简单的业务指标。例如,如果要查看网站的总访问者,则可以将内部观察分析得出的数字与comScore或Hitwise提供的数字进行比较,或者可以比较每个“垂直”类别中购物流量与访问你的网站的流量进行对比。不过这些数字很少会完全匹配。进行验证的更好方法是查看内部和外部数据的时间序列,以查看时间序列在趋势或季节变化方面是否一致。可以为业务指标提供支持证据,这些指标可以直接测量,也可以通过代理指标间接的完成测量。

公开可用的学术论文,例如与用户体验有关的论文,通常会在不同类型的指标之间建立起普遍的关系。比如,将用户报告的对搜索任务的满意度与测得的任务持续时间进行了比较(Russell和Grimes,2007年),尽管存在一些注意事项,但对持续时间的满意度具有良好的一般相关性。这项研究帮助验证了可以计算的度量标准:持续时间;与无法按比例计算的度量标准:用户报告的满意度,相关联。

外部数据也可以增加证据层次。例如,公司可以使用Microsoft,Google和其他公司的已发表著作来确定延迟和性能很重要,而不必运行自己的在线受控实验(请参阅第5章)。公司将需要进行自己的实验以了解其产品的特点,但是总的方向和决策,可以基于已有的结果进行。

外部数据还可以提供将关公司与竞争对手的比较的竞争性研究,这可以帮助你对内部业务指标进行基准测试,并使你对可以达到的目标有一种了解。

警告:因为么有控制采样,或不知道进行分析的确切方法,所以绝对数可能并不是很有用,但是趋势,相关性以及度量生成和验证都可以很好地被使用。

把各部分组合在一起

有很多方法可以收集有关用户的数据,因此问题是如何选择用户。在很大程度上,这取决于目标。想弄清楚如何衡量特定的用户体验吗?要验证指标吗?如果一开始就不知道要收集哪些指标,那么更详细,定性,头脑风暴的互动类型(例如,UER研究或焦点小组)将很有效。如果无法从网站上获取数据,那么调查可能会效果很好。为了验证指标,外部数据和观察分析效果很好,因为数据通常是在足够大的总体上收集的,因此采样偏差或其他测量问题较少。

所有这些技术都有各自的优缺点。需要考虑可以从多少人那里收集数据。这会影响结果的推广性;换句话说,外部有效性。用户数量通常是可以获取哪种类型的详细信息的折衷方案。例如,日志通常具有大规模的用户操作,但没有“为什么”用户以特定的方式来执行在UER实地研究中可能得到的行为。但处于产品周期早期的位置,有太多要测试的想法时,定性小组和用户体验研究等更具定性的方法可能更有意义。随着定量数据的增加,观察性研究和实验则变得更有意义。

最后,请记住,使用多种方法交叉验证,可以获得更可靠的结果(Grimes,Tang和Russell 2007)。由于没有两种方法是一样的,因此请使用多种方法来寻找答案。例如,要查看用户是否对个性化产品推荐满意,必须对“幸福”进行量化。为此,可以观察UER研究中的用户,查看他们是否有个性化的建议,并询问他们对不同建议的态度。根据这些反馈,可以查看这些用户的观察数据,试图找到可以使用的信号,例如更长的时间阅读屏幕或某些点击顺序。然后,可以运行大型观察性分析,以验证从小型UER研究生成的想法,查看与整体业务度量标准之间的相互影响,然后可能通过在线调查来支持,以覆盖更多的用户群。结合收集到的建议,将可以更好地了解用户满意度指标与总体业务指标之间的关系,并改善OEC。

声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:qvyue@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。