可用性设计|定量用户研究:可用性测试

可用性设计|定量用户研究:可用性测试

一、什么?什么是用户研究?

用户研究听起来像是一个非常大的主题和话题。没有具体的描述和实际的研究方法,看起来很虚幻,给人一种雾里看花的感觉。

用户研究和用户体验一样,在国外市场已经被不同行业的公司验证、认可和接受,而国内市场还处于起步阶段,只有部分行业的龙头公司对它有更清晰的认识和应用。

那么你如何定义用户研究呢?

首先,用户研究的目的是了解用户,对用户有更清晰、更具体的画像。它是一系列研究方法的总称。

专注于互联网行业,学生最需要关注和学习用户研究方法的哪个岗位?与用户和数据打交道的职位需要对相关研究方法和分析方法有不同程度的理解和应用,如用户研究员、市场研究员、数据分析师、产品经理、体验设计师、交互设计师等。

作为体验设计师或交互设计师,你可以通过研究方法系统地研究用户的目标、需求和能力,可以用来指导设计、产品结构或工具的优化,提升用户的工作和生活体验。

二、怎么样?如何进行用户研究?

研究中包含的研究方法很多,可以根据实际场景和资源选择合适的方法。常用的四种方法是实用性和可操作性:可用性测试、网站访问者(埋点数据)、用户调查、A/B测试。

在设计过程的每个阶段,用户调研都是需要做的工作,但是很多时候可用性设计,由于建设周期短,设计师在产品设计的前期没有办法做比较完整的用户调研,所以这部分工作是会延迟的,在验证阶段研究任务会越来越重,后期的优化会更加依赖于此。

可用性测试是设计人员在验证阶段可以相对接近用户使用的一种研究方法。在测试过程中,通过观察用户行为,更容易从即时反馈中获得接近真实的定性数据,并通过对话和沟通深入探索用户体验。问题,从而锁定优化焦点。

1. 了解可用性测试

(1)可用性测试的好处

可用性测试是确定用户是否完成目标的核心方法。它具有许多与其他用户研究方法相同的测试指标,并且可以获得更多可用的定性数据。可以收集的数据种类也很多,比如完成率、错误次数、任务时间、任务水平满意度、测试水平满意度、求助次数、可用性问题列表等,大大方便后续分析工作,帮助判断产品状态、用户满意度、体验问题等。

(2)可用性测试的类型

可用性测试可以分为两种类型的测试:形成性测试(Test)和总结性测试(Test)。

① 形成性测试

它主要用于发现和修复可用性问题,并提供及时反馈以进行改进。这是设计人员关注的测试类型。

· 定性调查,通常样本量较小

带有问题描述和设计建议的数据表单输出

以频率和严重性作为指标来量化问题,跟踪用户使用了什么样的问题,衡量完成任务的时间,判断他们是否成功完成任务等。

②总结性测试

用于衡量可用性和评估效果,分为基准测试和对比测试。

(3)可收集的数据

样本量:通常大于30,当数据量小于10时,可以通过统计方法得出有效的统计分析结论。

代表:样本是预期被描述的用户群的代表。如果不同用户群体存在重要差异,则采用分层抽样的方法( )。

随机性:考虑所有重要变量,设计理想样本,合理组合用户群。

测试数据:现场/远程测试,观察记录用户行为,与用户互动挖掘问题。

完成率:成功率,完成率=1、失败=0,完成率=完成任务的用户数/用户总数。

可用性问题:根据问题的频率和影响评估严重性、优先级。

任务时间:任务完成时间,直到用户失败的时间,总任务时间。

错误:尝试的任务导致的意外错误的数量,诊断失败的原因,并预测可能的场景。

满意度得分:使用标准化的可用性调查问卷计算,恢复数据。

综合得分:综合摘要提供了对用户体验的更好的整体描述。

2. 可用性测试问卷

经过长期的调研和市场验证,已经有很多标准化的可用性调查问卷。不同的问卷有不同的评价目标,可以满足大部分研究需要。

使用标准化问卷是因为这些问卷是经过广泛使用、验证和校准后产生的,被公认为通用测量标准。这些问卷具有客观性、可重复性、定量性、经济性、交流性和科学性。自适应质量属性。

(1)标准化可用性测试问卷

问卷主要有两种类型:

列表中的问卷大部分在支付一定费用后即可使用,但标准可用性问卷中可免费使用整体系统可用性评估问卷、软件可用性问卷、情景后问卷。

被广泛使用并被专家推荐的测试问卷有:软件可用性问卷主要针对系统或功能的整体评价,题型设计简洁明了,使用快捷方便;单难题追求心理测验的简单性和适用性,有5分制和7分制,7分制的信度更高;主观心理负荷题为在线测试,灵敏度较好。

综合评价下,软件可用性问卷(Scale,SUS)是最适合日常设计的、最经济的测试问卷。

(2)软件可用性问卷 (SUS)

软件可用性问卷是在可用性测试结束时的主观评价问卷。

整份问卷共10道题,每道题采用5分制。奇数项为正面描述,偶数项为负面描述。可以通过修改题文来专注于测试范围;如有必要,可以将偶数项调整为正面描述,但数据调整为正面描述的问卷结果与包含负面描述的问卷没有显着差异可用性设计,不影响问卷的检验结论。

完成测试任务后,用户需要快速完成每道题,无需过多思考。如果用户由于某种原因无法完成其中一个问题,则视为选择了中间值。

(3)可用性、易用性提取

可以选择整体问卷作为衡量可用性和可学习性的子度量作为单独的问卷。可用性由问卷中的1-3、5-9个问题组成,而易学性由4、10个问题构成。研究表明,子量表的使用使量表的可靠性降低了可以忽略不计的量(0.92 → 0.91),并且子量表的使用减少了回答时间。

(4)分数计算

分数计算:范围为0-4,每题转换为一个分数;奇数题(正):从原始分数减去 1,(x-1);偶数问题(负):5 减去原始分数,(5-x)

·SUS总分=所有换算分数之和*2.5,计算多个样本的SUS总分平均值。

·总可用性分数=所有转换后的可用性分数的总和*3.125。

·总可用性分数=所有转换后的可用性分数之和*12.5。

3. 统计描述方法

由于可用性测试耗时较长,可参与测试的用户资源稀缺,在样本量较小的情况下,一般可采集的样本量相对较小。

在样本量较小的情况下,样本量所能概括的整体范围比较大,会出现较大的误差。因此,在更严谨的报告中,可能需要描述测试样本以外的获得的分数和期望的分数值。,这时候会涉及到统计学中常用的描述方法,即通过置信度和置信区间来描述,根据置信区间的下边界检查软件是否低于行业标准。

(1)相关概念

置信区间是指在一定概率下包含样本位置整体参数的这部分数值区间,通过计算置信区间来描述测试结果的概率。置信区间的宽度与样本量之间存在反平方根关系。样本量越小,误差越大,未知样本数据可能存在的区间越大。

置信度是指你测得的均值与整体真实情况的差值小于这个给定值的概率应该是1-α;换句话说,我们有 1-α 的置信度,你测量的这个平均值,和总体的实际期望非常接近(测量的平均值是总体期望,非常草率,但我有 95% 的把握意味着我测量的非常接近整体预期)。研究人员可以选择 0% 到 100% 之间的任何数值置信水平,通常设置为 90% 或 95%(最常用)。

临界值是在原假设下检验统计量分布图上的点,定义了一组需要拒绝原假设的值。

(2)置信区间计算

置信区间 = (样本均值 – 误差范围) ~ (样本均值 + 误差范围) = (x – (x – μ)) ~ (x + (x – μ))

x = 样本均值

· 误差幅度=临界值*(样本标准差/样本大小的平方根),即:(x – μ) = α * (s / sqrt(n))

α=临界值(Excel函数=TINV(1-置信度,样本量-1))

μ = 待测基准值(行业标准)

s = 样本的标准偏差(Excel 函数 = (N1, N2, ..))

n = 样本量

Tips:对于临界值,可以通过设定的信度和样本量,在t分布表中找到对应的值。

(3)可用性测试计划申请

在做可用性测试之前,需要做很多准备工作,过程中需要记录很多相关信息。尝试开始可用性测试的设计人员可以参考以下步骤完成可用性测试的整个过程:

Step1:确定研究目标(目的、用户、时间、环境)。

Step2:确定测试任务(任务内容、测试计划、SUS问卷地址)。可以通过提取User Map流程中的接触点来设计任务内容,保证流程的完整性和任务的相关性。

Step3:指导测试用户完成可用性测试,记录测试时间、过程中用户遇到的问题、出现​​的频率等,记录类型可根据测试中点记录。

Step4:用户填写SUS问卷,收集问卷分数进行计算,得到SUS分数、可用性分数、可用性分数的平均值作为本次测试的结论。

Step5:作为补充,可以计算SUS样本得分的置信区间,预计未测目标用户对产品的得分可能落在区间内,可以横向比较区间下限看是否低于行业标准。可以描述为“样本分数的标准误约为=5.34,置信区间为63.78~69.12;有95%的置信度实测均值接近整体预期,未测样本得分将落在 63.78 到 69.12 之间,符合行业标准预期。”

第六步:通过观察用户在测试过程中的行为,讨论用户提出或下意识忽略的问题,并对问题进行记录和分类。

Step7:分析用户访谈中记录的问题,对问题的严重程度进行评分,选择问题较多的部分,并提供可能的优化解决方案。

Step8:根据以上结论对测试进行总结分析。

数据:文中数据为样本,非真实数据,仅供演示

资料来源:用户体验指标:量化用户体验的统计方法 — Jeff Sauro、Jame R Lewis

图片:

相关推荐

可用性设计|运动的可用性:交互运动的基础

和很多事情一样,动效设计如果违背了自然规律,必定会损害产品的可用性。本文给大家介绍了...