原标题:健康相关生活质量如何评估?《临床试验基本原理(第五版)》新书抢先看
编者按:它是Springer经典图书,从第一版面世至今已有42年历史;它是美国研究生课程的经典参考书目,被誉为“全面了解临床试验并迅速上手”的第一选择;它由5位NIH一线位中国优秀科研工作者翻译;全书22章500+页内容,覆盖从确定科学问题到结果报告的方方面面;穿插60多个经典研究范例,以实践为媒将临床试验的原理娓娓道来。这就是AME即将推出的大部头译著——《临床试验基本原理(第五版)》。在图书预售之际,AME科研时间将精选部分图书内容进行连载,以便令读者进一步了解本书。今天我们分享健康相关生活质量评估。
随机临床试验旨在确定干预措施的潜在益处和危害。现有的医学干预旨在改善症状。因此,缓解症状是临床试验的主要目的。干预措施的不良反应主要体现在症状方面(见第十二章)。症状学上的多数变化具有主观性,是由受试者根据其身体各方面机能所做出的特殊形式的报告。传统意义上,健康相关的生活质量(health-related quality of life,HRQL)这一术语囊括了症状学上的变化[1-4]。
最近,一种新的术语将个人观点和个人经验相结合,叫做“患者报告结局”[5-7]。美国食品药品监督管理局(FDA)定义该术语为“任何直接来自患者的关于患者健康状况的报告,且该报告不包含由临床医生或其他任何人对患者反应的解读”[8]。
本章将探讨HRQL的传统结局,包括各种指标、指标的应用、方法论问题、设计问题及工具的选择等。
评估干预措施对受试者日常机能和HRQL的影响是许多临床试验的重要环节,特别是那些涉及针对慢性疾病一、二级预防的干预措施的临床试验。
生活质量的含义因研究范围不同具有很大差异。在某些情况下,其可能包括就业状况、收入、住房、有形资产、环境、工作条件或公共服务的可用性等。从医学或健康角度反映出的生活质量的各种指数具有很大差异,这些指数不仅涵盖那些可能受到条件或疾病影响的方面,还包括可能受到医疗或其他类型干预措施影响的方面。因此,HRQL通常是指从健康或医学角度衡量一个人的生活质量。
一般来说,HRQL指标是多维度的,以反映人们生活的不同部分。尽管仍存在一些差异,但人们已经普遍就HRQL评估[9]中所必需的主要维度达成一致。这些维度包括身体机能、社会机能、心理机能、受试者对生活质量的总体评估以及对其健康状况的感知。
身体机能是指个人在日常生活中的活动能力,活动通常分为初级活动和高级活动。初级活动指基本的生活自理能力,如洗澡和穿衣;高级活动指的是更高层次的日常活动,如做饭和做家务。
社会机能被定义为一个人与家人、朋友和社区互动的能力。衡量社会机能的标准可能包括个人参与家庭、朋友和社区之间的活动的相关情况机器人操作器,及其社交网络中的人数。社会机能的一个关键方面是个人承担理想的社会角色和社会义务的能力。如果人们能够承担对于他们来说重要的角色功能,例如照顾子女或孙辈,与朋友一起参加社会活动,那么疾病或干预措施对他们的日常生活可能会产生较少的负面影响。相反,对于任何降低个人参与社会活动能力的事情,即使可能改善临床状况,也可能降低个人社会机能的总体感。
心理机能是指个体幸福感。常见于评估一种疾病或干预措施的负面影响,如焦虑、抑郁、内疚和忧虑的水平。然而,个体的积极情绪状态也不容忽视。干预措施可能会改善一个人的情感机能,因此对于活力、希望和复原力等方面的评估也十分重要。
总体生活质量代表一个人对其整体幸福感和生活质量的感知。例如,可能要求受试者就他们在一个确定的时间段内(例如上个月)的总体生活质量以0~10进行打分:0分代表最差生活质量,10分代表最佳生活质量。
人们对健康状况的感知需要与实际健康状况区分开来。患病的个体和认为自己患病的个体在经过一段时间的调整后,可能会重新设定自己的期望值并适应当前的生活状况,从而产生一种积极的幸福感。相反,健康状况良好的人可能对自己的生活状况不满意,认为自己的整体生活质量很糟糕。受试者可能会被要求就他们在过去一个月的整体健康状况、与同龄人相比的健康状况或者与自己一年前相比的健康状况作出评价。有趣的是,感知健康评级与发病率和死亡率风险的增加有着密切且相互独立的联系[10-12],这表明健康感知可能是预测健康结局和HRQL的重要因素,而与临床健康状况无关。
试验中评估的HRQL维度应与研究目的相匹配。有些试验需要评估多个维度,而另一些试验可能只需评估一个或两个维度即可。例如,在检查激素治疗对绝经前后症状的短期影响方面,受试者(45岁上下至50岁出头的女性)的总体身体机能不太可能会受到影响。在试验中增加HRQL的这个维度可能只会增加受试者的负担。对于研究人员来说,明确指出试验中使用的HRQL维度,并提供纳入(或排除)这一维度的依据十分重要,例如,删除可能使研究中的治疗“看起来很糟糕”的相关维度。
睡眠障碍与抑郁、焦虑以及精力和活力下降有关。评估睡眠习惯的工具可以检查睡眠模式 (例如夜间入睡的能力、夜间醒来的次数、早晨醒来太早或难以醒来、某晚睡眠的小时数)等因素以及睡眠的恢复。
神经心理功能是指一个人的认知能力,如记忆力、执行能力、空间能力和精神运动能力。这一维度通常广泛用于健康状况或方案评估,如脑卒中、心脏手术、化疗或多种药物对认知功能的影响,以及与老年人相关的研究。
性功能指标包括一个人从事或参与性活动的能力、参与性活动的类型、发生性活动的频率以及对自己的性功能或活动水平的满意度。这些评估在研究可能影响性功能的疾病、病史或治疗方法(例如抗高血压治疗、前列腺癌手术或脑卒中后遗症)时尤为重要。
工作相关影响包括个人参与的有偿和无偿活动。这方面的指标可涵盖有薪就业(例如返回工作的时间、每周工作的小时)、家务、志愿者活动或社区活动。此外,在就业人员中,关于无工作能力或完全重返就业以及健康保险和人寿保险问题的评估越来越多。
虽然上述症状是临床研究中较常评估的症状,但对于其他症状的评估也十分重要。同样踏步机,与特定临床试验相关的具体症状将取决于所调查的干预措施、所研究的疾病或病情、试验目的以及研究人群[13]。
对许多受试者来说,在评估具体干预措施的疗效时,主要有两条评价标准:预期寿命的改变、生活质量的改变。HRQL指标提供了一种方法,用于评估干预效果以及未经治疗的疾病/健康状况的影响,二者对于受试者和研究者来说都具有十分重要的意义。在医疗保健系统以慢性病为主的国家中,干预措施主要旨在缓解症状、维持或改善身体机能。医疗保健和处方药费用的增长使得对竞争性治疗进行全面评估必不可少,以保证人们最佳的健康质量和生活质量。因此,确定患者的生活是如何受到疾病及其干预措施的影响,以及这种影响是否比未经治疗的隐疾所造成的影响更轻微或更严重十分重要。
关于评估HRQL和临床试验受试者的症状的研究有很多。Sugarbaker等[14]对26例软组织肉瘤患者进行了一项经典的临床试验,比较了两种治疗方法对身体机能和症状的影响。患者被随机分配接受截肢加化疗和接受保肢手术加放、化疗两组。在所有治疗完成且受试者的身体状况稳定后,完成HRQL、经济影响、活动性、疼痛、性关系和治疗创伤等方面的评估。与预期相反,接受截肢加化疗的受试者比接受保肢手术加放疗和化疗的受试者活动能力和性功能表现更为出色。基于这项研究的结果,保肢手术、放疗和物理治疗得以改进,以改善患者的护理和机能。
首先在观察性研究中发现的临床试验的一个例子WHI的激素治疗试验,该研究对临床护理产生了广泛影响。20世纪80年代至90年代初,通过观察性研究和病例对照研究,结果表明使用雌激素可以降低绝经后妇女心血管疾病的发生率。WHI激素试验于1993年启动[15],以确定这一观察结果在一项大型随机对照试验中的可复制性。在基线岁的绝经后女性被随机分为两组,一组使用结合雌激素(conjugated equine estrogen,CEE)+醋酸甲羟孕酮(medroxyprogesterone acetate,MPA)与使用安慰剂的未接受子宫切除手术的女性进行对比,另外一组仅使用CEE与使用安慰剂的已接受子宫切除手术的女性进行对比。该项试验的预计平均持续时间为8.5年。试验开始后,每年对受试者的健康相关的生活质量进行评估。2002年,测试使用CEE+MPA的试验组提前终止试验,因为与安慰剂组相比,使用CEE+MPA试验组女性的心血管疾病和乳腺癌发病率更高[16]。
一年半后,由于随机分配到激素治疗组的女性产生不良反应,导致试验中单独使用CEE的对照组也被叫停[17]。这两项试验的结果对绝经后妇女的护理产生了重大影响,并在初级保健医生、心脏病专家和妇科医生中引发了对于WHI激素试验结果有效性的争论[18]。有人认为,尽管没有证据显示CEE疗法会对心血管疾病起到保护作用,但是仍有女性表示在接受CEE治疗时,会呈现更好的HRQL。然而,源自WHI试验的生活质量研究结果与该论点背道而驰[19]。经过一年的追踪研究,随机分配到CEE+MPA和安慰剂对照组的女性泥刀,就睡眠障碍、生理功能和身体疼痛的方面而言,其积极配合治疗仅在统计学上有显著的帮助,而在临床方面的意义微乎其微。而在研究进行到第三年时,该项治疗对于HRQL没有任何显著帮助。基线患有中重度血管舒缩症状的50~54岁女性,积极配合治疗有助于改善血管舒缩症状和睡眠质量,但对其他生活质量的提升没有帮助。在WHI试验中,已接受子宫切除的女性仅使用CEE的试验组也出现类似的结果。在试验开始1年后和3年后,CEE对HRQL均无明显的临床意义[20]。因此,CEE疗法对绝经后妇女的潜在负面影响大于其对生活质量的任何正面影响。
最近的试验将是否提高HRQL作为主要和次要结果。Richardson等[21]进行了一项随机试验,该试验对患有抑郁症的青年采取干预护理和常规护理,并对二者进行对比评估。在两个不同的场合,使用PHQ问卷[22]对年龄在13~17岁之间的有抑郁倾向的青年进行筛查,筛选符合严重抑郁标准的青年作为试验对象。对随机分配到干预组的青年进行问诊,随后由具有硕士学位的临床医生进行定期随访。对照组受试者收到他们的筛查结果后,根据医疗保健计划,转诊到精神卫生服务机构进行治疗。主要结果为通过CDRS-R量表[23]来评估的抑郁症状从基线个月的变化。次要结果包括CIS评分[24]的变化、抑郁反应(量表中评分下降超过50%)和PHQ−9评分5(表明抑郁有所缓解)。结果表明,干预组青年量表评分下降明显大于常规照护组。两组的哥伦比亚损伤评分均有下降,且组内无显著差异。然而,与对照组相比,接受干预治疗的青年的抑郁症状得到了缓解。结果表明,心理健康治疗可以纳入初级保健服务。
通过CLASS试验检测原发性静脉曲张治疗对HRQL的影响[25]。这是一项包含798例受试者的、由英国11家血管外科中心共同参与的多中心研究。受试者被随机分配至采用消融疗法、外科疗法和泡沫硬化疗法的三组。为得出主要结论,研究人员使用针对特定疾病的阿伯丁曲张静脉问卷[26]、通用的SF-36量表[27]和EQ-5D量表[28]。并发症发生率和临床成功率为次要结果。分别对基线个月的结果进行评估。评估结果表明,尽管观察到接受泡沫硬化疗法组的相关特定疾病的生活质量评分稍差,但三组的HRQL结果相似。所有治疗的临床成功率相似,但激光治疗组的并发症发生率较低,泡沫硬化组在隐静脉主干的消融成功率低于手术组。因此,所有这些例子都表明HRQL可以作为主要结果和次要结果,并且可以对临床护理实践和治疗的选择产生实质性影响。
设计用于评估HRQL的随机临床试验的原理和实施与其他研究结果相同。纳入原因必须附上科学文献加以说明,所选择的HRQL指标应匹配特定的具有良好心理测量特性的目标。如果HRQL指标是次要结果,那么是否具有足够的研究能力来检测这些结果的变化也十分重要。双盲设计最大程度降低了偏倚风险。
确保数据收集具有最高质量的基本原则(见第十一章)也适用于HRQL的评估。这些方法必须具有可行性并可以限制数据丢失。应对所有试验的研究人员和工作人员进行培训,并对数据收集程序和研究指标(包括HRQL评估)进行预测试。配备持续的监视系统可在发现错误和其他问题时立即予以纠正。
在临床试验中采用HRQL指标时,必须考虑几个问题[3-4],包括研究人群的特征,干预类型、评估频率以及方案注意事项等。
要明确关键人口统计数据,这些数据能影响HRQL指标和管理模式的选择。在选择人口统计指标之前,应仔细考虑其教育水平、性别、年龄范围、文化水平、语言和文化多样性,并评估其身体机能的限制。老年人可能比中年人有更多的视力问题或听力问题,因此有必要对自行管理或访调员管理的问卷进行调整。不同种族的群体还需要采取已在几种不同文化和语言中得到验证的指标[29]。儿童通常要有专门针对其年龄段的工具,有父母对孩子的症状以及身体和心理健康状况的认知评估。
制订方案和数据收集程序时,还必须考虑受试者在基线时的健康状况,包括疾病的严重程度,受试者的疾病或健康状况对日常生活的影响,症状轻重或症状为急性或慢性。相比那些患有慢性疾病的人,身体健康或患有轻微疾病的人参与试验的可能性更高。这些考虑因素可能会增加受试者(和工作人员)完成研究要求和数据收集的工作量或为处于疾病急性期受试者带来负担。儿童和/或无法自己完成HRQL评估的受试者可能需要通过家庭代理人、研究者或工作人员评估来收集相关数据。
此外,了解基础疾病如何发展并影响对照组受试者的HRQL很重要,因为这是为了了解研究干预措施对干预组的影响。这项工作的关键在于要选择敏感度高的HRQL维度和量度,以检测干预组和对照组受试者的变化。须对两组受试者使用同样的工具进行评估,以确保评估的公正性和可对比性。
与HRQL评估相关的3个主要干预因素:干预的正、反两方面影响,影响的时程以及干预与现有药物和健康状况之间的协同作用。了解干预措施如何从正、反两个方面影响个人生活的各个方面,这一点十分重要。受试者可能会因干预而受到哪些影响?例如,某些口服避孕药在预防怀孕方面可能非常有效,但同时会产生周期性症状,如腹胀和胀痛,严重时还会出现血凝块。饮食干预旨在增加水果和蔬菜的摄入量和降低饮食中的饱和脂肪,但也可能引起轻度胃肠反应。这类反应可能会随着时间逐渐消失。因此,干预措施的时效性对如何选择指标和对研究受试者使用HRQL指标的时间都非常重要。此外,要在随机分组前了解受试者可能使用过的药物,以及这些药物如何与试验干预(药理或行为干预)相互作用,进而影响到HRQL的维度。
HRQL评估的频率将取决于所研究疾病的性质(急性或慢性),干预措施的预期效果以及试验的具体目的。理想情况下,基线状态下的评估应在随机分组和开始干预之前完成。应该及时进行随访评估,以明确干预或病情本身导致的预期功能变化。在一项将新型痤疮皮肤血清与不含安慰剂的无油洗剂用于治疗青少年严重痤疮的试验中,仅在基线周后评估皮肤发红、敏感和痤疮减少可能不足以准确地评估、对比干预措施与安慰剂二者的疗效。因为,即使采用已知的有效治疗方法,对于严重痤疮而言,可能需要超过3周时间才能有明显的皮肤改善。如果改为在基线周完成一次HRQL评估,则所评估治疗效果(或无效果)会更加精确。因此,HRQL评估的时机将影响对干预结果(或后果)的解读。
通常来说,急性病的治疗包含以下4种方法:快速缓解而不出现症状复发,经过一段时间的缓解(或者复发),病情迅速好转,急性病转为慢性病或造成死亡[30]。当病情迅速好转时,HRQL评估可能会着重于病情症状对受试者日常生活的相对影响。如果有复发的风险,则需要更长的随访时间,因为疾病复发可能会对受试者的总体机能和健康产生很大影响。如果急性病转为慢性病,则评估期间和持续期间以及在制定治疗决策期间,如何平衡受试者的机能等问题将让评估变得复杂。当干预措施对于受试者机能有轻微影响或没有负面影响时,最好根据干预措施对生命安全、疾病严重性或患病风险变化的影响进行评估。在这种情况下,HRQL评估的重要性将降低。但是,当疾病或病情影响到功能性能力时,应评估干预措施对受试者的机能和健康水平的影响。同样,在这些情况下,所使用的HRQL工具的类型和评估的时间将取决于病情性质,干预措施以及对受试者影响的预期进程。
在考虑了研究人群,所研究疾病的性质和拟议干预措施的特征之后,制定HRQL收集程序时还需要考虑与方案相关的其他因素。诸如拟议干预措施的场所(例如诊所、医院、社区场所、家庭或学校)以及干预措施是否由受过培训的人员使用计算机或其他方法实施等因素都将影响数据的收集。此外,招募到的参与该试验的受试者数量,随访评估点的数量以及整个试验的持续时间(例如8周或4年)将对研究设计产生影响。定期到诊所就诊的受试者完成评估更为方便。电话,邮件或计算机的其他数据收集方式都各有所长。通过与受试者通电话的方式评估症状或HRQL指标的方法的时间成本较高,但相比先发邮件给受试者,再通过邮件和电话进行二次跟踪随访,电话沟通的方式可能会减少人员成本、相关费用和数据的丢失。访调人员管理调查问卷的模式通常可以提供更完整的数据,并具有分析和分类功能。但是,某些受试者可能不愿公开讨论某些议题(例如抑郁、性行为),而他们更愿意接受自行管理的调查工具。对于功能性文盲比例较高的人群,可能需要访调人员亲自管理,这种模式也许也是获取文化多样性人群信息的最佳途径。然而,访调人员对于管理工具的使用有很多不当之处,需要对访调人员进行密集培训、认证和重复培训,尤其是在可能持续很长时间的多中心临床试验中。这些工具可能比自我管理工具更为昂贵,因此,在试验的规划阶段必须认真权衡。
在线确认方式的可行性和流行程度越来越高。但是,对于那些无法立即访问在线资源的人来说,这可能不是最佳选择。用于对症状进行跟踪的手持设备和平板电脑的使用越来越广泛,但是需要时间来培训员工和受试者使用它们。此外,若试验受试者数量庞大,则使用这些设备的成本会过于高昂。例如,如果每6个月(而不是每周)对受试者进行评估,则使用邮寄或在线确认等方法的成本可能更低。所有数据收集方法均各有利弊,设计最佳方法以在保证经济可行性的基础上完成对HRQL的评估。此外,还需要考虑尽可能减轻受试者和工作人员的工作量,并将数据丢失率降至最低。数据收集选项的评估工作要与方案制定过程并行,而不是事后才做考虑。如果HRQL评估是次要结果,那么数据收集的程序要满足主要目标的数据收集需求,但仍应像收集主要结果数据一样严格和有计划地执行。
HRQL指标可能会受到修正和调整因素的影响。修正因素是指可以修改干预措施对结果影响的变量,主要包括情境因素、人际因素和个人内部因素[31]。情境因素包括研究环境或受试者的居住环境等变量(例如城市与农村、单室住宅与多室住宅、临床干预与家庭干预),经济结构(例如国家健康保险)和社会文化差异(例如习俗、社会规范)。人际因素包括各种变量,如个人可获得的社会支持、紧张情绪、经济压力,以及所发生的重大生活事件(如丧亲和失业)。内部因素与个人有关,如应对技能、个性特征或健康状况。中介因素是由研究干预措施引起的对受试者幸福感的改变、改善或损害。这些是HRQL试验或症状结果试验中最常评估的变化。例如,在一项研究芳香化酶抑制剂在预防乳腺癌治愈者癌症复发方面的有效性试验中,尽管研究药物能够有效改善总体无癌生存期,但是由于这些药物可能引起中度至重度关节和肌肉疼痛,进而可能导致患者HRQL和治疗依从性的降低。
另外,在HRQL评估中,尤其是在持续时间相对较长的试验中,必须考虑疾病或病症的自然发展(即病症是改善还是恶化)。为了更好地选择和衡量相关的HRQL变量,研究人员应考虑干预措施或健康状况将对受试者的幸福感产生什么影响,以及可能对这些关系起调节作用的所有因素。考虑这些因素将有助于对于研究结果的解读,并有利于研究者更全面地解释某项干预措施的结果。
至于HRQL工具如何选择,效用分析/偏好尺度及有效性的比较研究如何进行,您将在书中看到更多详细内容