模型可以更自然地检测对话中的抑郁

为了诊断抑郁症,临床医生采访患者,询问具体问题 - 例如,过去的精神疾病,生活方式和情绪 - 并根据患者的反应确定病情。

近年来,机器学习一直被认为是诊断的有用辅助手段。例如,已经开发了机器学习模型,其可以检测可以指示抑郁的语音的单词和语调。但是这些模型倾向于根据个人对特定问题的具体答案来预测一个人是否沮丧。这些方法是准确的,但它们依赖于所询问的问题类型限制了它们的使用方式和位置。

在Interspeech会议上发表的一篇论文中,麻省理工学院的研究人员详细介绍了一种神经网络模型,该模型可以通过采访发现原始文本和音频数据,以发现指示抑郁症的语音模式。给定一个新主题,它可以准确地预测个体是否抑郁,而不需要任何其他有关问题和答案的信息。

研究人员希望这种方法可以用来开发自然对话中检测抑郁迹象的工具。例如,在未来,该模型可以为移动应用程序提供支持,以监控用户的文本和语音以进行精神痛苦并发送警报。由于距离,成本或缺乏对某些可能出错的认识,这对于那些无法前往临床医生进行初步诊断的人尤其有用。

第一作者,计算机科学和人工智能实验室的研究员Tuka Alhanai说:“我们首先得到的是一个人快乐,兴奋,悲伤,或者有一些严重的认知状况,例如抑郁症。” CSAIL)。“如果你想以可扩展的方式部署[抑郁检测]模型......你希望最大限度地减少对你正在使用的数据的约束量。你想在任何常规对话中部署它并拥有模型选择起来,从自然的互动,个人的状态。“

CSAIL的高级研究科学家詹姆斯·格拉斯(James Glass)补充说,该技术当然可用于识别临床办公室临时谈话中的精神痛苦。“每个病人的谈话方式都不同,如果模特看到变化可能会成为医生的旗帜,”他说。“这是向前迈出的一步,看看我们是否可以做一些帮助临床医生的辅助工作。”

该论文的另一位合着者是医学工程与科学研究所(IMES)成员Mohammad Ghassemi。

无上下文建模

该模型的关键创新在于能够检测指示抑郁症的模式,然后将这些模式映射到新的个体,而无需额外的信息。“我们称之为'无背景',因为你没有对你正在寻找的问题类型以及对这些问题的回答类型进行任何限制,”Alhanai说。

其他模型提供了一组特定的问题,然后举例说明没有抑郁症的人如何回应以及抑郁症患者如何反应的例子 - 例如,直截了当的询问,“你有抑郁症病史吗?” 它使用那些确切的响应,然后在被问到完全相同的问题时确定新个体是否被压抑。“但这不是自然对话的工作方式,”Alhanai说。

另一方面,研究人员使用了一种称为序列建模的技术,通常用于语音处理。通过这种技术,他们一个接一个地从抑郁和非抑郁个体的问题和答案中提供文本和音频数据的模型序列。随着序列的积累,该模型提取了有抑郁症或没有抑郁症的人出现的语音模式。诸如“悲伤”,“低”或“向下”之类的词语可以与更平坦且更单调的音频信号配对。

患有抑郁症的人也可能说话较慢,并且在单词之间使用较长的暂停。在以前的研究中已经探索了这些用于精神痛苦的文本和音频标识符。最终由模型确定是否有任何模式可以预测抑郁症。

“该模型可以看到单词或说话风格的序列,并确定这些模式更容易在抑郁或抑郁的人身上看到,”Alhanai说。“然后,如果它在新科目中看到相同的序列,它可以预测他们是否也被压抑了。”

这种测序技术还有助于模型将整个会话视为对话,并注意随着时间的推移,患有抑郁症的人与不患有抑郁症的人之间的差异。

检测抑郁症

研究人员在来自遇险分析访谈语料库的142个互动数据集上训练和测试了他们的模型,其中包含对患有精神健康问题的患者和由人类控制的虚拟代理人的音频,文本和视频访谈。使用个人健康问卷调查,每个受试者按0到27之间的等级评定抑郁。高于中度(10至14)和中度(15至19)之间的截止值的得分被认为是抑郁的,而低于该阈值的所有其他得分被认为是不抑制的。在数据集中的所有主题中,28个(20%)被标记为抑郁。

在实验中,使用精确度和召回率来评估模型。精确测量由模型识别的哪些抑郁受试者被诊断为抑郁。Recall测量模型在检测整个数据集中被诊断为抑郁的所有受试者时的准确性。在精确度方面,该模型得分为71%,回想起来得分为83%。考虑到任何错误,这些指标的平均综合得分为77%。在大多数测试中,研究人员的模型几乎超过了所有其他模型。

Alhanai指出,该研究的一个关键见解是,在实验过程中,模型需要更多的数据来预测音频中的抑郁而不是文本。通过文本,模型可以使用平均七个问答序列准确地检测抑郁症。通过音频,该模型需要大约30个序列。“这意味着人们使用的词语模式可以预测抑郁症发生在文本中的时间跨度比音频更短,”Alhanai说。这些见解可以帮助麻省理工学院的研究人员和其他人进一步完善他们的模型。

格拉斯说,这项工作代表了一个“非常令人鼓舞”的试点。但现在研究人员试图发现模型在大量原始数据中识别出哪些特定模式。

“现在它有点像黑盒子,”格拉斯说。“然而,当你对他们正在采取什么行动做出解释时,这些系统更加可信。......接下来的挑战是找出它抓住的数据。”

研究人员还旨在测试这些方法来测试来自更多具有其他认知条件的受试者的额外数据,例如痴呆。“这不是检测抑郁症的重要因素,但它是一种类似的评估概念,从日常的言语信号中评估,如果有人有认知障碍,”Alhanai说。