【论文阅读笔记】The Effectiveness of Multitask Learning for Phenotyping with Electronic Health Records Data

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cskywit/article/details/89418622

本文发布在arxiv 2019

        电子表型分析的任务是通过分析其医疗记录来确定个人是否具有感兴趣的医学病症,并且是临床信息学的基础。电子表型越来越多地通过监督学习来完成。本文使用电子健康记录(EHR)数据研究多任务学习对表型分析的有效性。多任务学习旨在通过共同学习其他辅助任务来提高目标任务的模型性能,并已用于机器学习的不同领域。但是,它在应用于EHR数据时的效用尚未确定,之前的工作表明它的好处是不一致的。本文提出的实验阐明了当使用神经网络进行多任务学习时,使用EHR数据相对于针对单个表型训练的神经网络和良好调整的逻辑回归基线,提高表型的表现。本文发现多任务神经网络在罕见表型方面始终优于单任务神经网络,但在相对更常见的表型方面表现不佳。随着更多辅助任务的添加,效果大小会增加。此外,多任务学习降低了神经网络对稀有表型的超参数设置的敏感性。最后,本文量化表型复杂性,并发现在有或没有多任务学习的情况下训练的神经网络在简单基线上没有改进,除非表型足够复杂。

本文的贡献有:

(1)通过实验验证了多任务学习有助于低流行(即罕见)表型的表现,但会损害相对较高流行表型的表现。这个发现与一些先前的工作一致,辅助任务的数量存在剂量-反应关系,随着辅助任务的增加,对性能的效益或不利的程度通常会增加。

(2)多任务学习能降低神经网络对超参数设置的敏感度。当用于探索模型空间的计算预算有限时,这具有实际重要性。

(3)使用或不使用多任务学习训练的神经网络不会改善简单的基线,除非表型足够复杂。然而,学习更复杂的模型可能会出现复杂但低流行的表型。本文通过使用信息理论指(信息熵和KL散度)标量化表型复杂性来探索这种现象。

本文的局限性:

(1)辅助任务是随机选择的,与目标任务相关性不大。

(2)为了解决大规模真实表型的不可用性,使用基于规则的定义,因为它们是透明的和可用的,但实验观察到的现象可能是基于规则的定义的假象。

(3)本文使用的multi-hot特征表示方法没有对时间信息进行编码。

猜你喜欢

转载自blog.csdn.net/cskywit/article/details/89418622