Comma医学文本协同标注平台
作者: 马鹤桐
单位: 中国医学科学院医学信息研究所

摘要

目的:开发一个能够解决目前标注痛点的医学协同标注平台供标注人员使用,从而辅助结构化医学数据及语料的生成。


方法:从影响力、使用频率、便易性、用户友好度等方面调研现有的国内外较为出色的协同标注平台,定位待解决的共性问题。据此进行标注流程、标注功能、标注界面、交互性以及亮点功能等内容的设计、开发、测试与发布。


结果:我们开发了一个支持中英文标注的医学协作标注平台Comma,该平台支持(1)结构化自定义标注实体类型,根据需求添加标注节点和标注子节点,在后续的标注过程中,平台也能提供更合理的标注类型结构选择界面和选择类型的方式。(2)多种方式的文档上传,包括文件导入、ID导入以及SDK程序导入。(3)自动标注文本,平台内嵌权威综合医学词表UMLS,可以通过映射操作实现自动标注功能,测试1篇pdf医学文献自动标注时间约为6分钟。同时,用户也可以通过自行上传自用词表实现自动标注。在上传失败时,平台会自动帮用户定位到有问题的那一行,并提示用户问题所在。对于体量较大的词表,平台提供API进行上传操作。(4)标注人员能力评估,通过专家预先标注的金标准文档,可以评估后续标注人员的标注能力,从而筛选符合需求的标注人员完成标注任务。(5)多种标注模式,由于每个项目对于标注人员的安排需求不同,平台提供三种标注模式以供选择,独立标注模式中标注人员之间无法看到彼此的标注,彼此不能协同标注。协同标注模式中,标注人员共同标注同一内容,彼此可以互相修改,最终以最后的修改为准。独立协同标注模式中,标注人员首先需要独立标注,在标注完成后,可以参考其他同样标注完成的标注结果,并对自己的标注结果进行修改,等待审核。(6)统计数据的呈现,项目管理员将任务分配给标注人员后,平台支持对每个标注人员的审核及评估,可以看到每个标注人员的标注准确率、召回率、F1值等数据。(7)定制化的数据导出,平台支持用户按照需求格式和需要的字段项对文件信息和标注信息进行定制化导出。


结论:我们开发了一个支持中英文标注的医学协作标注平台Comma,解决了部分当前标注工具和标注人员需求的痛点,支持语言切换、多渠道文档上传、多种协同标注模式以及质量控制方式。Comma提供友好的界面、丰富的功能和流畅的交互,操作便易。Comma网站http://comma.phoc.org.cn/支持公开访问。   


关键词: 标注平台,医学标注,协同标注,跨语种标注
来源:第十五届全国医药卫生青年科技学术会议