集智俱乐部 05月18日 22:37
重磅综述:224篇机器学习领域“人在环路”研究速览
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对“人在环路”在机器学习领域的研究进行了全面综述,从数据视角出发,将其划分为三个递进类别:通过数据处理提升模型性能、通过人为干预模型训练提升性能、以及独立于系统设计的“人在环路”机制。文章探讨了“人在环路”在数据处理、模型训练与推理、系统构建等方面的应用,并分析了其面临的挑战与机遇。旨在为研究者提供“人在环路”领域的研究现状、挑战与未来发展方向。

📊 “人在环路”的核心思想是将人类知识融入建模过程,以此缓解数据稀缺、模型泛化能力不足等问题。它涵盖了计算机科学、认知科学与心理学等多个学科的交叉融合,是机器学习领域中一个活跃的研究主题。

🧮 从数据处理角度来看,“人在环路”主要应用于数据预处理、数据标注和迭代标注三个方面。数据预处理旨在提高数据质量,数据标注旨在实现更快速且更精确的操作,迭代标注则更注重用户体验,强调与用户的交互。

🤖 在模型训练与推理方面,自然语言处理(NLP)和计算机视觉(CV)领域广泛采用了融合人类智能的策略。通过人机协作,可以提升NLP系统的准确性和鲁棒性,并赋予机器更强的智能。

🛡️ “人在环路”在安全系统、代码生产工具、仿真系统和搜索引擎等系统构建中也发挥着重要作用。通过将人类的经验和知识融入系统设计,可以提高系统的性能和可靠性。

原创 吴兴蛟等 2025-05-18 20:10 日本

“人在环路”的研究日益重要。我们需要思考:在未来人与智能体如何协作?

导语

“人在环路”是一个我们认为在未来研究中日益重要的方向,因为模型从数据中所习得的知识尚难以超越人类的领域知识。“人在环路”的目标是通过融合人类知识与经验,在尽可能低的成本下训练出高精度的预测模型。人类不仅可以为机器学习应用提供训练数据,还可以借助机器方法,在流程中完成计算机难以胜任的任务。本文翻译了FGCS在2022年发表的一篇综述文章。文章从数据视角出发,首次对机器学习领域“人在环路”相关研究进行了全面综述,将其划分为三个具有递进关系的类别:(1)通过数据处理提升模型性能的工作;(2)通过人为干预模型训练提升性能的工作;(3)独立于系统设计的“人在环路”机制。此文在发表后持续获得关注,入选ESI全球热点和高被引论文。

研究领域:人在环路,机器学习,数据标注,自然语言处理,计算机视觉

Xingjiao Wu, Luwei Xiao, Yixuan Sun等 | 作者

Muyu Wu

 | 译者

吴兴蛟

 | 审校

集智俱乐部联合论文一作,华东师范大学副教授吴兴蛟老师和中国科学技术大学赵云波老师共同发起「人机协同的智能时代」读书会。本次读书会将探讨: 人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务? 读书会计划从6月21日开始,每周六晚19:00-21:00进行,预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。

 

论文题目:A survey of human-in-the-loop for machine learning  

论文地址:https://www.sciencedirect.com/science/article/pii/S0167739X22001790

作者:Xingjiao Wu, Luwei Xiao, Yixuan Sun, Junhang Zhang, Tianlong Ma, Liang He

目录

1.引言

1.1 “人在环路”的意义

1.2 本文的重要贡献

1.3 研究方法与组织结构

2.基于“人在环路”的数据处理方法

2.1 数据预处理

2.2 数据标注

2.3 迭代标注

3.基于“人在环路”的模型训练与推理研究

3.1 自然语言处理

3.2 计算机视觉

4.“人在环路”在系统构建中的应用

4.1 安全系统

4.2 代码生产工具

4.3 仿真系统

4.4 搜索引擎

5.“人在环路”面临的挑战与机遇

5.1 挑战与讨论

5.2 未来方向

6. 总结

1. 引言

深度学习是人工智能领域的前沿技术,其目标是更接近人工智能的终极愿景。近年来,深度学习在诸多应用中取得了显著成功,例如自然语言处理、语音识别、医疗应用、计算机视觉以及智能交通系统等 [1]。深度学习之所以取得如此巨大的成就,很大程度上得益于模型规模的不断扩大 [2]。当前的深度学习模型往往拥有数亿级别的参数,这使得模型具备更高的自由度,从而展现出令人惊叹的表达与建模能力。

然而,庞大的参数量需要大量带标签的训练数据以支撑模型训练 [3]。通过数据标注提升模型性能面临两个关键挑战:一方面,数据的增长速度远远滞后于模型参数规模的扩张,这在很大程度上限制了模型性能的进一步提升;另一方面,新任务的涌现速度远超现有数据的更新速度,而对全部样本进行标注既耗时又耗力,成本极高。为应对这一挑战,许多研究者尝试通过生成样本构建新数据集,从而加快模型迭代并降低数据标注的成本 [4][5][6]。此外,还有一类研究通过设计预训练模型与迁移学习技术加以解决 [7][8][9],如Transformers [10]、BERT [11] 和 GPT [12] 等。这些工作已在多个任务中取得了令人瞩目的成果。

遗憾的是,生成数据通常仅用于初始化模型,作为基础数据使用。若要获得高精度且可应用的模型,往往仍需对特定数据进行标注更新。因此,基于弱监督的多种方法相继被提出 [13][14]。大量研究者也提出了小样本学习(few-shot learning)的方法,推动模型在更少样本的条件下实现有效学习 [15]。

1.1 “人在环路”重要意义

在学习框架中引入先验知识是一种有效应对数据稀疏问题的手段,因为学习者无需完全依赖数据来归纳知识 [16]。近年来,越来越多的研究者致力于将预训练知识融入其学习框架中 [17][18][19]。作为特殊的智能体,人类具备丰富的先验知识。若开发者能够引导机器学习人类的智慧与知识,将有助于应对数据稀缺问题,尤其在临床诊断等医学领域中,训练数据往往有限 [20][21][22][23]。此外,认知科学与人机交互领域的最新研究也表明,人类相关因素(如情绪状态与实际操作能力)会对其教学效果及机器在不同任务中的学习表现产生显著影响。

众多研究者提出采用“人在环路”(human-in-the-loop)的理念来应对上述挑战,核心思想是将人类知识融入建模过程,以此缓解数据稀缺、模型泛化能力不足等问题 [24]。人在环路”是一项跨学科的研究领域,涵盖了计算机科学、认知科学与心理学等多个学科的交叉融合。近年来,“人在环路”(即“人在环路”与“机器学习”的结合)是机器学习领域中的一个活跃研究主题,且在过去十年间已有大量相关研究成果发表(见图1)。

图1. 近年来“人在环路”研究热度上升趋势(数据来源:Google Scholar,关键词:“human-in-the-loop”与“machine learning”)

传统的机器学习算法通常由三个部分组成 [25]:第一部分是数据预处理,第二部分是数据建模,最后一部分是开发者对已有流程进行修改以提升模型性能。一般而言,机器学习模型的性能和结果具有不可预测性,这导致在机器与人交互的过程中,究竟在哪一环节介入能够带来最佳学习效果存在较大不确定性。不同研究者倾向于在人机流程的不同环节中引入人工干预。本文从多种实践视角出发(例如数据处理、模型训练与推理、系统构建与应用),探讨了当前“人在环路”技术的研究现状及具体实现方式。深入理解交互类型与“人在环路”各组成部分之间的耦合关系,对于智能系统学习效果的优化具有重要意义(见图2)。

图2. 模型的发展周期

此外,越来越多的研究关注独立系统的设计,用以辅助模型性能的提升。因此,本文结构安排如下:首先,我们讨论从数据处理角度提升模型性能的相关工作;其次,探讨通过干预模型训练过程以提升性能的研究;最后,分析独立“人在环路”系统的构建与配置方式。

我们围绕“人在环路”在机器学习中的应用,探讨以下几个关键问题:

1. “人在环路”在机器学习中面临哪些挑战?又有哪些可能的解决方案可推动该领域研究的进一步发展?

2. 从数据视角出发,“人在环路”在机器学习领域的研究现状如何?存在哪些挑战?未来的发展方向是什么?

3. 从模型训练的角度来看,“人在环路”研究目前处于怎样的阶段?存在哪些技术难点?未来的研究趋势又将如何演进?

4. 从应用视角出发,“人在环路”在实际机器学习系统中的研究现状、面临的问题及其未来发展方向分别是什么?

1.2 文的重要贡献与研究方法

本文对“人在环路”研究领域进行了系统的总结与分析,重点关注以下几个关键方面:

• 我们全面总结了迄今为止关于“人在环路”的研究工作,并将这些文献划分为计算机视觉(CV)自然语言处理(NLP)及其他应用领域。我们从数据流的角度,按照数据预处理、数据标注、模型训练与推理的顺序,系统地串联了这些研究;最后,重点探讨了基于“人在环路”的应用;

• 我们对“人在环路”的多种方法进行了分类与比较。通过分类与比较,总结了当前“人在环路”面临的挑战,并提出了相关的解决思路与讨论;

• 我们还对不同方法进行了定性评估与比较,旨在为读者提供一致性的评价标准,帮助读者在实际问题中选择合适的方法;

• 我们还识别并总结了该领域方法取得的一系列重要里程碑;

• 除了对“人在环路”方法的总结与分析外,我们还探讨了“人在环路”在系统构建与应用中的具体实现。我们根据工程需求的基准,分析了“人在环路”在系统构建中的各个组成部分与应用。

在我们的工作之前,已经有不少优秀的研究综述了“人在环路”相关的研究 [26][27][28][29][30][31],但我们是首个专门针对机器学习领域中“人在环路”的综述。以往的研究大多从硬件和机器人学的角度进行探讨,而我们则聚焦于机器学习。在我们的研究过程中,我们也继承了前人经验和思路。当然,单一的文章无法涵盖这一快速发展的领域中的所有方法,但我们尽力使本综述尽可能全面。为实现这一目标,我们查阅并分析了大量相关文献和资料。此外,我们还尝试了多种分类方法来组织文章结构,最终选择了从数据流的角度贯穿整个工作。

1.3 文章结构安排

由于此前没有类似的综述文章,我们通过Google Scholar检索所有包含关键词“human-in-the-loop”和“machine learning”的文献(自1990年以来)。首先,我们通过阅读标题和摘要筛选出相关文献。其次,对筛选出的文献进行初步分类。此外,我们详细阅读筛选出的文章,并不断修正分类。最终,我们根据分类结果总结并形成了本文的内容。

在第二部分,我们探讨了基于“人在环路”的数据处理方法,并讨论了数据预处理数据标注以及迭代标注等内容。第三部分,我们总结并分析了基于“人在环路”的模型训练与推理研究,分别从自然语言处理和计算机视觉的角度讨论了相关研究。第四部分,我们回顾了“人在环路”在系统构建中的应用,按系统组件和应用进行分类,并分别从软件和硬件集成的角度讨论了“人在环路”的实现。第五部分,基于综述结果,我们提出了一系列挑战。最后,在第六部分,我们总结了全文的工作。

2. 基于“人在环路”的数据处理方法

目前,深度学习在许多领域中扮演了不可替代的角色 [1][32]。深度学习的巨大成功源于大规模的模型,这些模型包含了数亿个参数 [2]。如此庞大的参数量赋予模型足够的自由度,从而获得令人惊叹的描述能力。为了应对如此庞大的参数量,需要大量的带标签的训练数据 [3]。然而,数据标注工作通常需要大量的人力,这往往滞后于模型能力的增长,而现有数据集在规模和密度上也很快变得过时 [33]。因此,利用无标签数据来提升模型能力的方法越来越受到关注 [3][34][35][36]。其中,最显著的难题在于无标签数据通常包含不正确的样本,如噪声图像缺陷语句违反约束的样本。如果这些不准确的样本恰好被作为关键样本进行采样,所带来的错误将是致命的 [37]。为了解决这一挑战,许多研究者专注于探索生成更丰富样本空间的方法 [4][5][38],尝试开发像Transformers [39]、BERT [11] 或 GPT [12] 等通用模型,以使得模型能更有效地学习特征。在这些成功方法的基础上,研究者们进一步考虑了采用少量数据以获得更理想结果的步骤。因此,这些模型通过微调应用于更多任务,并取得了令人瞩目的成绩 [40][41][42]。尽管这些方法仍然需要大量的标注数据,这带来了不必要的麻烦,但我们注意到,模型性能的干扰往往仅来自新数据集中一些关键样本。因此,迫切需要解决的一个关键问题是:如何识别关键样本,是否可以更容易地对关键样本进行标注?

解决这一问题的直观思路可以通过以下三步实现:(1) 选择一些模型无法识别的样本;(2) 使用特定方法对选定样本进行标注;(3) 推动模型从最新标注的样本中学习特征。这一思路使得模型能够以最小的成本最大化地利用数据中的信息。

表 1. 数据处理领域代表性工作的概述。DP: 数据预处理;DA: 数据标注;IL: 迭代标注;CV: 计算机视觉;NLP: 自然语言处理;SP: 语音处理。

多位研究者尝试从数据角度出发,采用“人在环路”(Human-in-the-Loop)的方法优化模型。据调查,相较于模型构建,科学家约80%的时间花费在数据处理上 [30]。我们对基于“人在环路”的数据处理方法进行了调研,并建立了如图3所示的处理流程。同时,我们回顾了该领域具有代表性的研究工作,并将其分类结果汇总于表1中。本节将从数据预处理数据标注迭代标注三个方面,深入探讨“人在环路”方法在数据处理中的优势与不足。

图3. 一种“人在环路”的数据处理流程。

2.1. 数据预处理

众所周知,深度学习本质上是一个对数据进行建模的过程,其成功在很大程度上依赖于数据的质量,而数据分析在构建更高效模型的过程中发挥着不可替代的作用。然而,数据分析并不存在一种静态通用的方法,这意味着数据科学家必须依赖专家经验来分析已有的数据。数据分析面临的最大挑战在于高维数据的复杂性,这使得模型难以发现数据的内在结构。此外,参数的调整往往高度依赖数据专家或领域专家的知识。

基于这一现象,Self 等人 [44] 提出了一种“人–模型”交互式参数调节模式,通过在用户意图与加权多维尺度模型参数之间架起桥梁,从而促进用户参与。为了解决这一挑战,Doan 等人认为构建评估基准是一种有效的手段 [48]。

此外,数据分析不可避免地涉及两个核心问题:其一是如何实现自动化的参数分析方法,其二是如何建立可推广的评估基准。考虑到这两个问题,Laure 等人 [52] 在 Learn2Clean 的基础上进行了扩展,开发出一种可优化指定机器学习模型超参数的自动化机器学习方法(AutoML),并结合默认的数据预处理流程。该方法旨在提出一种系统且具备自适应学习的数据准备机制,以协助用户选择最优的数据来处理任务序列,并从用户的行为中学习。

随着相关研究的迅猛发展,研究者们不再满足于仅解决数据分析(HILDA)中的“人在环路”具体问题,而是更加关注其背后的“宏观图景”。当前的数据分析技术已可通过构建知识库或知识图谱来正确获取所需的信息与知识,然而在 HILDA 社区或相关工具中,整体关注度仍显不足。研究人员应进一步关注这类议题,推动其在用户社区中的普及,以便促进数据资源与工具的开发和共享。

相较于语音识别、医学应用、计算机视觉与智能交通系统等其他类型的数据,利用“人在环路”方法处理自然语言数据具有天然的优势。大多数人类在环方法主要应用于信息抽取阶段。如图4所示,Gentile 等人 [50] 提出了一种基于两个神经语言模型的交互式词典扩展工具。许多研究者通过众包手段将人类参与引入自然语言处理(NLP)任务中,如实体分析、知识图谱构建等 [50], [52], [54]。

Ristoski 等人 [61] 引入了一种从多种网络资源中提取实例的方法,通过引入人类循环利用机制显著提升了系统性能。该方法还能够融合人类的经验与知识,从而增强机器的精准智能。与前文提及的词典扩展方法类似,该方法的核心思想同样是通过扩展已有词典来实现任务目标。

除了直接标注外,由于在某些 NLP 任务中存在语义歧义问题,仅依赖模型本身难以完成这些任务。然而,借助人类在无意识学习过程中积累的知识进行干预,可显著提升任务表现。Qian 等人 [62] 提出了一种基于深度学习的实体名称理解系统 PARTNER,该系统提供了一种更为合理的人机交互方式。PARTNER 结合主动学习与弱监督方法,需要应用数据筛选技术选择样本,从而在人类在环过程中识别出容易出错的样本。

此外,Cutler 等人 [65] 提出了一种在命名实体识别(NER)语料库中高灵敏度标记潜在错误标签的方法,为自然语言处理中错误检测与纠正提供了有效的人类协助路径。

图4. 探索与利用架构图。

我们对已有文献的总结发现,大多数现有的“人在环路”预处理研究主要关注如何从现实世界中提取和分析复杂信息。然而,针对计算机视觉(CV)任务,利用人-机协作技术进行数据预处理的工作仍然十分稀少。我们推测造成这一现象的本质原因在于,目前尚缺乏一种能够将人类经验有效整合到图像处理中的完善模式,相关的详细讨论可见第5节。

2.2. 数据标注

对于新任务而言,数据标注是一项复杂但至关重要的工作,是实现人工智能的基础。大量研究者提出采用基于“人在环路”的方法,以实现更快速且更精确(相较于易出错的传统标注方式)的操作,尤其在自然语言处理(NLP)和计算机视觉(CV)领域表现尤为突出。

在自然语言处理(NLP)任务中,数据标注分为两大类。一类是针对具体任务的数据集标注,如实体提取 [50]、[51]、实体链接 [59];另一类则是更为抽象的任务标注,如问答任务 [56] 和阅读理解任务 [64]。

实体处理任务在自然语言处理(NLP)中至关重要,其成败直接影响NLP的整体性能 [69]。目前,实体抽取主要有两种方法:一种是制定正则表达式进行自动抽取,另一种是人工标注的实体文档。然而,这两种策略都无法高效且准确地抽取实体。Zhang 等人 [51] 提出了一种基于人机交互的实体抽取方法,旨在有限时间内获得最佳投资回报。随着研究的深入,任务基数不断增长,出现了许多超出预期的新方案。正则表达式能够处理常见数据,但对从未见过的新数据并无奇效。为缓解这一问题,一些研究提出了解决实体链接跨领域问题的方法,通过识别文本中提及的实体,结合实体排序信息进行筛选和判别,该方法尤其适用于语义消歧任务 [59]。

如何应对更复杂的任务也是当前研究的重点。研究人员试图整合人类经验与知识,以赋予机器更强的智能。更具体地说,神经网络模型在多大程度上理解自然语言,是否还能进一步提升?为了解释这一问题并探索神经网络模型的可解释性,Wallace 等人 [56] 开发了一个开放应用系统,包含一个与机器对话的交互界面,从而生成更多问答语言材料,用以收集更多研究数据,帮助研究者解释模型预测。Bartolo 等人 [64] 在阅读理解任务中尝试了三种不同的标注方法,在标注循环中构建了逐步更为鲁棒的模型。值得注意的是,他们通过收集36,000个样本创建了一个具有挑战性的数据集。然而,随着循环模型的增强,性能逐渐下降。相比之下,更鲁棒的模型依然能够从循环中较弱模型密集收集的数据中学习 [70]。

关于计算机视觉(CV)领域,目前人机交互技术主要探索如何利用弱标注来提供反馈,并分析如何为用户提供统一的干预体验。其应用涉及多个任务,如行人再识别(Re-ID)、人脸识别、三维点云目标检测以及目标检测等。尽管现有大量行人再识别方法在大量标注数据的训练下能取得优异的结果,但这些模型在实际自然环境中部署时表现并不理想,原因在于自然环境中大量新数据未出现在训练集里。更复杂的是,这些新数据会随着时间不断积累,导致模型失效。为解决此问题,Liu 等人[55]提出了一种基于强化学习的人机循环模型,打破了预标注的限制,并通过持续收集数据对模型进行升级,目标是在最大化再识别性能的同时,最小化人工标注工作量。

除了直接利用强化学习进行动态学习外,研究者还关注于新任务上数据的扩充与精细化处理。面部表情识别是计算机视觉中一个有趣的任务,对情感分析和行为分析具有重要帮助。传统的面部表情识别仅能处理七种最简单的表情(如开心、悲伤、恐惧、愤怒、厌恶、惊讶和轻蔑),而现实生活中更需处理细微表情(微表情)。具体而言,基于现有的表情识别构建更精细的微表情处理数据集是一个有趣的任务。Butler 等人[60]利用基于人机交互系统的微表情识别方法,提供了一个灵活的界面用于对自动处理的标签进行人工校对,从而确保扩展数据集的准确性和可用性。

除了直接构建新数据集,探索已有数据集也非常重要,特别是对于标注难度大的任务,如目标检测,其标注工作量极大。为降低视频目标边界框标注的劳动和时间成本,Le 等人[63]提出了一个基于循环自监督学习的高效简洁的交互式自标注框架。该框架包含自动模型学习与交互过程,自动学习过程加速模型训练,提升交互效率;交互式递归标注中,检测器接收人工标注者的反馈,完成人机循环标注。为节省标注时间,他们还提出了一个新的水平校正模块,通过卷积神经网络(CNN)增强邻近帧的利用率,减少每次标注帧的间距。基于Le等人的框架,Adhikari等人[68]对其进行了改进,使其能在单阶段内完成,且人工工作重点从完整标注转向错误纠正,进一步提升了用户体验。

对于更复杂的图像任务,例如三维点云标注,以上两种方法的效果有限。由于仅采用单阶段标注的效果受限,Meng 等人[66]基于之前的工作设计了一种多阶段的人机交互标注方法。然而,之前的研究主要从数据标注的角度出发,未能充分将人类的经验和知识深度融合进模型,从而有效地引入人类智慧。针对这一问题,Zhang 等人[67]关注于人类绘画中的特殊才能与技巧,这些技能难以完全量化为规则和知识。如果模型能够学习绘画技巧,无疑会促进人机交互应用取得重大突破。他们提出了一个基于数据驱动的框架,用于将数字插画生成漫画。为了进一步提升漫画的质量,这一框架中的三个关键组成部分均由艺术家进行人性化标注。

图5. 基于强化学习的人机交互框架。

2.3. 迭代标注

目前,深度学习任务与数据处理仍存在高度耦合,深度学习的性能在很大程度上依赖于数据质量。新任务通常需要大量高质量的标注数据以获得更好的表现。然而,大规模数据的标注需要大量人力且耗时较长,而许多迭代任务无法承受如此高昂的成本和漫长的等待时间。不同于弱标注和自动标注,基于人机交互(human-in-the-loop)的方法强调发现那些在新样本数据中起决定性作用的关键样本。

与上述2.2节提到的数据标注不同,数据迭代标注更加注重用户体验,而不仅仅是直接让用户进行数据标注。从标注到迭代标注,目标在以下两个方面发生了变化:一是注重向学习系统中注入知识与经验;二是强调与用户的交互。

Yu 等人[33]利用了一种部分自动化的标注方案,通过结合人机交互的深度学习技术,减少了人工劳动量,这构成了简单迭代标注的基本原型。近年来,随着强化学习的广泛应用,Liu 等人[55]开发了一种基于强化学习的“人在环路”系统,将强化学习应用于迭代标注。图5展示了基于强化学习的“人在环路”典型框架。这一创新尝试首次将人机交互方法推广到强化学习领域,为人机交互社区带来了宝贵贡献。除了实现简单的人工干预外,他们以行人再识别为研究任务,探索如何在最大限度减少人工标注工作的同时优化再识别性能。Fan 等人[57]则致力于解决网络异常检测中的数据挑战,允许用户参与数据标注而非单纯进行标注操作。他们引入了一种结合主动学习与视觉交互的智能标注方法,通过用户的迭代标注过程检测网络异常。其不同之处在于,开始关注算法与视觉界面的结合,实现算法与视觉界面的紧密融合。

在人工智能的众多领域中,如自然语言处理(NLP)和计算机视觉(CV),存在多种利用人类智能进行模型训练和推理的方法。无论是NLP还是CV,相关研究涵盖了深度学习[71]技术与人机混合方法。这些启发式方法充分考虑了人类创造力的多样性,以实现高质量的实验结果。

3. 基于“人在环路”的模型训练与推理研究

在人工智能的诸多领域中,尤其是自然语言处理(NLP)计算机视觉(CV),广泛采用了融合人类智能的策略来进行模型训练与推理。在这些领域的研究中,既包括深度学习技术 [71],也涵盖了人机协同的混合方法。这些启发式方法充分考虑了人类创造力的多样性与不可预测性,从而有助于实现高质量、具备上下文理解能力的研究成果。

3.1. 自然语言处理

图6简要展示了个体与自然语言处理模型训练及推理过程之间的协作关系。该持续执行的循环在一定程度上促进了更可靠的人机合作伙伴关系,从而提升了NLP系统的准确性和鲁棒性。

图6. 自然语言处理(NLP)中“人在环路”的模型训练与推理的工作流程。人类参与者根据具体任务,在模型训练和推理阶段提供多种反馈,以提升NLP模型的性能。

3.1.1. 文本分类

文本分类(Text Classification, TC)是自然语言处理中的基础任务,旨在将句子或文本归类到对应的类别中。Karmakharm 等人[72]提出了一种谣言分类系统,其核心思想是通过从记者处获取额外的人工反馈,以重新训练更为准确的机器学习模型。该框架首先利用谣言分类系统对收集的社交媒体帖子进行分类,并将分类结果反馈给记者。

目前,大多数先进的文本分类方法主要依赖深度神经网络[73][74],这些模型通常被终端用户视为“黑箱”,缺乏透明性。研究人员构建人机协作框架应用于文本分类的另一个动机是克服模型的不透明性,使其更具可解释性。为实现这一目标,Arous 等人[75]提出了一个混合人机框架,赋予人类合理性以增强其在深度学习算法中融合人类推理的可靠性。他们提出了MARTA,一种贝叶斯框架,通过迭代方式联合学习并更新模型参数与人类可靠性,使参数学习与人类可靠性相互促进,直到标签和推理达成一致。

3.1.2. 句法与语义解析

除了文本分类之外,基于“人在环路”的句法和语义解析方法同样具有广阔的前景。句法解析旨在获得输入句子的有效句法结构;而语义解析的目标是将自然语言映射到形式化的特定领域语义表示上。

有人提出了一种基于“人在环路”的解析方法[43],通过让非专家回答解析器输出中生成的简单“什么”类问题,以提升组合范畴语法(CCG)解析的准确度。这些答案被作为软约束用于模型的再训练。这项工作是在人机交互语法解析领域的首次尝试。

然而,目前大多数解析技术仍面临以下挑战:(1) 用户的意图或表达在某些情况下可能模糊不清,难以一次性获得准确的真实标签;(2) 在实际应用场景中,当前最先进的解析器性能普遍不够理想;(3) 由于主流的神经网络模型被视为“黑箱”,缺乏可解释性,终端用户难以独立验证解析结果。

针对这些问题,Yao 等人[76]提出让语义解析系统能够向终端用户提出澄清性问题,并同时生成“如果-那么(If-Then)”程序。尽管近期的研究已成功验证了交互式语义解析的有效性,但多数仍局限于特定类型的形式语言。此外,Yao 等人[77]开发了一种基于模型的交互式语义解析(MISP),作为交互式语义解析的一般性原则。

表2. “人在环路”自然语言处理领域代表性工作的简要概述。表中每一行代表一项研究工作,按任务类型排序(TC:文本分类;SSP:句法与语义解析;TS:文本摘要;QA:问答;SA:情感分析)。每一列对应两个子章节中的一个维度(任务、动机)。

3.1.3. 文本摘要

除了将“人在环路”框架应用于主题建模外,研究人员还将其用于生成新文本。文本摘要(Text Summarization, TS)是指在保留原意的基础上生成给定句子/文本的简短版本 [82]。近年来,该领域取得了一些重要突破。例如,Ziegler等人 [78] 通过利用基于人类偏好的奖励模型,使用强化学习微调了预训练的语言模型。然后,该模型被用于生成Reddit TL;DR和CNN/DM数据集的摘要。然而,他们框架的一个限制是标注者与研究人员之间的协议率较低。Stiennon等人 [79] 提出了一个方法,首先收集由人类偏好组成的数据集,用于对比不同摘要的优劣。接着,通过监督学习训练的奖励模型(RM)生成更符合人类偏好的摘要预测。最后,通过强化学习(RL)训练的策略最大化奖励模型产生的得分。他们的方法通过上述步骤确保了较高的标注者与研究人员之间的一致性,并成功地将策略网络与价值网络分离。

3.1.4. 问答系统

最近,研究者设计了多种与“人在环路”相关的框架,应用于对话和问答系统(QA)。该任务的目的是让聊天机器人/智能代理与用户进行对话。这些“人在环路”的对话智能系统可以分为两大类:在线反馈循环离线反馈循环 [83]。对于在线反馈循环,人类反馈用于持续更新模型。与传统方法(在对话系统中训练集与在线使用案例不匹配)相比,研究人员已经证明,应用在线强化学习可以通过人类反馈改进模型。例如,Hancock等人 [80] 提出了一个终身学习框架。该框架中的自喂机制使得当与用户的对话顺利进行时,聊天机器人能够生成新的示例,并利用这些新示例进行持续的自我训练。对于离线反馈循环,需要收集大量的人类反馈作为训练集,然后利用这些训练集来更新模型。例如,Wallace等人 [56] 利用“琐事爱好者”创造性地生成对其问答系统具有干扰性的对抗样本,这些样本最终用于负面训练。由于一些最终用户的反馈可能会产生误导,离线方法更适合用于提高模型的鲁棒性。

3.1.5. 情感分析

情感分析(Sentiment Analysis, SA)意见挖掘(Opinion Mining, OM)中一个有吸引力的研究分支。情感分析的研究范围是对个体对文本中提到的实体的意见和态度的计算研究。这些实体通常指个人或事件。最近,许多基于神经网络的方法已被广泛应用,并在解决情感分析任务中证明了其有效性 [73],[84],[85]。大多数基于深度学习的情感分析方法使用准确率和F1分数作为评估指标。由于这些指标只能评估预测性能,因此它们缺乏解释情感模型在运行时何时以及为什么做出错误预测的机制 [86]。Liu等人 [81] 引入了一种可解释的“人在环路”情感分析框架。该框架的执行分为三个步骤:首先,“人在环路”的情感分析模型分析局部特征的贡献。这一目标通过执行数据扰动过程来实现。接下来,局部特征被汇总,以计算可解释的全局特征,并且人类参与这一循环,评估排名最高的全局特征与真实值的相关性,并报告他们在此过程中发现的错误。最后,系统根据全局和局部情感特征为每个实例计算错误得分。高于特定阈值的得分被视为错误预测。

3.1.6. 在自然语言处理中的“人在环路”总结

表2展示了在自然语言处理领域中代表性的“人在环路”工作的简要概述。对于上述大多数调研论文,它们的初衷是将“人在环路”技术应用于各种自然语言处理任务,以提高性能。这些研究论文中提出的方法的有效性通过多个指标进行评估。我们调研文献中的实验结果表明,少量的人类反馈就可以显著提升模型的性能。例如,“人在环路”技术提高了文本分类的分类准确率 [72]。。类似的情况也出现在对话系统和问答系统中,其中问答系统的排名指标得分更高 [80]。此外,“人在环路”技术还增强了模型的鲁棒性和泛化能力 [79]。除了提高模型性能外,一些研究还表明,“人在环路”方法使得模型在解决自然语言处理问题时更加可解释和易于使用。例如,Arous等人 [75] 在基于注意力的贝叶斯框架中合理地融入了人类理性,同时权衡了工人的可靠性,从而提供了更加人类可理解的分类结果解释,同时提高了模型性能。Liu等人 [81] 选择了uni-grams作为LIME [87]的可解释特征;因此,所提出的系统使最终用户能够更好地理解每个词对模型最终情感分类的整体贡献。Wallace等人 [56] 邀请“兴趣广泛的问答爱好者”创造性地生成特定的对抗性问题,这些问题能够干扰智能问答系统。这些问题可以作为探针进一步探索潜在模型行为的内在特征。

3.2. 计算机视觉

近年来,基于神经网络的深度学习方法(DL)已成为执行许多计算机视觉任务的最先进技术 [88],[89]。为了进一步提高这些方法的性能,人类的反馈已被集成到深度学习架构中,使整个系统在解决模型无法有效处理的复杂问题时变得更加智能。计算机视觉中典型的“人在环路”框架如图7所示。

图7. 计算机视觉中模型训练和推理的通用“人在环路”框架概述。

3.2.1. 目标检测

目标检测作为计算机视觉中最基本且具有挑战性的问题之一 [90],近年来受到了广泛关注 [91]。目标检测的目标是检测数字图像中某一特定类别(如人物、车辆或其他生物)的视觉对象实例。Yao等人 [92]指出,查询之间的迭代可能非常昂贵且耗时,这使得与最终用户的交互变得不切实际。他们提出了一种互动式目标检测架构,利用人类来纠正检测器为未标注图像提出的部分标注,特别是最大预测标注成本的图像。然而,这些方法仍然很难检测到一些遮挡物体、微小物体和模糊物体。Madono等人 [93]提出了一种高效的“人在环路”目标检测框架,该框架由双向深度SORT [94]和无标注分段识别(AFSID)组成。在该架构中,人类的角色是验证双向深度SORT无法自动检测到的物体候选。然后,使用人类标注的补充物体来训练模型。

3.2.2. 图像修复

图像修复(IR)的目标是恢复损坏图像的原始版本[95]。先前的研究提出了图像修复框架,主要分为基于示例的方法[96]和基于深度学习的方法[97]。尽管深度学习方法在该领域占主导地位并显示出良好的效果,但在训练集较小的情况下,它们通常会出现过拟合问题。此外,在实际应用中,修复后的图像常常因为缺失了关键的语义信息,导致严重损坏区域出现不均匀的纹理或单一的颜色等伪影。

Weber等人[98]提出了一种基于深度图像先验(DIP)[99]的互动机器学习系统,用于图像修复。他们的“人机协作”框架通过以下步骤将人类知识融入训练过程。首先,将数据集中的图像送入自动化DIP进行初步修复。接着,操作员通过预设计的用户界面对图像进行主动修正。然后,修正后的图像再次输入DIP进行进一步优化。整个过程不断循环,直到图像修复达到用户预期。

在电子显微镜领域,自动化通常忽视了显微镜操作人员在手动分析中的专业知识。为了缓解这一挑战,Roels等人[100]提出了一种混合型人机协作系统,将显微镜专家的知识与大规模并行计算的能力相结合,通过利用图像修复算法,提升电子显微镜图像的质量。

3.2.3. 图像分割

图像分割(即语义分割)是大多数图像研究中的关键步骤。图像分割(IS)的目标是将每个像素分配到图像中的某个类别标签[101]。近年来,图像分割在计算机视觉应用中因其重要性而获得了广泛关注[102]。然而,关于如何有效地暴露高性能语义分割模型的失败并通过合理利用这些反例来修正模型的研究相对较少。Wang等人[103]提出了一种结合人工反馈的两步混合系统,用于故障排除像素级图像标注模型。该混合系统首先从大量图像中自动挑选出未标注的图像。这些选出的未标注图像用于组成一个未标注集,该集对于暴露目标模型的弱点最为有用。为了减少假阳性的数量,人工进行筛选,从中获取一个更小的精炼集。第二步,他们对目标模型进行微调和再训练,利用精炼集中的反例进行学习,而不忽视先前见过的例子。在医学图像处理中,数据标注一直是一个复杂且昂贵的过程[104]。Ravanbakhsh等人[105]提出了一种结合条件生成对抗网络(cGAN)与人工标注者互动的训练协议。在处理复杂案例时,人工专家负责标注这些图像。这些新标注的图像随后被用于继续训练和推理过程。

表 3. 人机协同计算机视觉(CV)代表性研究概览  每一行代表一项工作,按照任务类型排序(OD:目标检测,IR:图像恢复,IS:图像分割,IE:图像增强,VOS:视频目标分割)。每一列对应两个子章节中的维度(任务,动机)。

3.2.4. 图像增强

作为计算机视觉中的一个挑战性问题,图像增强(Image Enhancement, IE)的目标是对图像进行处理,生成一个新的、改进后的图像,使其更加适合特定的应用场景[110]。近年来,随着深度神经网络算法的出现,图像增强的研究领域吸引了大量研究者的关注[111]。然而,大多数现有框架忽视了用户偏好和经验,通常通过黑箱式的方式增强图像,这可能导致最终的结果无法满足用户的特定需求和审美。Murata 等人[106]则考虑了用户的偏好。用户首先提供一个示例图像,系统通过随机选择的参数对该示例图像应用图像增强功能。生成若干目标图像后,用户需要对每一张图像进行评分。然后,RankNet [112] 被用来根据这些评分学习用户的偏好。在学习过程中,系统根据用户给出的评分优化参数,使得生成的增强图像符合用户的口味。

Fischer 等人[107] 提出了神经图像修正与增强流程(NICER)。NICER框架中的一个组件——图像操作器(Image Manipulator),首先利用一系列学到的图像操作(如对比度、亮度)和可变的幅度,作用于用户提供的原始图像。接着,另一个名为质量评估器(Quality Assessor)的模块对最终增强效果进行评估,生成相关的评分。该系统通过迭代优化图像增强功能的参数,以最大化质量评估器给出的评分。在优化过程中,用户可以在任何时候修改图像操作器的参数,指导优化过程朝着更令其满意的局部最优解进行调整。

3.2.5. 视频目标分割

视频目标分割(Video Object Segmentation, VOS)的目标是通过手动或自动标注的第一帧,在整个视频序列中分割出特定的目标实例。该研究领域在计算机视觉界逐渐受到广泛关注。由于视频具有固有的特性,如运动模糊、构图不佳、遮挡等,完全自动化的方法往往难以准确地分割更复杂的序列。要求用户为每一帧输入标注是不现实的,因为这种方式会导致高昂的成本和时间消耗。因此,采用人类在环框架(human-in-the-loop)来解决这些问题成为一种有效的策略。

Benard等人[108] 提出了一个基于交互的视频目标分割方法[115]。他们的人类在环框架的核心思想是利用当前的分割掩码作为附加输入。Oh等人[109] 提出了一个名为互动与传播网络(Interaction-and-Propagation Networks, IPN)的实用框架,用于交互式视频分割场景。IPN由两个模块组成,这两个模块的关键架构是深度卷积神经网络。两个模块的主要操作分别为互动和传播。在这个互动过程中,用户可以多次与模型进行交互,并通过在多个帧上进行涂鸦反馈,以帮助模型进行修正和优化。

这种人类在环的方法通过允许用户参与和提供反馈,能够在自动分割的基础上进一步提高精度和鲁棒性,特别是在面对复杂的动态场景和高难度任务时,能够显著改善视频目标分割的效果。

3.2.6. 计算机视觉中的“人在环路”总结

在“人在环路”计算机视觉领域的代表性研究概述见于表3。从表3中可以观察到,所有被调查的计算机视觉领域的“人在环路”工作其主要动机都是为了提升模型的性能。从这些研究的实验结果来看,尽管评估标准各异,加入“人在环路”方法的系统表现均优于未加入人类反馈的系统。以Madono等人[93]为例,他们在行人检测实验中证明了该方法的两个优点:一方面,提出的方法将召回率提高了最多11%;另一方面,相比没有AFSID的双向深度SORT,他们的方法将需要人工标注的未标记样本数量减少了最多67%,从而显著提高了整体模型性能。结合表2的内容,这一现象在计算机视觉领域与自然语言处理(NLP)领域相似,表明几乎所有“人在环路”研究的核心动机,都是为了提升模型性能。我们还注意到,在表3中,只有一项研究[100]尝试为模型带来可解释性。Roels等人[100]验证了DenoisEM在3D电子显微镜图像解释中的潜力,通过去噪Arabidopsis thaliana根尖的SBF-SEM图像数据。此外,“人在环路”理念还可以提升计算机视觉模型的可用性。例如,Madono等人[93]证明了他们的框架在获取标注成本高昂的场景中具有优势/实用性。Oh等人[109]验证了他们的交互式传播网络(IPN)在实际交互剪切用例中的有效性和鲁棒性。Hudec等人[116]提出了一种基于顺序和析取函数变异性进行的聚合函数的新分类方法,这在将领域专家知识融合到模型中的过程中起着重要作用。

4. “人在环路”在系统构建中的应用

此前,我们已对“数据处理”以及“模型训练与推理”环节中“人在环路”机制的研究成果进行了系统性总结与回顾。除此之外,我们还注意到,部分研究者更关注于如何在实际应用中构建以人为核心的人机协作系统。此类研究通常将人类知识、偏好与决策行为嵌入至系统设计与反馈环节中,从而提升系统的可用性、可靠性与用户满意度。在众多应用场景中,本文选取了四类具有代表性的领域进行综述,包括:安全系统(Security Systems)代码生产工具(Code Production Tools)仿真系统(Simulation Systems) 以及 搜索引擎(Search Engines)。我们总结了这些领域中典型的HITL研究工作,并将其展示于表4中。

表4: 基于软件的“人在环路”系统的典型应用概览。(SECS:安全系统;CP:代码生成;SIMS:仿真系统;SE:搜索引擎。)

4.1 安全系统

安全系统是一类与人密切耦合的应用系统(见图 8)。随着深度学习算法的发展,研究者开始探索更加高效的人机协作模式,以逐步替代传统的人工干预流程。在现实场景中,由于注意力不集中、年龄增长或专业技能欠缺等客观原因,人类操作者常常无法正确执行某些安全关键任务。目前,许多安全系统在结构上对人的依赖性很强,这种高耦合性很可能导致错误被持续放大,从而对系统的整体安全性构成严重威胁。

图8. “人在环路”安全系统的工作流程。

为应对这一挑战,研究重点逐渐转向如何最大限度地提升操作者成功执行安全关键任务的可能性。为此,Cranor [117] 提出了一个基于“人在环路”推理框架,该框架为识别人类失误的潜在原因提供了系统化的方法,从而帮助系统设计者在系统建设初期便能发现潜在问题并主动修复缺陷。

类似地,为了及时阻断操作人员的错误行为,Singh 等人 [118] 针对核电站和商用航空领域的运行安全问题进行了研究。他们首先关注操作者与控制面板(人机界面,HMI)之间的交互状态,通过引入视觉反馈回路来预测短期内的预期状态。研究者将人机界面状态序列的预测任务转换为一个类比于语言翻译的问题,并以“人在环路”的方式对其进行建模。该方法最终在包含自然工厂场景的数据集上进行了验证,实验证明其在提升系统安全性方面具有显著效果。

图 9. 现代任务中“人在环路”安全系统的工作流程。

随着互联网技术的进一步发展,安全系统成为一种迫切需要。然而,“人在环路”的应用不仅限于病毒检测和虚假信息过滤,还在隐私保护、身份认证攻击防范和垃圾邮件过滤等问题上展现了显著的效果。

4.2. 代码生产工具

程序编写模型训练是人工智能中的两个基本任务,这两个任务与人类高度相关。然而,随着开源社区的发展,各种代码和模型资源的公开,使得简单的程序编写和模型训练成为重复性工作,从而为模型的自动化奠定了基础。根本的难点在于使集成工具学会拼接现有组件,这要求集成工具能够学习人类的集成经验。在这一思路的指导下,已经出现了一些自动化工具。借助这些实用工具,开发人员可以在现有项目上进行协作,而不是从零开始编写项目(图10)。

图 10. 借助“人在环路”系统,人与计算机可以协同完成项目开发。

软件测试最早受到了关注。MacHiry 等人 [122] 设计了一种名为 Dynodroid 的测试生成系统,用于对未修改的 Android 应用程序进行模糊测试。Dynodroid 将应用程序拆解为一组事件驱动的程序,利用 Android 框架自动生成一系列事件,并自动执行这些事件,以与外部环境进行交互,进而收集程序功能的交互反馈。值得一提的是,Dynodroid 在必要时会采用人工干预的方式,并尝试利用输入反馈动态调整框架以生成新的输出。通过上述方法,Dynodroid 以人机混合的方式实现了对未修改 Android 应用的模糊测试。

Yan 等人 [125] 提出了一种以人类与工具为中心的漏洞分析系统,利用不同专业水平的人类参与者完成一系列明确的子任务。与以往工作相比,该系统可适用于更大规模的程序集合,且劳动利用率更高。此外,在实际应用场景中,程序员通常关注代码测试,并希望借助程序修正工具辅助开发。Bohme 等人 [131] 提出了首个“人在环路”半自动程序修复框架 LEARN2FIX。LEARN2FIX 通过与用户协商来观察程序错误,借助这些被标注的错误样本训练出一个自动错误判断器(oracle),最终实现程序的自动修复。LEARN2FIX 能够以相对较低的标注成本(例如仅需 20 次查询)学习出准确性足够高的自动 oracle。

在软件工程中,基于“人在环路”的系统产品化工具为程序员带来了极大的便利。未来,该方法在此领域的应用将从调试与软件测试拓展至大多数编程任务。特别是随着 BERT [11] 与 GPT [12] 等预训练模型的引入,人机协同编程正成为新的研究与应用焦点。

随着机器学习的发展,深度模型的训练已成为另一项广泛开展的核心任务。伴随对模型训练的不断探索,越来越多研究者开始致力于构建半自动甚至全自动的训练工具,并尝试在训练过程的各个阶段引入人的知识以提升系统性能(见图 11)。为解决模型设计过程中底层结构未知的问题,Salam 等人 [128] 提出了一个半自动“人在环路”属性设计框架,用以辅助人工分析者将原始属性转换为与问题相关的有效派生属性分类。该框架首先基于随机游走启发式方法,为人工分析者提供包含潜在优质原始属性的 k 个分桶;随后,框架通过可扩展且高效的贪婪启发式算法,迭代地让人工分析者处理包含复杂属性的组合,最终选出 top-l 派生属性以形成模型结构草图,并由设计者以交互方式完成详细设计。

图 11. 人在环路系统在机器学习算法优化中的应用示意图。

在模型训练流程方面,机器学习系统的终极目标在于缩短从零开始训练到可部署模型所需的时间。MA 等人 [127] 提出了一个人机协作系统 Helix,通过合理复用或重新计算中间结果来优化多次迭代中的执行效率。值得注意的是,Helix 系统包含一个工作流管理模块和可视化模块,与用户进行交互,从而显著提升了系统的可用性。

为解决模型优化过程中存在的透明度和可操作性缺失问题,Renner 等人 [132] 聚焦于交互式机器学习中的两个核心方面:系统的可解释性(即如何向用户解释系统行为)以及可操作性(即用户如何提供反馈或指导系统学习)。该研究结合了新颖的话题可视化技术,构建了以人为中心的交互式主题建模系统,揭示了用户如何理解和干预机器学习模型,从而为“人在环路”系统的进一步发展提供了设计指引。

4.3. 仿真系统

仿真系统通常通过构建虚拟系统来模拟实际对象或工作流程,广泛应用于系统构建决策、流程预测以及安全控制等场景。由于这类应用具有高度复杂性与动态性,与人的交互在其中显得尤为关键。大量研究者致力于提升“人在环路”(Human-in-the-loop)仿真系统在预测与优化人类系统集成中的可用性与有效性。

Davidson 等人 [133] 提出了一种基于半结构化访谈的研究方法,采访关键知情者,并据此总结出八项提升“人在环路”仿真系统的关键需求。这些关键点聚焦于如何在设计初期更有效地纳入人为因素,从而更好地满足军事仿真系统中对于人类要素的需求。此外,“人在环路”仿真系统也可广泛应用于货运运输、交通管理等规划决策问题。

在流程仿真方面,Demirel 等人 [134] 提出了一种融合人机交互的新方法,用于评估人-产品交互的安全性与性能。他们利用数字人建模技术(Digital Human Modeling, DHM)将“人”的行为引入计算建模环境,系统可预设角色在工作流中的形式与功能,并结合工效学评估指标来执行完整的作业循环,实现从结构设计到交互评估的闭环仿真。

在程序控制方面,Metzner 等人 [135] 探索了一种融合虚拟现实、动作追踪及工业机器人仿真软件的“人–机器人”协同系统。该系统通过虚拟现实技术再现人机共作场景,并利用运动追踪装置获取人类操作者的动作数据,实现虚拟环境下的人机互动评估。此方法不仅能测试人机协同系统的安全控制机制,还能验证其是否满足既定性能需求。

4.4. 搜索引擎

搜索引擎自动化智能化是人工智能领域的重要研究方向。我们发现,当前的搜索引擎仍然主要作为人的辅助工具而存在,但若能进一步建模人的工作逻辑,其应用价值将大大提升。目前关于搜索引擎的研究主要集中在推荐系统与图像搜索两个方向。

Polisetty 等人 [136] 引入了一种基于用户持续反馈进行学习的联合推荐系统。该系统通过将“人在环路”理念融入信息聚合、信息丰富与结果推荐三大研究方向,使得推荐过程更加智能和个性化。系统具备评论摘要生成与评分预测功能,并搭配网页交互界面,借助人机交互不断优化方法,提升用户体验。

随着计算机视觉技术的进步,图像搜索已成为搜索领域的重要任务,并因深度学习的飞速发展而取得显著成果。然而,“视觉–文本”语义匹配任务依旧面临诸多挑战,影响着用户交互效果与搜索结果质量。由于人在处理图像任务中具备天然优势,将用户引入图像搜索的交互环节(见图 12)具有巨大潜力。

Kovashka 等人 [123] 提出了一种新颖的图像搜索反馈模型,允许用户通过视觉对比方式表达偏好并主导搜索过程。该方法流程为:用户发起查询 → 系统提供基于查询的反馈 → 用户响应反馈 → 系统再次根据反馈调整结果,如此循环,直至系统不再接收反馈 → 系统最终从反馈中学习并自我更新。与传统被动式或主动式方法相比,该系统在更少交互的基础上实现更高的搜索准确性。

在此基础上,Plummer 等人 [129] 提出了基于属性的交互式图像搜索方法,系统能够通过“人在环路”的反馈迭代优化搜索结果。与传统方法依赖人工特征度量不同,该系统训练了一个深度强化学习模型,以学习哪些图像最具信息量,从而指导反馈过程。此外,研究团队还扩展了条件相似性网络(Conditional Similarity Networks)将全局相似性纳入视觉嵌入训练过程中,从而使用户在探索图像空间时过渡更加自然。系统具备自更新能力,能够持续提升图像搜索精度。

总的来看,在“人在环路”的理念指导下,搜索引擎通过交互式学习不断适应变化,能够更好地满足用户个性化、多样化的检索需求,展现出更高的实用价值与发展潜力。

图 12. “人在环路”图像搜索系统的使用方式。

除了上述场景外,“人在环路”系统还被广泛应用于其他领域 [130],[137],例如生物信息学、监督型医疗保健以及众包任务等。例如,Fredrik Wrede 等人 [130] 将“人在环路”的半监督学习方法应用于随机基因调控研究;Rosenberg 等人 [124] 则构建了一个基于人工群体智能的众包任务调度系统;Li 等人 [138] 则采用模型检验方法用于“人在环路”系统的验证。随着人机交互技术的不断发展及应用场景的持续拓展,未来“人在环路”系统将在更多领域发挥其独特价值。

5. “人在环路”面临的挑战与机遇

在本节中,我们首先讨论了机器学习中“人在环路”的现有挑战和关键问题。接下来,我们展示了在计算机视觉(CV)自然语言处理(NLP)以及基于“人在环路”的应用领域中的未来发展方向。

5.1. 挑战与讨论

如何将人类经验和知识融入计算机视觉任务?通过回顾以往的研究,我们发现大多数“人在环路”的研究集中在自然语言处理领域。分析原因后,我们发现直接让人类与图像进行有效交互(除了直接标注)并将人类经验和知识贯穿于整个模型周期并不容易。随着多模态技术的发展,利用多模态图像表示可以成为一种有效的方式[139]。特别值得指出的是,Holzinger等人[140]采用了图神经网络作为首选方法,实现在多模态能力上的信息融合,这是一个重要的里程碑。此外,应用逆向强化学习似乎也是一个可行且实用的解决方案[141]。

模型如何从更高维度学习人类知识和经验?人类在环中的目标是以特定方式将人类与模型循环连接起来,使得机器能够在这个循环中学习到人类的知识和经验。目前大多数方法通过人类数据标注来实现这一目标,而数据标注只是最基本的实现过程。正如俗话所说,授人以鱼不如授人以渔。研究人员应当考虑如何有效帮助智能体获取这些知识[142]。语言是人类学习过程中积累的经验。目前,研究人员专注于通过对话中的人类干预,使机器能够从对话过程中迭代地学习人类的知识和智能[143]。此外,许多推理任务包含更高维度的知识。通过将人类融入推理循环中,机器也能更深入地了解人类经验[117]。图像质量评估和设计任务属于更高层次的人类活动。虽然人类的审美和设计灵感构成了理论基础,但更多的灵感和审美仍来自于人类经验[144]。如果我们找到一种有效的方式让模型学习更多专家经验,那么模型的提升将是显著的。

如何选择关键样本?人类在环中的关键技术是获取重要样本并通过人类干预进行标注。目前,研究人员主要采用基于置信度的方法来获取关键样本。这种方法在分类任务中起着不可替代的作用[145],[146]。然而,对于其他任务(如语义分割、回归和目标检测任务),置信度作为评估指标并不那么显著,因此不能反映系统的改进。主动学习旨在通过标记提供最多信息的样本,以最低的成本训练出准确的预测模型。在选择标准方面,有多种成熟且值得借鉴的方法,也许研究人员可以从这些方法中获得灵感[147]。

如何构建评估基准?为了推动整个社区的发展,提供有效的测试基准非常重要。目前,对于人类在环中的研究基准尚未形成统一标准。为了更好地探索这一研究主题,研究如何开发人类在环系统的评估方法和基准至关重要。此外,统一基准的形成也有助于进一步完善研究[30]。当前基于人类在环的研究是探索更有利于人类在环的方式的重要方向。除了制定这些交互方法的标准外,限制和理论化也尤为重要。

如何通过人类在环实现通用的多任务框架?现实世界的任务复杂且其当前形式不易通过单一特征完全解决[148]。随着统一的大规模预训练模型的出现[39][149],我们看到了通过人类在环微调实现通用模型的希望。尤其是目前的机器学习模型还不如人类智能,因此,考虑使用适当的方法将人类知识引入大模型,可能是下一个研究方向。

5.2. 未来方向

为了促进更多研究人员开发更先进的人类在环系统,我们总结了以下具体的未来方向,分别针对人类在环自然语言处理(NLP)、人类在环计算机视觉(CV)以及人类在环实际应用。

5.2.1. 人机协同NLP系统的未来发展方向

• 对于像聊天机器人、自动摘要工具或商业机器翻译这样的系统,在与它们互动时,用户只能对发送给他们的单一输出给出奖励信号,这导致了输出空间中反馈的稀疏性 [150]。

• 在句法分析任务中,基于人机协作探索关于其他类型解析不确定性的问题,并将该方法扩展到大型未标注语料库或其他语言是非常重要的 [43]。

• 在以用户为中心的设计和人机协作主题建模任务评估中,关键是考虑信任或可信度 [151]。

• 在人工智能安全方面,现有的一些人机协作技术也允许恶意个人有效地训练模型以服务于他们的目的,这可能对社会各个方面造成危害。例如,他们可以利用人类反馈微调语言模型,使其更具说服力,从而操控人类的信念、灌输极端思想、进行欺诈等 [79]。

5.2.2. 人机协作计算机视觉系统的未来方向

• 在图像恢复任务中,需要关注基于监督回归模型的预测参数优化,并基于人机协作方法科学分析不同算法参数之间的关联[100]。

• 在图像增强任务中,使用主动学习帮助用户在最少的图像增强下更好地估计图像的聚类成员身份是非常重要的[152]。

5.2.3. 自然语言处理和计算机视觉系统的未来方向

• 由于不同层次的专业知识以及工作负荷的增加,人工监督可能更为可取,因为错误决策的发生具有潜在风险[153]。

• 收集并共享更多用于NLP和CV不同任务的人类反馈数据集[30]。

• 我们应该考虑用户的可信度,通过分析提供反馈的质量来影响其注释的影响力[72]。

• 需要设计并开展更为严谨和深入的用户研究,以评估“人在环路”系统框架在模型性能之外的有效性和鲁棒性[151]。

• 对于生成任务,可以通过用户反馈定义显式函数,用于评估和收集生成信号[150]。

• 寻找一种高效的方法动态地选取最具代表性和价值的反馈进行收集是至关重要的[154]。

• 以更加友好的方式展示模型从反馈中学到了什么以及是哪种反馈至关重要。具体而言,可以探索模型变化的过程,尝试将人工反馈的结果可视化[155]。

5.2.4. “人在环路”的实际应用未来方向

• 对于特别强调可靠性与安全性的任务,选择合适的人工干预时机是基础性问题 [156]。

• 对于具有人机交互的系统,用户对体验的期待往往优先于性能表现 [157], [158]。

• 在人机交互过程中,如何建模传感器信号并解决抽象信息与具体信息的统一编码,是一个关键问题 [159]。

• 当前人工干预多停留在表层判断(如接受/拒绝、方向性引导),探索更复杂的反馈机制是“人在环路”应用中的重要课题 [160]。

• 基于“人在环路”的系统应具备对领域变化、扰动以及“越界”样本的强鲁棒性与泛化能力 [161]。

6. 总结

本文回顾了现有关于人在环路”(Human-in-the-loop, HITL)技术在机器学习中的研究工作。我们首先从数据处理角度讨论了提升模型性能的相关研究。根据“人在环路”的数据处理流程,我们将这一部分划分为数据预处理数据标注迭代标注三类。核心问题是如何在更少样本的前提下,从数据层面实现更显著的模型性能提升。通过对基于“人在环路”的数据处理方法的调研发现,现阶段的研究更关注如何利用半监督方法进行数据收集与标注,而对于如何从数据集中筛选和识别关键样本的研究则相对薄弱。

随后,我们讨论了通过人为干预的模型训练来提升模型性能的相关研究。我们根据任务目标将这一部分细分为自然语言处理(NLP)计算机视觉(CV)两个子模块。核心问题在于如何将人类的高维知识有效加入到模型中,进而推动模型在关键问题上的突破。调研发现,目前多数“人在环路”的研究多以参与简单数据增量的形式存在于模型训练中,如何构建能够有效融合人类知识的模型训练方法是亟需解决的核心问题。诸如逆向强化学习与多模态学习等方法被认为是较为可行的解决途径。

最后,我们讨论了独立于模型设计的系统级“人在环路”应用。在该部分中,我们综述了多个实际应用场景下的HITL系统,并按照任务类型划分为安全系统代码生产工具仿真系统搜索引擎四类。调研表明,相较于学术研究中对单一变量的控制,实际应用中多个变量的协调更加复杂。尽管在实际生产中集成了“人在环路”的系统具有一定优势,但如何快速引入高阶人类知识并保持系统的鲁棒性,是一个亟需深入研究的问题。

此外,我们也提出了一些开放性挑战与未来发展方向。我们首先探讨了当前机器学习中“人在环路”存在的核心挑战与问题,并在此基础上,针对CV、NLP与实际应用领域进一步明确了未来研究方向。构建能够有效融合人类高维知识的人工智能模型具有巨大潜力,特别是在大规模预训练模型快速发展的背景下,基于小样本的人机混合学习方法展现出广阔前景。

参考文献

[1] S. Dong, P. Wang, K. Abbas, A survey on deep learning and its applications, Comp. Sci. Rev. 40 (2021) 100379.

[2] A. Brutzkus, A. Globerson, Why do larger models generalize better? A theoretical perspective via the XOR problem, in: ICML, 2019, pp. 822–830.

[3] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, A. Oliva, Learning deep features for scene recognition using places database, in: NIPS, 2014, pp. 487–495.

[4] J. Li, J. Yang, A. Hertzmann, J. Zhang, T. Xu, LayoutGAN: Synthesizing graphic layouts with vector-wireframe adversarial networks, IEEE Trans. PAMI 43 (7) (2021) 2388–2399.

[5] S. Zhao, Z. Liu, J. Lin, J.-Y. Zhu, S. Han, Differentiable augmentation for data-efficient gan training, NIPS 33 (2020) 7559–7570.

[6] H.T. Shen, X. Zhu, Z. Zhang, S.-H. Wang, Y. Chen, X. Xu, J. Shao, Heterogeneous data fusion for predicting mild cognitive impairment conversion, Inf. Fusion 66 (2021) 54–63.

[7] X. Qiu, T. Sun, Y. Xu, Y. Shao, N. Dai, X. Huang, Pre-trained models for natural language processing: A survey, Sci. China Technol. Sci. (2020)1–26.

[8] M. Zaib, Q.Z. Sheng, W. Emma Zhang, A short survey of pre-trained language models for conversational AI-A new age in NLP, in: ACSW, 2020, pp. 1–4.

[9] S. Bahrami, F. Dornaika, A. Bosaghzadeh, Joint auto-weighted graph fusion and scalable semi-supervised learning, Inf. Fusion 66 (2021) 213–228.

[10] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, L. Kaiser, I. Polosukhin, Attention is all you need, in: NIPS, 2017.

[11] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, BERT: Pre-training of deep bidirectional transformers for language understanding, in: NAACL, 2019,pp. 4171–4186.

[12] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, Improving language understanding by generative pre-training, 2018.

[13] M. Habermann, W. Xu, M. Zollhofer, G. Pons-Moll, C. Theobalt, Deepcap: Monocular human performance capture using weak supervision, in: CVPR, 2020, pp. 5052–5063.

[14] Y. Wang, W. Yang, F. Ma, J. Xu, B. Zhong, Q. Deng, J. Gao, Weak supervision for fake news detection via reinforcement learning, in: AAAI, Vol. 34, (01) 2020, pp. 516–523.

[15] S. Jia, S. Jiang, Z. Lin, N. Li, M. Xu, S. Yu, A survey: Deep learning for hyper-spectral image classification with few labeled samples, Neurocomputing 448 (2021) 179–204.

[16] M. Diligenti, S. Roychowdhury, M. Gori, Integrating prior knowledge into deep learning, in: ICMLA, 2017, pp. 920–923.

[17] S. Chen, Y. Leng, S. Labi, A deep learning algorithm for simulating autonomous driving considering prior knowledge and temporal information, Comput.-Aided Civ. Infrastruct. Eng. 35 (4) (2020) 305–321.

[18] Y. Lin, S.L. Pintea, J.C. van Gemert, Deep hough-transform line priors, in:ECCV, 2020, pp. 323–340.

[19] G. Hartmann, Z. Shiller, A. Azaria, Deep reinforcement learning for time optimal velocity control using prior knowledge, in: ICTAI, 2019 pp. 186–193.

[20] X. Zhang, S. Wang, J. Liu, C. Tao, Towards improving diagnosis of skin diseases by combining deep neural network and human knowledge, BMC Med. Inform. Decis. Mak. 18 (2) (2018) 69–76.

[21] R. Zhang, F. Torabi, L. Guan, D.H. Ballard, P. Stone, Leveraging human guidance for deep reinforcement learning tasks, in: International Joint Conference on Artificial Intelligence (IJCAI), 2019.

[22] A. Holzinger, M. Plass, M. Kickmeier-Rust, K. Holzinger, G.C. Crişan, C.-M. Pintea, V. Palade, Interactive machine learning: experimental evidence for the human in the algorithmic loop, Appl. Intell. 49 (7) (2019) 2401–2414.

[23] Y.-t. Zhuang, F. Wu, C. Chen, Y.-h. Pan, Challenges and opportunities: from big data to knowledge in AI 2.0, Front. Inf. Technol. Electron. Eng. 18 (1) (2017) 3–14.

[24] V. Kumar, A. Smith-Renner, L. Findlater, K. Seppi, J. Boyd-Graber, Why didn’t you listen to me? Comparing user control of human-in-the-loop topic models, in: ACL, 2019.

[25] D. Xin, L. Ma, J. Liu, S. Macke, S. Song, A. Parameswaran, Accelerating human-in-the-loop machine learning: Challenges and opportunities, in: Proceedings of the Second Workshop on Data Management for End-To-End Machine Learning, 2018, pp. 1–4.

[26] S. Budd, E.C. Robinson, B. Kainz, A survey on active learning and human-in-the-loop deep learning for medical image analysis, Med. Image Anal. 71 (2021) 102062.

[27] W. Jung, F. Jazizadeh, Human-in-the-loop HVAC operations: A quantitative review on occupancy, comfort, and energy-efficiency dimensions, Appl. Energy 239 (2019) 1471–1508.

[28] S. Agnisarman, S. Lopes, K.C. Madathil, K. Piratla, A. Gramopadhye, A survey of automation-enabled human-in-the-loop systems for infrastructure visual inspection, Autom. Constr. 97 (2019) 52–76.

[29] L. Benedikt, C. Joshi, L. Nolan, R. Henstra-Hill, L. Shaw, S. Hook, Human-in-the-loop AI in government: A case study, in: IUI, 2020 pp. 488–497.

[30] C. Chai, G. Li, Human-in-the-loop techniques in machine learning, Data Eng. (2020) 37.

[31] B.M. Tehrani, J. Wang, C. Wang, Review of human-in-the-loop cyber-physical systems (HiLCPS): The current status from human perspective, Comput. Civ. Eng. 2019: Data, Sens. Anal. (2019) 470–478.

[32] Z.Y. Khan, Z. Niu, S. Sandiwarno, R. Prince, Deep learning techniques for rating prediction: a survey of the state-of-the-art, Artif. Intell. Rev. 54 (1) (2021) 95–135.

[33] F. Yu, A. Seff, Y. Zhang, S. Song, T. Funkhouser, J. Xiao, LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, 2015, arXiv:arXiv:1506.03365. 378

[34] O. Siméoni, M. Budnik, Y. Avrithis, G. Gravier, Rethinking deep active learning: Using unlabeled data at model training, in: ICPR, 2021 pp. 1220–1227.

[35] Y. Wang, L. Zhang, Y. Yao, Y. Fu, How to trust unlabeled data instance credibility inference for few-shot learning, IEEE Trans. PAMI (2021) 1.

[36] Y. Shi, A.K. Jain, Boosting unconstrained face recognition with auxiliary unlabeled data, in: CVPR, 2021, pp. 2795–2804.

[37] Z. Ren, R. Yeh, A. Schwing, Not all unlabeled data are equal: Learning to weight data in semi-supervised learning, NIPS 33 (2020).

[38] S. Niu, B. Li, X. Wang, H. Lin, Defect image sample generation with GAN for improving defect recognition, IEEE Trans. Autom. Sci. Eng. 17 (3) (2020) 1611–1622.

[39] S. Khan, M. Naseer, M. Hayat, S.W. Zamir, F.S. Khan, M. Shah, Transformers in vision: A survey, ACM Comput. Surv. (2021).

[40] T.D. Pham, Classification of COVID-19 chest X-rays with deep learning: new models or fine tuning? Health Inf. Sci. Syst. 9 (1) (2021) 1–11.

[41] S. Chen, Y. Hou, Y. Cui, W. Che, T. Liu, X. Yu, Recall and learn: Fine-tuning deep pretrained language models with less forgetting, in: EMNLP, 2020, pp. 7870–7881.

[42] G. Wang, W. Li, M.A. Zuluaga, R. Pratt, P.A. Patel, M. Aertsen, T. Doel, A.L. David, J. Deprest, S. Ourselin, et al., Interactive medical image segmentation using deep learning with image-specific fine tuning, IEEE Trans. Med. Imaging 37 (7) (2018) 1562–1573.

[43] L. He, J. Michael, M. Lewis, L. Zettlemoyer, Human-in-the-loop parsing, in: EMNLP, 2016, pp. 2337–2342.

[44] J.Z. Self, R.K. Vinayagam, J. Fry, C. North, Bridging the gap between user intention and model parameters for human-in-the-loop data analytics, in: Proceedings of the Workshop on Human-in-the-Loop Data Analytics, 2016, pp. 1–6.

[45] Y. Zhuang, G. Li, Z. Zhong, J. Feng, Hike: A hybrid human-machine method for entity alignment in large-scale knowledge bases, in: CIKM, 2017 pp. 1917–1926.

[46] G. Li, Human-in-the-loop data integration, Proc. VLDB Endow. 10 (12) (2017) 2006–2017.

[47] B. Kim, B. Pardo, A human-in-the-loop system for sound event detection and annotation, ACM Trans. Interact. Intell. Syst. (TiiS) 8 (2) (2018) 1–23.

[48] A. Doan, Human-in-the-loop data analysis: a personal perspective, in: Proceedings of the Workshop on Human-in-the-Loop Data Analytics, 2018, pp. 1–6.

[49] X.L. Dong, T. Rekatsinas, Data integration and machine learning: A natural synergy, in: COMAD, 2018, pp. 1645–1650.

[50] A.L. Gentile, D. Gruhl, P. Ristoski, S. Welch, Explore and exploit. Dictionary expansion with human-in-the-loop, in: European Semantic Web Conference, 2019, pp. 131–145.

[51] S. Zhang, L. He, E. Dragut, S. Vucetic, How to invest my time: Lessons from human-in-the-loop entity extraction, in: KDD, 2019, pp. 2305–2313.

[52] L. Berti-Equille, Reinforcement learning for data preparation with active reward learning, in: International Conference on Internet Science, 2019, pp. 121–13.

[53] S. Gurajada, L. Popa, K. Qian, P. Sen, Learning-based methods with human-in-the-loop for entity resolution, in: CIKM, 2019, pp. 2969–2970.

[54] Y. Lou, M. Uddin, N. Brown, M. Cafarella, Knowledge graph programming with a human-in-the-loop: Preliminary results, in: Proceedings of the Workshop on Human-in-the-Loop Data Analytics, 2019, pp. 1–7.

[55] Z. Liu, J. Wang, S. Gong, H. Lu, D. Tao, Deep reinforcement active learning for human-in-the-loop person re-identification, in: ICCV, 2019, pp. 6122–6131.

[56] E. Wallace, P. Rodriguez, S. Feng, I. Yamada, J. Boyd-Graber, Trick me if you can: Human-in-the-loop generation of adversarial examples for question answering, Trans. Assoc. Comput. Linguist. 7 (2019) 387–401.

[57] X. Fan, C. Li, X. Yuan, X. Dong, J. Liang, An interactive visual analytics approach for network anomaly detection through smart labeling, J. Vis. 22 (5) (2019) 955–971.

[58] E. Krokos, H.-C. Cheng, J. Chang, B. Nebesh, C.L. Paul, K. Whitley, A. Varshney, Enhancing deep learning with visual interactions, ACM Trans. Interact. Intell. Syst. (TiiS) 9 (1) (2019) 1–27.

[59] J.-C. Klie, R.E. de Castilho, I. Gurevych, From zero to hero: Human-in-the-loop entity linking in low resource domains, in: ACL, 2020, pp. 6982–6993.

[60] C. Butler, H. Oster, J. Togelius, Human-in-the-loop AI for analysis of free response facial expression label sets, in: IVA, 2020, pp. 1–8.

[61] P. Ristoski, A.L. Gentile, A. Alba, D. Gruhl, S. Welch, Large-scale relation extraction from web documents and knowledge graphs with human-in-the-loop, J. Web Semant. 60 (2020) 100546.

[62] K. Qian, P.C. Raman, Y. Li, L. Popa, Partner: Human-in-the-loop entity name understanding with deep learning, in: The AAAI Conference on Artificial Intelligence, 34, (09) 2020, pp. 13634–13635.

[63] T.-N. Le, A. Sugimoto, S. Ono, H. Kawasaki, Toward interactive selfannotation for video object bounding box: Recurrent self-learning and hierarchical annotation based framework, in: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2020 pp. 3231–3240.

[64] M. Bartolo, A. Roberts, J. Welbl, S. Riedel, P. Stenetorp, Beat the AI: Investigating adversarial human annotation for reading comprehension, Trans. Assoc. Comput. Linguist. 8 (2020) 662–678.

[65] K. Muthuraman, F. Reiss, H. Xu, B. Cutler, Z. Eichenberger, Data cleaning tools for token classification tasks, in: Proceedings of the Second Workshop on Data Science with Human in the Loop: Language Advances, 2021, pp. 59–61.

[66] Q. Meng, W. Wang, T. Zhou, J. Shen, Y. Jia, L. Van Gool, Towards a weakly supervised framework for 3d point cloud object detection and annotation, IEEE Trans. PAMI (2021) 1.

[67] L. Zhang, X. Wang, Q. Fan, Y. Ji, C. Liu, Generating manga from illustrations via mimicking manga creation workflow, in: CVPR, 2021, pp. 5642–5651.

[68] B. Adhikari, H. Huttunen, Iterative bounding box annotation for object detection, in: ICPR, 2021, pp. 4040–4046.

[69] J.L. Martinez-Rodriguez, A. Hogan, I. Lopez-Arevalo, Information extraction meets the semantic web: A survey, Semant. Web 11 (2) (2020) 255–335.

[70] H. Ye, W. Shao, H. Wang, J. Ma, L. Wang, Y. Zheng, X. Xue, Face recognition via active annotation and learning, in: ACM International Conference on Multimedia, 2016, pp. 1058–1062.

[71] Y. LeCun, Y. Bengio, G. Hinton, Deep learning, Nature 521 (7553) (2015) 436–444.

[72] T. Karmakharm, N. Aletras, K. Bontcheva, Journalist-in-the-loop: Continuous learning as a service for rumour analysis, in: EMNLP, 2019 pp. 115–120.

[73] Y. Song, J. Wang, T. Jiang, Z. Liu, Y. Rao, Targeted sentiment classification with attentional encoder network, in: ICANN, Springer, 2019, pp. 93–103.

[74] X. Bai, P. Liu, Y. Zhang, Investigating typed syntactic dependencies for targeted sentiment classification using graph attention neural network, IEEE/ACM Trans. Audio, Speech, Lang. Process. 29 (2020) 503–514.

[75] I. Arous, L. Dolamic, J. Yang, A. Bhardwaj, G. Cuccu, P. Cudré-Mauroux, Marta: Leveraging human rationales for explainable text classification, in: The AAAI Conference on Artificial Intelligence, 35, (7) 2021, pp. 5868–5876.

[76] Z. Yao, X. Li, J. Gao, B. Sadler, H. Sun, Interactive semantic parsing for if-then recipes via hierarchical reinforcement learning, in: The AAAI Conference on Artificial Intelligence, 33, (01) 2019, pp. 2547–2554.

[77] Z. Yao, Y. Su, H. Sun, W.-t. Yih, Model-based interactive semantic parsing: A unified formulation and a text-to-SQL case study, in: EMNLP, 2019.

[78] D.M. Ziegler, N. Stiennon, J. Wu, T.B. Brown, A. Radford, D. Amodei, P. Christiano, G. Irving, Fine-tuning language models from human preferences, 2019, arXiv:arXiv:1909.08593.

[79] N. Stiennon, L. Ouyang, J. Wu, D. Ziegler, R. Lowe, C. Voss, A. Radford, D. Amodei, P.F. Christiano, Learning to summarize with human feedback, NIPS 33 (2020) 3008–3021.

[80] B. Hancock, A. Bordes, P.-E. Mazare, J. Weston, Learning from dialogue after deployment: Feed yourself, chatbot!, in: ACL, 2019, pp. 3667–3684.

[81] Z. Liu, Y. Guo, A.A. AI, J. Mahmud, When and why does a model fail? A human-in-the-loop error detection framework for sentiment analysis, NAACL-HLT 2021 (2021) 170.

[82] S. Chopra, M. Auli, A.M. Rush, Abstractive sentence summarization with attentive recurrent neural networks, in: NAACL, 2016, pp. 93–98.

[83] Z.J. Wang, D. Choi, S. Xu, D. Yang, Putting humans in the natural language processing loop: A survey, in: Proceedings of the First Workshop on Bridging Human–Computer Interaction and Natural Language Processing, 2021, pp. 47–52.

[84] L. Xiao, X. Hu, Y. Chen, Y. Xue, D. Gu, B. Chen, T. Zhang, Targeted sentiment classification based on attentional encoding and graph convolutional networks, Appl. Sci. 10 (3) (2020) 957.

[85] L. Xiao, X. Hu, Y. Chen, Y. Xue, B. Chen, D. Gu, B. Tang, Multi-head self-attention based gated graph convolutional networks for aspect-based sentiment classification, Multimedia Tools Appl. (2020) 1–20.

[86] B. Nushi, E. Kamar, E. Horvitz, Towards accountable ai: Hybrid human machine analyses for characterizing system failure, in: The AAAI Conference on Artificial Intelligence, 6, (1) 2018.

[87] M.T. Ribeiro, S. Singh, C. Guestrin, " Why should i trust you?" explaining the predictions of any classifier, in: Annual ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2016, pp. 1135–1144.

[88] X. Wu, Y. Zheng, T. Ma, H. Ye, L. He, Document image layout analysis via explicit edge embedding network, Inform. Sci. 577 (2021) 436–448.

[89] X. Wu, B. Xu, Y. Zheng, H. Ye, J. Yang, L. He, Fast video crowd counting with a temporal aware network, Neurocomputing 403 (2020) 13–20.

[90] R. Girshick, Fast r-cnn, in: ICCV, 2015, pp. 1440–1448.

[91] Z. Zou, Z. Shi, Y. Guo, J. Ye, Object detection in 20 years: A survey, 2019, arXiv:arXiv:1905.05055.

[92] A. Yao, J. Gall, C. Leistner, L. Van Gool, Interactive object detection, in: CVPR, 2012, pp. 3242–3249.

[93] K. Madono, T. Nakano, T. Kobayashi, T. Ogawa, Efficient human-in-the-loop object detection using bi-directional deep SORT and annotation-free segment identification, in: APSIPA ASC, 2020, pp. 1226–1233.

[94] N. Wojke, A. Bewley, D. Paulus, Simple online and realtime tracking with a deep association metric, in: ICIP, 2017, pp. 3645–3649. 379

[95] M.R. Banham, A.K. Katsaggelos, Digital image restoration, IEEE Signal Process. Mag. 14 (2) (1997) 24–41.

[96] A. Criminisi, P. Perez, K. Toyama, Object removal by exemplar-based inpainting, in: CVPR, 2, 2003, p. II.

[97] G. Liu, F.A. Reda, K.J. Shih, T.-C. Wang, A. Tao, B. Catanzaro, Image inpainting for irregular holes using partial convolutions, in: ECCV, 2018, pp. 85–100.

[98] T. Weber, H. Hußmann, Z. Han, S. Matthes, Y. Liu, Draw with me: Human-in-the-loop for image restoration, in: IUI, 2020, pp. 243–253.

[99] D. Ulyanov, A. Vedaldi, V. Lempitsky, Deep image prior, in: CVPR, 2018, pp. 9446–9454.

[100] J. Roels, F. Vernaillen, A. Kremer, A. Gonçalves, J. Aelterman, H.Q. Luong, B. Goossens, W. Philips, S. Lippens, Y. Saeys, A human-in-the-loop approach for semi-automated image restoration in electron microscopy, BioRxiv (2019) 644146.

[101] S. Minaee, Y.Y. Boykov, F. Porikli, A.J. Plaza, N. Kehtarnavaz, D. Terzopoulos, Image segmentation using deep learning: A survey, IEEE Trans. PAMI (2021) 1.

[102] V. Badrinarayanan, A. Kendall, R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for image segmentation, IEEE Trans. PAMI 39 (12) (2017) 2481–2495.

[103] H. Wang, T. Chen, Z. Wang, K. Ma, Efficiently troubleshooting image segmentation models with human-in-the-loop, 2020, p. 1.

[104] A. Taleb, C. Lippert, T. Klein, M. Nabi, Multimodal self-supervised learning for medical image analysis, in: IPMI, 2021, pp. 661–673.

[105] M. Ravanbakhsh, V. Tschernezki, F. Last, T. Klein, K. Batmanghelich, V. Tresp, M. Nabi, Human-machine collaboration for medical image segmentation, in: ICASSP, 2020, pp. 1040–1044.

[106] Y. Murata, Y. Dobashi, Automatic image enhancement taking into account user preference, in: CW, 2019, pp. 374–377.

[107] M. Fischer, K. Kobs, A. Hotho, Nicer: Aesthetic image enhancement with humans in the loop, in: The Thirteenth International Conference on Advances in Computer-Human Interactions, 2020, pp. 357–362.

[108] A. Benard, M. Gygli, Interactive video object segmentation in the wild, 2017, arXiv:arXiv:1801.00269.

[109] S.W. Oh, J.-Y. Lee, N. Xu, S.J. Kim, Fast user-guided video object segmentation by interaction-and-propagation networks, in: CVPR, 2019 pp. 5247–5256.

[110] K.N. Shukla, A. Potnis, P. Dwivedy, A review on image enhancement techniques, IJEACS 2 (7) (2017) 232–235.

[111] X. Fu, J. Yan, C. Fan, Image aesthetics assessment using composite features from off-the-shelf deep models, in: ICIP, 2018, pp. 3528–3532.

[112] C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, G. Hullender, Learning to rank using gradient descent, in: ICML, 2005, pp. 89–96.

[113] R. Yao, G. Lin, S. Xia, J. Zhao, Y. Zhou, Video object segmentation and tracking: A survey, ACM Trans. Intell. Syst. Technol. (TIST) 11 (4) (2020) 1–47.

[114] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, L. Van Gool, One-shot video object segmentation, in: CVPR, 2017, pp. 221–230.

[115] N. Xu, B. Price, S. Cohen, J. Yang, T.S. Huang, Deep interactive object selection, in: CVPR, 2016, pp. 373–381.

[116] M. Hudec, E. Mináriková, R. Mesiar, A. Saranti, A. Holzinger, Classification by ordinal sums of conjunctive and disjunctive functions for explainable AI and interpretable machine learning solutions, Knowl.-Based Syst. 220 (2021) 106916.

[117] L.F. Cranor, A framework for reasoning about the human in the loop, in: Proceedings of the 1st Conference on Usability, Psychology, and Security, 2008, pp. 1–15.

[118] H.V. Singh, Q.H. Mahmoud, Human-in-the-loop error precursor detection using language translation modeling of HMI states, in: SMC, 2020 pp. 2237–2242.

[119] G. Demartini, S. Mizzaro, D. Spina, Human-in-the-loop artificial intelligence for fighting online misinformation: Challenges and opportunities, Bull. Tech. Committee Data Eng. 43 (3) (2020) 1–10.

[120] D. Odekerken, F. Bex, Towards transparent human-in-the-loop classification of fraudulent web shops, in: Legal Knowledge and Information Systems, 2020, pp. 239–242.

[121] S. Brostoff, M.A. Sasse, Safe and sound: a safety-critical approach to security, in: Proceedings of the 2001 Workshop on New Security Paradigms, 2001, pp. 41–50.

[122] A. Machiry, R. Tahiliani, M. Naik, Dynodroid: An input generation system for android apps, in: Proceedings of the 2013 9th Joint Meeting on Foundations of Software Engineering, 2013, pp. 224–234.

[123] A. Kovashka, D. Parikh, K. Grauman, Whittlesearch: Interactive image search with relative attribute feedback, IJCV 115 (2) (2015) 185–210.

[124] L. Rosenberg, Artificial swarm intelligence, a human-in-the-loop approach to AI, in: The AAAI Conference on Artificial Intelligence, 30, (1) 2016.

[125] Y. Shoshitaishvili, M. Weissbacher, L. Dresel, C. Salls, R. Wang, C. Kruegel, G. Vigna, Rise of the hacrs: Augmenting autonomous cyber reasoning systems with human assistance, in: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, 2017 pp. 347–362.

[126] M.S. Wogalter, Communication-human information processing (C-HIP) model, in: Forensic Human Factors and Ergonomics, 2018, pp. 33–49.

[127] L. Ma, Towards understanding and simplifying human-in-the-loop machine learning, 2018, p. 1.

[128] M.A. Salam, M.E. Koone, S. Thirumuruganathan, G. Das, S. Basu Roy, A human-in-the-loop attribute design framework for classification, in: WWW, 2019, pp. 1612–1622.

[129] B.A. Plummer, M.H. Kiapour, S. Zheng, R. Piramuthu, Give me a hint! navigating image databases using human-in-the-loop feedback, in: WACV, 2019, pp. 2048–2057.

[130] F. Wrede, A. Hellander, Smart computational exploration of stochastic gene regulatory network models using human-in-the-loop semi-supervised learning, Bioinformatics 35 (24) (2019) 5199–5206.

[131] M. Böhme, C. Geethal, V.-T. Pham, Human-in-the-loop automatic program repair, in: ICST, 2020, pp. 274–285.

[132] A. Renner, Designing for the Human in the Loop: Transparency and Control in Interactive Machine Learning, (Ph.D. thesis), University of Maryland, College Park, 2020.

[133] J.B. Davidson, R.B. Graham, S. Beck, R.T. Marler, S.L. Fischer, Improving human-in-the-loop simulation to optimize soldier-systems integration, Applied Ergon. 90 (2021) 103267.

[134] H.O. Demirel, Digital human-in-the-loop framework, in: International Conference on Human-Computer Interaction, 2020, pp. 18–32.

[135] M. Metzner, D. Utsch, M. Walter, C. Hofstetter, C. Ramer, A. Blank, J. Franke, A system for human-in-the-loop simulation of industrial collaborative robot applications, in: CASE, 2020, pp. 1520–1525.

[136] A. Polisetty Venkata Sai, Information Preparation with the Human in the Loop, (Ph.D. thesis), TU Darmstadt, 2020.

[137] Z. Zhu, Y. Lu, R. Deng, H. Yang, A.B. Fogo, Y. Huo, Easierpath: An open-source tool for human-in-the-loop deep learning of renal pathology, in: Interpretable and Annotation-Efficient Learning for Medical Image Computing, 2020, pp. 214–222.

[138] N. Li, S. Adepu, E. Kang, D. Garlan, Explanations for human-on-the-loop: A probabilistic model checking approach, in: Proceedings of the IEEE/ACM 15th International Symposium on Software Engineering for Adaptive and Self-Managing Systems, 2020, pp. 181–187.

[139] P. Wiriyathammabhum, D. Summers-Stay, C. Fermüller, Y. Aloimonos, Computer vision and natural language processing: recent approaches in multimedia and robotics, ACM Comput. Surv. 49 (4) (2016) 1–44.

[140] A. Holzinger, B. Malle, A. Saranti, B. Pfeifer, Towards multi-modal causability with graph neural networks enabling information fusion for explainable AI, Inf. Fusion 71 (2021) 28–37.

[141] S. Arora, P. Doshi, A survey of inverse reinforcement learning: Challenges, methods and progress, Artificial Intelligence 297 (2021) 103500.

[142] A. Doan, A. Ardalan, J. Ballard, S. Das, Y. Govind, P. Konda, H. Li, S. Mudgal, E. Paulson, G.P. Suganthan, et al., Human-in-the-loop challenges for entity matching: A midterm report, in: Proceedings of the 2nd Workshop on Human-in-the-Loop Data Analytics, 2017, pp. 1–6.

[143] J. Li, A.H. Miller, S. Chopra, M. Ranzato, J. Weston, Dialogue learning with human-in-the-loop, ICLR (2016) 1–23.

[144] H. Amirpourazarian, A. Pinheiro, E. Fonseca, M. Ghanbari, M. Pereira, Quality evaluation of holographic images coded with standard codecs, IEEE Trans. Multimed. (2021) 1.

[145] S. Wan, Y. Hou, F. Bao, Z. Ren, Y. Dong, Q. Dai, Y. Deng, Human-in-the-loop low-shot learning, IEEE Trans. Neural Netw. Learn. Syst. 32 (7) (2021) 3287–3292.

[146] L. Yang, Q. Sun, N. Zhang, Z. Liu, Optimal energy operation strategy for we-energy of energy internet based on hybrid reinforcement learning with human-in-the-loop, IEEE Trans. Syst. Man, Cybern.: Syst. (2020)

1–11.

[147] Y. Fu, X. Zhu, B. Li, A survey on instance selection for active learning, Knowl. Inf. Syst. 35 (2) (2013) 249–283.

[148] J. Zhang, P. Fiers, K.A. Witte, R.W. Jackson, K.L. Poggensee, C.G. Atkeson, S.H. Collins, Human-in-the-loop optimization of exoskeleton assistance during walking, Science 356 (6344) (2017) 1280–1284.

[149] Y. Tay, M. Dehghani, D. Bahri, D. Metzler,

[150] J. Kreutzer, S. Riezler, C. Lawrence, Offline reinforcement learning from human feedback in real-world sequence-to-sequence tasks, in: SPNLP, 2021, pp. 37–43.

[151] A. Smith, V. Kumar, J. Boyd-Graber, K. Seppi, L. Findlater, Closing the loop: User-centered design and evaluation of a human-in-the-loop topic modeling system, in: IUI, 2018, pp. 293–304.

[152] A. Kapoor, J.C. Caicedo, D. Lischinski, S.B. Kang, Collaborative personalization of image enhancement, IJCV 108 (1–2) (2014) 148–164. 380

[153] J.-S. Jwo, C.-S. Lin, C.-H. Lee, Smart technology–driven aspects for human-in-the-loop smart manufacturing, Int. J. Adv. Manuf. Technol. 114 (5) (2021) 1741–1752.

[154] B. Settles, Closing the loop: Fast, interactive semi-supervised annotation with queries on features and instances, in: EMNLP, 2011, pp. 1467–1478.

[155] T.Y. Lee, A. Smith, K. Seppi, N. Elmqvist, J. Boyd-Graber, L. Findlater, The human touch: How non-expert users perceive, interpret, and fix topic models, Int. J. Hum.-Comput. Stud. 105 (2017) 28–42.

[156] N.M. Marquand, Automated Modeling of Human-in-the-Loop Systems, (Ph.D. thesis), Purdue University Graduate School, 2021.

[157] J.J. Dudley, P.O. Kristensson, A review of user interface design for interactive machine learning, ACM Trans. Interact. Intell. Syst. (TiiS) 8 (2) (2018) 1–37.

[158] K. Shilton, Values and ethics in human-computer interaction, Found. Trends® Hum.–Comput. Interaction 12 (2) (2018).

[159] A. Jolfaei, M. Usman, M. Roveri, M. Sheng, M. Palaniswami, K. Kant, Guest editorial: Computational intelligence for human-in-the-loop cyber physical systems, IEEE Trans. Emerg. Top. Comput. Intell. 6 (1) (2022) 2–5.

[160] W. Xu, M.J. Dainoff, L. Ge, Z. Gao, Transitioning to human interaction with AI systems: New challenges and opportunities for HCI professionals to enable human-centered AI, Int. J. Hum.–Comput. Interaction (2022) 1–25.

[161] K. Zhou, Z. Liu, Y. Qiao, T. Xiang, C. Change Loy, Domain generalization: A survey, 2021, arXiv:arXiv:2103.15053

(参考文献可上下滑动查看)

「人机协同的智能时代」读书会

集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「人机协同的智能时代」读书会。本次读书会将探讨:

人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?

读书会计划从6月21日开始,每周六晚19:00-21:00进行,预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。

详情请见:人类与机器的智慧碰撞:人机协同的智能时代读书会启动

推荐阅读

1. 前沿进展:多智能体系统中社会规范如何涌现?

2. 当AI读懂脑电波:人机协同的创意设计新浪潮

3. Nat. Commun. 速递:基于卫星图像测量经济发展的人机协作方法

4. 游戏化科研——让我们突破内卷、共研涌现

5. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)

6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人在环路 机器学习 数据标注 人机交互 智能系统
相关文章