⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-14 更新
Towards Test Generation from Task Description for Mobile Testing with Multi-modal Reasoning
Authors:Hieu Huynh, Hai Phung, Hao Pham, Tien N. Nguyen, Vu Nguyen
In Android GUI testing, generating an action sequence for a task that can be replayed as a test script is common. Generating sequences of actions and respective test scripts from task goals described in natural language can eliminate the need for manually writing test scripts. However, existing approaches based on large language models (LLM) often struggle with identifying the final action, and either end prematurely or continue past the final screen. In this paper, we introduce VisiDroid, a multi-modal, LLM-based, multi-agent framework that iteratively determines the next action and leverages visual images of screens to detect the task’s completeness. The multi-modal approach enhances our model in two significant ways. First, this approach enables it to avoid prematurely terminating a task when textual content alone provides misleading indications of task completion. Additionally, visual input helps the tool avoid errors when changes in the GUI do not directly affect functionality toward task completion, such as adjustments to font sizes or colors. Second, the multi-modal approach also ensures the tool not progress beyond the final screen, which might lack explicit textual indicators of task completion but could display a visual element indicating task completion, which is common in GUI apps. Our evaluation shows that VisiDroid achieves an accuracy of 87.3%, outperforming the best baseline relatively by 23.5%. We also demonstrate that our multi-modal framework with images and texts enables the LLM to better determine when a task is completed.
在Android GUI测试中,为任务生成一个动作序列,可以重播作为测试脚本是很常见的。从自然语言描述的任务目标生成动作序列和相应的测试脚本,可以消除手动编写测试脚本的需求。然而,基于大型语言模型(LLM)的现有方法往往难以识别最终动作,并且要么过早结束,要么超过最终屏幕继续执行。在本文中,我们介绍了VisiDroid,这是一个基于LLM的多模式多主体框架,它可以迭代地确定下一个动作,并利用屏幕视觉图像来检测任务的完成情况。多模式方法在两个重要方面增强了我们的模型。首先,这种方法使其能够避免仅根据文本内容提供误导任务完成指示时过早终止任务。此外,视觉输入有助于工具在GUI更改不直接影响任务完成功能时避免错误,例如字体大小或颜色的调整。其次,多模式方法还确保工具不会超出最终屏幕的范围,这可能会缺少任务完成的明确文本指示,但可能会显示表示任务完成的视觉元素,这在GUI应用程序中是很常见的。我们的评估表明,VisiDroid的准确率达到了8.3%,相对于最佳基线提高了23.5%。我们还证明,我们的图像和文本相结合的多模式框架使LLM能够更好地判断任务何时完成。
论文及项目相关链接
PDF Change the method and experimentation
摘要
在Android GUI测试中,生成可重播为测试脚本的任务动作序列很常见。从自然语言描述的任务目标生成动作序列和相应的测试脚本,可消除手动编写测试脚本的需求。然而,基于大型语言模型(LLM)的现有方法往往难以识别最终动作,要么提前结束,要么超过最终屏幕继续执行。本文介绍了VisiDroid,一个基于LLM的多模式多代理框架,可迭代确定下一个动作并利用屏幕视觉图像检测任务的完成情况。多模式方法在两个重要方面增强了我们的模型。首先,该方法避免了仅使用文本内容时因误导性任务完成指示而提前终止任务。此外,视觉输入有助于工具避免在GUI更改不影响任务完成时避免错误,例如调整字体大小或颜色。其次,多模式方法确保工具不会超出最终屏幕,最终屏幕上可能没有明确的文本指示任务完成,但可能会显示表示任务完成的视觉元素,这在GUI应用程序中很常见。我们的评估表明,VisiDroid的准确率达到了87.3%,相对于最佳基线提高了23.5%。我们还证明,我们的具有图像和文本的多模式框架使LLM能够更好地确定任务何时完成。
关键见解
- 在Android GUI测试中,生成可重播的测试脚本动作序列是常见的,这有助于消除手动编写测试脚本的需求。
- 基于LLM的现有方法在识别任务最终动作时常常遇到困难,可能过早结束或超出最终屏幕。
- VisiDroid是一个基于LLM的多模式多代理框架,利用视觉图像检测任务的完成情况,提高了准确性。
- 多模式方法通过避免误导性的文本内容和利用视觉输入来增强模型的性能。
- 视觉输入有助于工具识别GUI更改是否影响任务完成,例如字体大小和颜色的变化。
- 多模式方法确保工具不会超出最终屏幕,能够识别表示任务完成的视觉元素。
点此查看论文截图




