在学界和大模型社区中,众多研究者与开发者开始关注 VLM-based GUI Agent。Claude 3.5(Computer Use)、Gemini 2.0 - Project Mariner 等商业化模型也在探索视觉 GUI agent,并通过发布或内测 API 供公众使用。这一趋势使相关技术的应用范围得以拓展,也让更多人有机会参与到该 ...