SeeAct
不活跃简介
基于大型多模态模型的通用 Web Agent 系统,能自主在任意网站上执行任务,发表于 ICML 2024,利用 GPT-4V 等视觉模型理解并操控网页。
基于大型多模态模型的通用 Web Agent 系统,能自主在任意网站上执行任务,发表于 ICML 2024,利用 GPT-4V 等视觉模型理解并操控网页。
首个基于 LLM 的通用 Web Agent 和基准测试(NeurIPS 2023 Spotlight),为构建能在真实网站上执行任务的智能体提供数据集、评估框架和基线方法。
AppAgent 是基于 LLM 的多模态智能体框架,让 AI 能够像人类一样操作智能手机应用,支持触控交互和自主探索。
完全本地化的 Manus AI 替代方案,支持自主浏览网页、编写代码和语音交互,无需任何 API 费用
Stream 开源的视觉与语音智能体框架,支持任意模型和视频提供商,利用边缘网络实现超低延迟的实时多模态 AI 交互。