项目概述
Bytebot 是一个自托管的 AI 桌面代理,让你用自然语言驱动一台属于它自己的计算机。项目的目标是把传统仅限浏览器或 API 的自动化,扩展到完整的桌面环境,从而覆盖真实办公场景。它运行在容器化的 Linux 桌面中,能够像人一样看屏幕、移动鼠标、键入、下载与整理文件,使用浏览器、邮件、办公套件、IDE 等应用,配合密码管理器登录站点,跨程序完成多步流程。相较 RPA 或脚本,Bytebot 无需为每个系统编写脆弱的集成,具备更强的适应力与可迁移性;自托管也带来更好的数据控制与安全。对于需要自动执行复杂电脑任务的团队,这是一个轻量而强大的选择。
项目统计
项目概况
3286 Stars |
271 Forks |
3286 Watchers |
8 Issues
开源协议: Apache License 2.0 |
创建于: 2025-02-03 |
更新于: 2025-09-02
技术栈
该项目主要使用 TypeScript 开发,占代码库的 92.1%。此外还包含 Dockerfile (2.3%)、CSS (2.0%)、Smarty (1.5%)
核心功能
- 自主桌面:在容器化的 Linux 虚拟桌面中运行,拥有独立文件系统与应用环境,隔离且可复现,像“远程同事”一样为你办公。
- 自然语言驱动:用一句话下达指令即可自动解析并执行,也可通过对话澄清需求,无需编写脚本。
- 全能应用操作:可打开浏览器、邮件客户端、办公套件、IDE 等任意桌面软件,跨应用协同完成多步流程。
- 人类式交互:看屏幕、动鼠标、敲键盘,表单填写、拖拽、右键菜单等细节操作都能可靠处理。
- 文件与数据处理:下载、整理、重命名与归档文件;读取并处理文档、PDF、电子表格,自动化重复任务。
- 安全登录:配合密码管理器登录网站与本地应用,稳健应对需要多因素或会话维护的场景。
- 复杂流程自动化:在不同程序间来回切换,保持上下文与状态,执行长链路、多步骤的业务与运维流程。
- 可部署与托管:支持 Docker 快速启动,也可一键部署到 Railway,自托管更安心、可控。
- 持续进化:更多功能特性正在不断完善中。
技术架构
Bytebot 采用 TypeScript/Node.js 作为核心编排层,运行于容器化的 Linux 桌面环境(Docker,亦支持一键部署至 Railway)。整体架构自上而下分为:交互与 API、智能体编排、动作与观察、桌面运行时、存储与隔离。
- 交互与 API:提供 Web/UI 与 HTTP 接口,将自然语言转为结构化任务请求。
- 智能体编排:基于大模型进行意图解析、步骤分解、工具选择与重试/回退策略。
- 动作与观察:键鼠控制、窗口管理、屏幕截图与 OCR/文档解析,形成“感知—行动—评估”的闭环。
- 桌面运行时:容器内完整 Linux 桌面与文件系统,可运行浏览器、办公套件、IDE 等,并通过远程桌面协议呈现。
- 存储与隔离:使用容器文件系统、凭据管理(如密码管理器)与审计日志,实现最小权限与可追溯。
设计理念强调可观察性、可扩展性与确定化:操作可记录回放,工具以插件化方式暴露,便于扩展新应用与工作流。典型流程为:用户请求 → 编排规划 → 桌面执行一步 → 采集屏幕/文件反馈 → 评估与下一步 → 直至完成。
使用指南
前提:安装 Docker/Compose。
安装与启动
git clone https://github.com/bytebot-ai/bytebot
cd bytebot && cp .env.example .env
编辑 .env:
PROVIDER=OPENAI
OPENAI_API_KEY=sk-xxx
MODEL=gpt-4o
BYTEBOT_PASSWORD=changeme
启动:
docker compose -f docker/docker-compose.yml up -d
使用
- 访问 http://localhost:3000(控制台)与 http://localhost:6080(桌面),用 BYTEBOT_PASSWORD 登录。
- 新建任务,输入指令示例:“在浏览器登录邮箱,下载最新账单并汇总为CSV”,在桌面实时观察执行。
常用命令
docker compose logs -f
docker compose pull && docker compose up -d
docker compose down -v
总结评价
Bytebot 以容器化 Linux 桌面为载体,将“有自己电脑的代理”理念落地,支持跨应用多步操作、文件系统与密码管理等,较传统浏览器代理更接近真实办公场景。TypeScript 实现、Docker/Railway 一键部署降低了试用门槛。Star 3k+ 显示出早期热度,社区反馈积极但仍在积累中。适合自动化重复桌面流程与端到端集成验证。需关注资源占用、长流程稳定性与安全隔离。建议从低风险用例小范围试点,明确任务边界与审计机制,再逐步扩展。后续可在可观测性、策略约束与插件生态上深化。