WeClone:从聊天记录到 AI 数字分身
TechFoco 精选
WeClone 是一个开源工具,支持从 Telegram 等平台导出聊天记录,通过自动数据清洗、隐私过滤和模型微调,创建复刻用户说话风格的 AI 数字分身,并可一键部署到主流聊天机器人平台。

在数字时代,个人的聊天记录分散在各个平台,蕴含着独特的语言风格和表达习惯。若想利用这些数据创建一个能模仿自身风格的 AI 助手,传统流程涉及数据清洗、模型微调与部署等多个环节,技术门槛较高,过程繁琐。
核心内容

WeClone 项目旨在提供从聊天记录到数字分身的一站式解决方案。其核心流程如下:
- 数据采集与预处理:支持从 Telegram 等平台导出包含文本和图片的聊天记录。系统会自动进行数据清洗和隐私过滤,处理链接、位置、文件等多种数据类型。
- 模型微调:利用处理后的聊天历史,对大语言模型(如 Qwen2.5-VL-7B)进行微调。项目支持 LoRA/QLoRA 等高效微调技术,以捕捉用户独特的语气、幽默感和表达习惯。
- 部署与测试:训练完成的模型可一键部署到 Telegram、Discord、Slack 等聊天机器人平台。项目同时提供浏览器 Demo 用于测试,并支持 API 服务。
该工具支持在 Windows(推荐 WSL)、Linux、macOS 系统上通过 uv/pnpm 快速安装,支持本地训练、自托管和多 GPU 训练,确保数据全程隐私可控。
价值与影响
WeClone 降低了创建个性化 AI 数字分身的技术门槛。其一体化流程简化了从数据准备到服务部署的步骤,使个人用户和开发者能够更便捷地利用自身数据训练专属的 AI 助手。其对本地化与隐私保护的强调,也为注重数据安全的用户提供了可行的技术方案。


