微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!
自从 ChatGPT 对外开放使用以来,微软作为 Open AI 最大的投资方,已在多次报道中重复出现。大家一致认为,ChatGPT 无疑是微软近几年做出的最为成功的一次投资决策。
今年 1 月初,微软又再次宣布,将来接下来持续向 Open AI 投资数十亿美元,以加速他们对 AI 技术的进一步突破,让世界各地人们都能享受到 AI 带来的便利。
不仅如此,微软也在该领域持续跟进研究,试图为冉冉升起的 ChatGPT 提供一把助力。
几天前,微软在 GitHub 开源了又一个重磅项目:Visual ChatGPT,为 ChatGPT 赋能,让用户能使用图像交互的方式,跟 ChatGPT 进行互动。
过去数日,在 GitHub Trending 榜单页面,该项目首屈一指,无人能与其争锋,受欢迎程度由此可见一斑。
GitHub:https://github.com/microsoft/visual-chatgpt
众所周知,目前 ChatGPT 的信息交互方式主要还是文字,虽说已经能实现写小说、改 Bug、整理文献、编写代码、撰写周报等操作,但是用久了,难免还是希望这种交互方式有进一步的提升。
用户对来自互联网上的信息感知,主要分为两种:听觉和视觉。前者主要来自于各种音视频,后者则基于文字、图片、视频等多种信息传播格式。
微软开源的 Visual ChatGPT,将 ChatGPT 的交互从单纯的文字,成功拓展到了文字+图片。
大家可别小看这个改动,这么说吧:ChatGPT 在 AI 领域画了一个圈,微软开源的 Visual ChatGPT,将这个圈的半径又向延伸了一点,让它的可玩性以及应用领域,再次获得质的突破!
对于其技术原理,微软在项目 README 中给出了一张系统架构图,直观的反馈了它的操作流程。
上面这张图片,需要拆分为左、中、右三部分来看。
左:代表的是项目 Demo 示例,在该 Demo 中,用户与 ChatGPT 进行了三次交流。
第一次交流(Q1 & A1):用户发送了一张沙发图片,ChatGPT 回复「收到」。
第二次交流(Q2 & A2):用户让 ChatGPT 将图片中的沙发替换为桌子,并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。
第三次交流(Q3 & A3):用户问 ChatGPT,图像中墙壁的颜色,ChatGPT 回答「蓝色」。
中:代表的是 Visual ChatGPT 的工作流程,在模型接收到提问(Query)后,会判断是否需要使用 VFM 进行处理。
VFM 全称是 Visual Foundation Model(视觉基础模型),像 Stable Diffusion、ControlNet、BLIP 等图像处理类模型,都属于该分类。
右:代表的是 VFM 详细处理说明,分别表示模型在接到不同消息指令时,具体的处理与答复流程。
Visual ChatGPT 在 GitHub 上的热度依旧不减,相信在未来的一到两天,项目 Star 数还会持续增加,很快突破 20000 Star,成为 2023 年初至今,增长最快的开源项目!
关于该项目的进一步技术原理分析以及应用,可查看 Visual ChatGPT 团队发布的 arvix 论文。
arxiv 论文:https://arxiv.org/abs/2303.04671