微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

自从 ChatGPT 对外开放使用以来,微软作为 Open AI 最大的投资方,已在多次报道中重复出现。大家一致认为,ChatGPT 无疑是微软近几年做出的最为成功的一次投资决策。

今年 1 月初,微软又再次宣布,将来接下来持续向 Open AI 投资数十亿美元,以加速他们对 AI 技术的进一步突破,让世界各地人们都能享受到 AI 带来的便利。

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

不仅如此,微软也在该领域持续跟进研究,试图为冉冉升起的 ChatGPT 提供一把助力。

几天前,微软在 GitHub 开源了又一个重磅项目:Visual ChatGPT,为 ChatGPT 赋能,让用户能使用图像交互的方式,跟 ChatGPT 进行互动。

过去数日,在 GitHub Trending 榜单页面,该项目首屈一指,无人能与其争锋,受欢迎程度由此可见一斑。

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

GitHub:https://github.com/microsoft/visual-chatgpt

众所周知,目前 ChatGPT 的信息交互方式主要还是文字,虽说已经能实现写小说、改 Bug、整理文献、编写代码、撰写周报等操作,但是用久了,难免还是希望这种交互方式有进一步的提升。

用户对来自互联网上的信息感知,主要分为两种:听觉和视觉。前者主要来自于各种音视频,后者则基于文字、图片、视频等多种信息传播格式。

微软开源的 Visual ChatGPT,将 ChatGPT 的交互从单纯的文字,成功拓展到了文字+图片。

大家可别小看这个改动,这么说吧:ChatGPT 在 AI 领域画了一个圈,微软开源的 Visual ChatGPT,将这个圈的半径又向延伸了一点,让它的可玩性以及应用领域,再次获得质的突破!

对于其技术原理,微软在项目 README 中给出了一张系统架构图,直观的反馈了它的操作流程。

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

上面这张图片,需要拆分为左、中、右三部分来看。

左:代表的是项目 Demo 示例,在该 Demo 中,用户与 ChatGPT 进行了三次交流。

第一次交流(Q1 & A1):用户发送了一张沙发图片,ChatGPT 回复「收到」。

第二次交流(Q2 & A2):用户让 ChatGPT 将图片中的沙发替换为桌子,并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。

第三次交流(Q3 & A3):用户问 ChatGPT,图像中墙壁的颜色,ChatGPT 回答「蓝色」。

中:代表的是 Visual ChatGPT 的工作流程,在模型接收到提问(Query)后,会判断是否需要使用 VFM 进行处理。

VFM 全称是 Visual Foundation Model(视觉基础模型),像 Stable Diffusion、ControlNet、BLIP 等图像处理类模型,都属于该分类。

右:代表的是 VFM 详细处理说明,分别表示模型在接到不同消息指令时,具体的处理与答复流程。

Visual ChatGPT 在 GitHub 上的热度依旧不减,相信在未来的一到两天,项目 Star 数还会持续增加,很快突破 20000 Star,成为 2023 年初至今,增长最快的开源项目!

微软新开源项目仅用了5 天,项目突破 18000 GitHub Star!

关于该项目的进一步技术原理分析以及应用,可查看 Visual ChatGPT 团队发布的 arvix 论文。

arxiv 论文:https://arxiv.org/abs/2303.04671

文中所提到的所有开源项目与工具,已收录至 GitHubDaily 的开源项目列表中。
该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。

© 版权声明
THE END
喜欢就支持一下吧
点赞22 分享