2月22日,谷歌宣布将暂停Gemini的人物图像生成,努力解决与Gemini图像生成功能相关的最新问题;将很快重新发布改进版本。
此前,Gemini在图片中生成了各种性别、种族的人群,即使生成的结果与史实不符,例如以“美国开国元勋华盛顿”为主题的图片中,出现了妇女和有色人种。
3月2日,50岁的谷歌联合创始人谢尔盖·布林在加州的“AGI之家”与企业家们进行了交谈,谈及此事时评价道:“我们在图像生成方面搞砸得很彻底,我认为这主要由于没有进行彻底的测试。出发点是好的,但结果却让很多人感到沮丧。”
谷歌发布基础世界模型Genie
2月27日,谷歌发布了生成式AI的全新范式——生成式交互环境(Genie,Generative Interactive Environments)。
Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。GenieAI是一个利用互联网视频训练的基础世界模型,可以从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的)世界。它的使用范围广泛,可以用于从图像或文本生成整个互动世界,是训练未来通用AI代理的有利工具。
蚂蚁集团推出百灵大模型
2月28日,蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,其论文已被世界计算机视觉顶会CVPR 2024接收。
数据显示,SkySense在17项测试场景中指标均超过国际同类产品,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense可用于地貌、农作物观测和解译等,有效辅助农业生产和经营。
潞晨科技复现Sora并开源
3月4日,国内著名开源团队Colossal-AI(潞晨科技旗下)根据Sora技术报告、VideoGPT、扩散Transformers等资料,复现了Sora模型架构方案并将其开源——Open-Sora。
值得一提的是,Colossal-AI还将复现成本降低了46%,同时将模型训练输入序列长度扩充至819K patches。目前,Open-Sora在Github超过1200颗星。
Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时
3月7日,Midjourney封禁Stability AI引发了一场关于数据安全和道德责任的争议。事件起因于Stability AI的数据收集工程师对Midjourney服务器发起了恶意攻击,导致其服务中断24小时。尽管Stability AI CEO Emad声称公司并未授权此行为,但Midjourney决定暂时封禁其员工使用其软件。
华为诺亚发布0.6B文生图模型PixArt-Σ,可直出4K图像
3月10日,华为诺亚方舟实验室联合多个研究机构共同开发的项目,推出了一款名为PixArt-Σ的扩散变换器模型(DiT)。
PixArt-Σ 的进步有两个方面。一是高质量训练数据,引入了更高质量的图像数据,配合更精确和详细的图像标题;二是高效的token压缩:在DiT框架内提出了一个新的注意力模块,能够压缩键和值,显著提高效率,从而支持超高分辨率图像的生成。
这些改进使得PixArt-Σ在模型大小(0.6B参数)上远小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数),同时在图像质量和用户提示遵循能力上都有了显著提升。此外,PixArt-Σ生成4K图像的能力,为电影和游戏等行业的高质量视觉内容制作提供了强大支持。
Pika推出自动生成音效功能Sound Effects
3月11日,Pika 发布了全新的功能Sound Effects,实现了视频和音效的无缝生成。用户可以通过简单的操作,通过描述prompt或让 AI 自动生成音效,为视频增添更多氛围。
Sound Effects的操作十分简单,用户只需一个 prompt或简单的描述就能生成音效,使视频更加生动。通过选择不同的音效,用户可以为视频增添各种声音,从车鸣声到烟花声,音效都与视频画面高度匹配。此外,用户还可以在生成视频后,针对单个视频添加音效,提升视频质量和趣味性。
Midjourney发布角色一致性新功能
3月12日,Midjourney推出了一项新功能,使得在生成多张图片时,能够保持同一人物的一致性。通过使用“-cref”(角色参考)标签,可以保留输入图片中的角色特征,使得在不同场景中的脸部特征、体型和服装保持一致。