Sora“满月”了，但不止一个AI在新生_科技前沿_行业聚焦

可能是科技史上最密集的AI动态发布月

来源：澎湃新闻·澎湃号·湃客时间：2024-03-18 作者：流川

分享到：

2月22日，谷歌宣布将暂停Gemini的人物图像生成，努力解决与Gemini图像生成功能相关的最新问题；将很快重新发布改进版本。

此前，Gemini在图片中生成了各种性别、种族的人群，即使生成的结果与史实不符，例如以“美国开国元勋华盛顿”为主题的图片中，出现了妇女和有色人种。

3月2日，50岁的谷歌联合创始人谢尔盖·布林在加州的“AGI之家”与企业家们进行了交谈，谈及此事时评价道：“我们在图像生成方面搞砸得很彻底，我认为这主要由于没有进行彻底的测试。出发点是好的，但结果却让很多人感到沮丧。”

谷歌发布基础世界模型Genie

2月27日，谷歌发布了生成式AI的全新范式——生成式交互环境（Genie，Generative Interactive Environments）。

Genie是一个110亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境。GenieAI是一个利用互联网视频训练的基础世界模型，可以从合成图像、照片甚至素描中生成无限多的可玩（可控制动作的）世界。它的使用范围广泛，可以用于从图像或文本生成整个互动世界，是训练未来通用AI代理的有利工具。

蚂蚁集团推出百灵大模型

2月28日，蚂蚁集团推出20亿参数多模态遥感基础模型SkySense，其论文已被世界计算机视觉顶会CVPR 2024接收。

数据显示，SkySense在17项测试场景中指标均超过国际同类产品，这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense可用于地貌、农作物观测和解译等，有效辅助农业生产和经营。

潞晨科技复现Sora并开源

3月4日，国内著名开源团队Colossal-AI（潞晨科技旗下）根据Sora技术报告、VideoGPT、扩散Transformers等资料，复现了Sora模型架构方案并将其开源——Open-Sora。

值得一提的是，Colossal-AI还将复现成本降低了46%，同时将模型训练输入序列长度扩充至819K patches。目前，Open-Sora在Github超过1200颗星。

Midjourney封禁Stability AI：恶意爬取数据，致服务器瘫痪24小时

3月7日，Midjourney封禁Stability AI引发了一场关于数据安全和道德责任的争议。事件起因于Stability AI的数据收集工程师对Midjourney服务器发起了恶意攻击，导致其服务中断24小时。尽管Stability AI CEO Emad声称公司并未授权此行为，但Midjourney决定暂时封禁其员工使用其软件。

华为诺亚发布0.6B文生图模型PixArt-Σ，可直出4K图像

3月10日，华为诺亚方舟实验室联合多个研究机构共同开发的项目，推出了一款名为PixArt-Σ的扩散变换器模型（DiT）。

PixArt-Σ 的进步有两个方面。一是高质量训练数据，引入了更高质量的图像数据，配合更精确和详细的图像标题；二是高效的token压缩：在DiT框架内提出了一个新的注意力模块，能够压缩键和值，显著提高效率，从而支持超高分辨率图像的生成。

这些改进使得PixArt-Σ在模型大小（0.6B参数）上远小于现有的文本到图像扩散模型，如SDXL（2.6B参数）和SD Cascade（5.1B参数），同时在图像质量和用户提示遵循能力上都有了显著提升。此外，PixArt-Σ生成4K图像的能力，为电影和游戏等行业的高质量视觉内容制作提供了强大支持。

Pika推出自动生成音效功能Sound Effects

3月11日，Pika 发布了全新的功能Sound Effects，实现了视频和音效的无缝生成。用户可以通过简单的操作，通过描述prompt或让 AI 自动生成音效，为视频增添更多氛围。

Sound Effects的操作十分简单，用户只需一个 prompt或简单的描述就能生成音效，使视频更加生动。通过选择不同的音效，用户可以为视频增添各种声音，从车鸣声到烟花声，音效都与视频画面高度匹配。此外，用户还可以在生成视频后，针对单个视频添加音效，提升视频质量和趣味性。

Midjourney发布角色一致性新功能

3月12日，Midjourney推出了一项新功能，使得在生成多张图片时，能够保持同一人物的一致性。通过使用“-cref”（角色参考）标签，可以保留输入图片中的角色特征，使得在不同场景中的脸部特征、体型和服装保持一致。

关键词:openAI sora 独角兽算力融资人工智能芯片浏览量：9301

声明：凡本网注明"来源：仪商网"的所有作品，版权均属于仪商网，未经本网授权不得转载、摘编使用。
经本网授权使用，并注明"来源：仪商网"。违反上述声明者，本网将追究其相关法律责任。
本网转载并注明自其它来源的作品，归原版权所有人所有。目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。如有作品的内容、版权以及其它问题的，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。
本网转载自其它媒体或授权刊载，如有作品内容、版权以及其它问题的，请联系我们。相关合作、投稿、转载授权等事宜，请联系本网。
QQ：2268148259、3050252122。