当前位置:

【每日AI快讯】7月31日 周三

什么软件好
2024-07-31 09:34:54
 103人浏览

7月31日  周三

💡 刚刚,Meta开源「分割一切」2.0模型,视频也能分割了

Meta 在 SIGGRAPH 上重磅宣布推出 Segment Anything Model 2(SAM 2),这是在去年发布的“分割一切模型”基础上的重大进步,能为静态图像和动态视频提供实时、可提示的对象分割,并将图像和视频分割功能统一。SAM 2 可分割任何对象,包括未见过的,在图像分割准确率和视频分割性能上超越以往,交互时间缩短,采用创新流式内存设计,能按顺序处理视频帧,适合实时应用。Meta 发布大型带注释数据库 SA-V 用于训练,SAM 2 开源免费,已提供 Web 演示体验地址。Meta 还介绍了构建 SAM 2 的过程,包括设计可提示的视觉分割任务、统一架构中的图像和视频分割、解决视频分割的挑战等,SAM 2 在多个方面表现出色,但仍存在一些局限性,未来还有很多工作要做。论文地址也在文中给出。

来源:机器之心


💡 又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒

AI 视频圈竞争激烈,生数科技的 Vidu 表现出色。三个月前其宣传视频惊艳网友,如今正式上线,无需申请,有邮箱即可体验。Vidu 具有文生视频和图生视频两大核心功能,生成效率高,30 秒能生成 4 秒镜头。其在图生视频中能处理大幅精准动作,解决画面崩坏问题;文生视频语义理解能力不错,能应对复杂提示。还支持动漫风格,效果惊艳,且新增角色一致性功能,方便创作梗图、表情包。Vidu 基于自研的 U-ViT 架构,复用工程化经验,团队核心成员来自清华大学,公司获多家机构融资,采取模型层和应用层两条路的商业化模式。

来源:机器之心


💡 OpenAI向部分用户开放GPT-4o语音模式 今秋将扩大至所有付费用户

美国 OpenAI 即日起向部分 ChatGPT Plus 用户推出 GPT-4o 的语音模式,该模式能提供更自然的实时对话,允许随时打断并感知响应用户情绪,但初期功能有限,比如无法使用计算机视觉功能。OpenAI 原定于 6 月底开放语音模式,最终推迟至 7 月,今年秋季将向所有 ChatGPT Plus 用户开放。目前语音模式有四种预设声音,此前因配音问题收到律师函,OpenAI 已引入新过滤器避免法律纠纷,同时仍在开发视频和屏幕共享功能,推出时间未定。

来源:科创板日报


💡 “AI信仰”摇摇欲坠?微软AI回报不及预期 股价盘后一度暴跌7%

微软发布截至 6 月 30 日的第四财季财报,营业收入、营业利润、净利润和每股收益均好于市场预期。但 Azure 云平台收入增速低于预期,AI 方面增长不如人意,致股价盘后大幅波动,最终下跌 2.7%。微软虽在 AI 增长上有部分亮点,但支出激增,智能云部门增长略不及预期。其继续增加支出以满足客户需求,与 OpenAI 紧密合作并大力投入 AI 技术,将其融入众多产品。微软的财报表现对美股科技行业有风向标作用,其核心业务增速的失望也影响了其他大型科技股股价。

来源:财联社


💡 苹果 AI 版 iOS 首日火爆:聊天秒变高情商,大模型成最强嘴替,Siri 华丽变身

随着 iOS 18.1 Beta 版上线,苹果的 Apple Intelligence 与果粉见面。首日表现火爆,Siri 华丽变身,写作功能强大,自研端侧大模型下载到设备中。报告显示其在指令遵循等任务上超 GPT-4,由庞若鸣率领的团队研发。此次更新部分功能围绕文本生成、Siri 和相册,Siri 有界面和功能更新,相册可自然语言搜索。体验有诸多条件限制,ChatGPT 暂未接入。苹果大模型叫 AFM,有端侧和云侧版本,训练用谷歌 TPU,采用一系列自研技术,部分任务超越 GPT-4,安全性良好。彭博社爆料正式版或延迟上线,分析师建议推迟 iPhone 16 发布日期。

来源:IT之家


💡 Getty 携手英伟达升级 AI 文生图服务:6 秒生成 4 张照片、提示词最多 250 个单词

Getty Images 和英伟达联合推出安全的商业文生图 AI 模型,部分基于英伟达 Edify 模型架构,性能提升,速度行业领先,6 秒能生成 4 张照片。相比此前工具,有多项关键功能改进,如生成速度翻倍、4K 生成细节增强、支持更长更详细提示、先进镜头控制,还推出了 AI 修图功能,已在 iStock 推出,不久将在 Getty Images 上线。

来源:IT之家

标签:
评论 0
登录后即可发布评论
提交