8月14日周三

💡 非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

自 2023 年 12 月推出以来，Mamba 成为 Transformer 的有力竞争对手，如今阿布扎比技术创新研究所（TII）发布新开源 Mamba 模型 Falcon Mamba 7B。它无需增加内存存储就能处理任意长度序列，能在单个 24GB A10 GPU 上运行，在 Hugging Face 上可查看使用，分为四个变体模型，采用 Apache 2.0 许可证。

来源：机器之心

💡 首个支持普通话和方言混说的TTS大模型：河南话、上海话、粤语说得溜

自 GPT - 4o 出现后，中文语音合成大模型涌现，但在方言领域进展缓慢。巨人网络 AI Lab 团队构建了涵盖 20 种方言、超 20 万小时的数据集，训练出支持多种普通话方言混说的 TTS 大模型 Bailing - TTS 。采取了统一的方言 Token 规范、精细化 Token 对齐技术、层次混合专家结构、层次强化学习增强策略等创新技术。

来源：机器之心

💡 快手推出“飞船”App：基于“快意”AI 模型，主打虚拟陪伴

快手在推出可灵图生视频模型后，又发布“飞船”（Kraft）AI 对话助手。飞船是基于快手自研大模型“快意”的互动软件，用户在平台上是“船长”，有 AI 少女领航员引导，侧重于虚拟陪伴，回复速度快且语音体验逼真。用户能创建和定制专属 AI 虚拟角色，进行内容创作等，具有自然语言对话、个性化虚拟角色、内容创作辅助、高度定制化、语音交互等功能。

来源：IT之家

💡 谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景、推荐演讲技巧

在谷歌的 Pixel 9 系列手机发布会上，发布了 Gemini Live 服务，今天起面向英语的 Gemini Advanced 订阅用户开放。Gemini Live 提供移动对话体验，对标 OpenAI ChatGPT 的 Advanced Voice 模式，采用增强型语音引擎，可多轮对话，用户能打断并提问，还能选择回应声音。谷歌演示了模拟面试等场景，该服务使用 Gemini Advanced 模型，具备大型上下文窗口，但目前不支持多模态输入，此功能将于今年晚些时候推出。

来源：IT之家

💡 谷歌发布 Pixel Studio 本地 AI 文生图应用：基于 Imagen 3 模型，2 秒内生成

在谷歌的 Pixel 9 系列手机发布会上，推出全新图像生成应用 Pixel Studio ，将预装在每台 Pixel 9 系列手机上。用户可输入提示词生成图片，应用采用本地运行，基于 Imagen 3 模型，主要生成艺术风格图片，生成时间不超 2 秒，依赖 Tensor G4 SoC 芯片，若要更优内容可调用 Gemini 在云端生成，生成的图片无编辑功能，但 Gemini overlay 功能有改进。几周前苹果也发布了类似的 iPhone 人工智能图像生成器 Image Playground ，与谷歌形成竞争。

来源：IT之家

💡 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

阿里通义千问开源了 Qwen2-Audio 系列的 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct 两个模型。Qwen2-Audio 是大规模音频语言模型，有语音聊天和音频分析两种音频交互模式，能接受音频输入和语音指令，在基准数据集测试中超越先前最佳模型。

来源：IT之家

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】8月14日周三

8月14日周三

💡 非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

💡 首个支持普通话和方言混说的TTS大模型：河南话、上海话、粤语说得溜

💡 快手推出“飞船”App：基于“快意”AI 模型，主打虚拟陪伴

💡 谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景、推荐演讲技巧

💡 谷歌发布 Pixel Studio 本地 AI 文生图应用：基于 Imagen 3 模型，2 秒内生成

💡 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

当前位置： 资讯中心 /快讯/文章详情/

【每日AI快讯】8月14日 周三

8月14日 周三

💡 非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

💡 首个支持普通话和方言混说的TTS大模型：河南话、上海话、粤语说得溜

💡 快手推出“飞船”App：基于“快意”AI 模型，主打虚拟陪伴

💡 谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景、推荐演讲技巧

💡 谷歌发布 Pixel Studio 本地 AI 文生图应用：基于 Imagen 3 模型，2 秒内生成

💡 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】8月14日周三

8月14日周三