05月15日周三

💡 谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

谷歌在2024年的I/O开发者大会上展示了其最新的人工智能技术，包括多模态大模型Gemini的更新、Project Astra智能体、视频生成模型Veo以及文本到图像生成模型Imagen 3。此外，谷歌还发布了第六代TPU芯片Trillium，以支持其AI技术的进一步发展。谷歌与OpenAI在AI领域展开了全面竞争，尤其是在多模态交互体验方面。

来源：机器之心

💡 效率高、成本低，从单一结构到平衡分布，微软AI分子预测框架登Nature子刊

微软研究院科学智能中心的研究人员开发了一种深度学习框架，称为分布式图分析器（Distributional Graphormer，DiG），用于预测分子结构平衡分布。DiG通过模拟退火过程将均匀分布转变为复杂分布，实现平衡分布的独立采样，并提供分布的密度函数。DiG在蛋白质构象采样、配体结构采样、催化剂吸附物采样和性质引导结构生成等多个分子任务中表现出色，为分子科学开辟了新的研究机会。相关研究已发表在《Nature Machine Intelligence》上。

来源：机器之心

💡 保守派大溃败？ OpenAI内斗幕后推手离职阿尔特曼：这让我很难过

OpenAI联合创始人兼首席科学家伊利亚•苏茨克沃宣布将离开公司，并将在未来分享他的新项目。苏茨克沃在OpenAI工作了近十年，被认为是机器学习领域的顶尖学者，与图灵奖得主杰弗里•辛顿共同开发了Alexnet神经网络。OpenAI同时宣布，研究总监雅克布•帕可斯基将接替苏茨克沃成为新任首席科学家。此外，OpenAI的商业化步伐正在加速，推出了新的人工智能模型GPT-4o和ChatGPT桌面版本，以及更新的用户界面。

来源：科创板日报

💡 通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互

OpenAI最新发布的多模态大模型GPT-4o引起了广泛关注，其极短的音频输入反应时间、能感知人类情绪、以及像真人一样进行聊天的能力，使得它在AI人机交互领域可能成为新的竞争焦点。Meta和苹果也在积极探索类似的交互技术，如Meta的Camerabuds项目和苹果可能与OpenAI达成的协议，这些都显示了AI技术在语音交互方面的快速发展和竞争。华福证券的报告指出，GPT-4o确立了AI语音助手的基础，包括低延迟、情绪感知和视觉感知能力，这些特性使得AI语音助手更接近人类之间的交流方式，未来AI技术的竞争可能会更多地集中在提供更自然的交流模式和提高用户体验上。

来源：科创板日报

💡 你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

谷歌公司在 I / O 2024 开发者大会上宣布，为 Gemini 推出名为“Gems”的个性化选项，允许用户定制 Gemini 助手角色。这个功能让用户可以调整 Gemini 的定位，例如成为健身伙伴、副厨师、编码伙伴或创意写作指导等。用户可以通过 Gems 功能调整 Gemini 的特定特征，以帮助完成某些任务。这种功能类似于 OpenAI 的 GPT Store 和 Character.AI，允许用户制作定制的 ChatGPT 聊天机器人或与虚拟的流行人物和名人交谈。

来源：IT之家

💡 腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

腾讯宣布旗下的混元文生图大模型进行升级并对外开源，该模型现在已在 Hugging Face 和 Github 上发布，包含模型权重、推理代码和模型算法等完整内容，供企业和个人开发者免费商用。混元文生图大模型升级后采用了中英双语 DiT 架构，这是首个中英双语的 DiT 架构，具有中英文细粒度理解能力。该模型能够与用户进行多轮对话，并根据上下文生成并完善图像。混元 DiT 模型支持中英文双语输入和理解，参数量为 15 亿。运行该模型需要支持 CUDA 的英伟达 GPU，最低显存要求为 11GB，如果同时运行 DialogGen（腾讯推出的文本转图像多模态交互式对话系统）和混元 DiT，则至少需要 32GB 的显存。腾讯已经在 Linux 上测试了英伟达的 V100 和 A100 GPU。国内首个官方“大模型标准符合性评测”结果显示，腾讯混元大模型成为首批通过评测的国产大模型之一。

来源：IT之家

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】5月15日周三

05月15日周三

💡 谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

💡 效率高、成本低，从单一结构到平衡分布，微软AI分子预测框架登Nature子刊

💡 保守派大溃败？ OpenAI内斗幕后推手离职阿尔特曼：这让我很难过

💡 通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互

💡 你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

💡 腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

当前位置： 资讯中心 /快讯/文章详情/

【每日AI快讯】5月15日 周三

05月15日 周三

💡 谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

💡 效率高、成本低，从单一结构到平衡分布，微软AI分子预测框架登Nature子刊

💡 保守派大溃败？ OpenAI内斗幕后推手离职 阿尔特曼：这让我很难过

💡 通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互

💡 你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

💡 腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】5月15日周三

05月15日周三

💡 保守派大溃败？ OpenAI内斗幕后推手离职阿尔特曼：这让我很难过