# AI及信息技术应用2024年9月15日简报

## 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行认知任务，如学习、推理、解决问题和感知。

## 核心洞察（TL;DR）
- OpenAI发布全新模型Strawberry，提升AI推理能力。
- Mistral推出多模态模型Pixtral 12B，支持图像和文本处理。
- Chai-1模型发布，用于分子结构预测，加速药物研发。

## 关键事实与数据
- 关键事实1: OpenAI的o1模型Strawberry在推理能力上有所提升。
- 关键事实2: Mistral的Pixtral 12B模型支持图像和文本输入。
- 关键事实3: Chai-1模型能够预测蛋白质、小分子、DNA、RNA等生物分子结构。

## 正文
AI及信息技术应用2024年9月15日简报
=====================

在上周AI产业及应用研究领域，OpenAI发布了全新o1模型Strawberry，显著提升AI推理能力。Mistral推出了多模态模型Pixtral 12B，而LLaMA-Omni实现了低延迟大语言模型语音交互。此外，HeyGen推出Avatar 3.0，OnlyFans用户数突破3.05亿。在产品市场创新方面，蚂蚁集团推出“支小宝”，百度升级聊天机器人小言，Salesforce推出AI销售代理工具。YouTube推出“Ask Music”生成式AI功能。在合规和监管方面，Telegram更新平台加强用户保护，Meta更新社交媒体AI标签，引发透明性与用户体验平衡讨论。Chai Discovery公司发布了Chai-1模型，开启生物分子相互作用解码新篇章。

**1，AI产业及应用研究**
---------------

Chai-1发布：开启生物分子相互作用解码新篇章  
\[摘要\]：Chai Discovery公司近日发布了Chai-1，这是一款用于分子结构预测的多模态基础模型，其在药物发现相关任务中表现出色。Chai-1能够统一预测蛋白质、小分子、DNA、RNA及其共价修饰等。该模型通过网页界面免费提供，包括商业应用如药物发现。此外，模型权重和推理代码作为软件库免费供非商业使用。Chai-1在多个基准测试中表现优异，如单序列模式下准确预测多聚体结构，为生物科学向工程学转变开辟新路径。

Chai Discovery 推出革命性 AI 模型 Chai-1，用于药物开发  
\[摘要\]：Chai Discovery 宣布发布 Chai-1，这是一个专为分子结构预测而设计的最新 AI 模型，旨在加速药物研发。Chai-1 在某些基准测试上表现优于 Google DeepMind 的 AlphaFold，并具有预测蛋白质、小分子、核酸等生物分子结构的能力。通过与 OpenAI 和 Thrive Capital 的合作，Chai Discovery 已获得近 3000 万美元的资金支持。Chai-1 的发布标志着药物开发领域的里程碑，将有助于加速新药和疗法的发现与开发

OpenAI发布全新o1模型Strawberry，显著提升Al推理能力

\[摘要\]：在今天的OpenAI 01团队AMA中，OpenAI详细介绍了其最新的01系列模型。01模型包括两个版本：01-mini和01-preview，专注于强化学习和链式思维（CoT）推理。01-mini更快，适合科学和技术任务，尤其擅长代码生成；而01-preview在复杂任务中表现更佳。团队还分享了未来将推出的多模态支持、扩展上下文处理、API工具调用等新特性。总体来看，01系列模型通过结合多项技术创新，提升了AI的思考深度和任务处理能力。

Mistral 推出其首款多模态模型 Pixtral 12B

\[摘要\]：法国 AI 创企 Mistral 正式发布其首个多模态 AI 模型 Pixtral 12B。该模型基于此前的文本模型 Nemo 12B，并新增了 4 亿参数的视觉适配器，支持同时处理图像与文本输入，适用于图像标注、物体计数、图像分类等任务。Pixtral 12B 可通过 GitHub 和 Hugging Face 下载，初步用于学术研究，未来计划提供商业许可证和 API 测试平台。

LLaMA-Omni 实现低延迟大语言模型语音交互

\[摘要\]：LLaMA-Omni 是一款专为低延迟语音交互设计的大语言模型架构，基于 Llama-3.1-8B-Instruct 模型，能够同时生成文本和语音响应，响应延迟低至 226 毫秒。该模型结合了预训练语音编码器、语音适配器和流式语音解码器，并通过 InstructS2S-200K 数据集进行训练，包含 20 万条语音交互数据。LLaMA-Omni 的训练时间少于 3 天，仅需 4 个 GPU，展示了未来语音-语言模型高效开发的潜力。  
  
HeyGen 推出 Avatar 3.0，实现更具表现力的数字人物

\[摘要\]：HeyGen 最新推出的 Avatar 3.0 技术大幅提升了数字人物的表现力和真实性。此版本提供了更高的自定义功能，用户可以根据需求调整角色的外观和动作。这项技术进一步优化了实时面部捕捉与渲染性能，广泛应用于虚拟会议、营销广告及创意内容制作中，显著改善用户的互动体验。

OnlyFans 创作者增长至 410 万，用户数突破 3.05 亿

\[摘要\]：OnlyFans 平台在 2023 年实现了显著增长，创作者人数达 410 万，同比增长 29%，而用户数也攀升至 3.05 亿，较去年增加了 28%。用户付费收入达到了 66 亿美元，较上一年增长近 19%。公司利润同样增长显著，达到 4.85 亿美元，所有者 Leonid Radvinsky 也从中分得了 4.72 亿美元的股息。尽管平台以成人内容为主，但其正努力扩展到其他领域，如健身、烹饪和音乐等

Glean Technologies Inc. 以 46 亿美元估值融资 2.6 亿美元

\[摘要\]：Glean Technologies Inc. 以 46 亿美元的估值成功筹集了超过 2.6 亿美元，用于增强其企业 AI 平台并推动全球扩张。该公司由前谷歌工程师于 2019 年创立，最初作为公司搜索引擎推出，现在提供 AI 助手和定制应用构建平台。

Jina AI 发布了两个小型语言模型 Reader-LM-0.5B 和 Reader-LM-1.5B  
\[摘要\]：Jina AI 推出了两个新型小型语言模型 (SLM)：Reader-LM-0.5B 和 Reader-LM-1.5B。这两个模型专为从嘈杂的 HTML 源文件中提取内容并生成干净的 Markdown 而设计，支持多语言处理，具备 256K token 的上下文长度。尽管体积小巧，它们在处理复杂网页内容方面的表现超越了更大的 LLM 同类产品，展示了极高的效率和性能。

Google发布DataGemma开放模型，解决AI幻觉问题  
\[摘要\]：Google发布了一组名为DataGemma的开放模型，旨在通过连接Data Commons中的现实世界数据，利用检索交错生成（RIG）和检索增强生成（RAG）技术来改进大语言模型（LLM）的准确性。Data Commons是一个包含数以亿计统计变量的数据图谱，DataGemma将其整合，减少AI生成虚假信息的几率。目前DataGemma处于早期测试阶段，主要面向学术和研究用途，还未投入商业应用。

Phind 推出基于 Meta Llama 3.1 405B 的全新旗舰模型 Phind-405B

\[摘要\]：Phind 推出了其最新的旗舰模型 Phind-405B，基于 Meta 的 Llama 3.1 405B 语言模型，参数达 4050 亿。Phind-405B 在编程任务评估 HumanEval 上的得分达 92%，与 Claude 3.5 Sonnet 表现相当。Meta 通过改进的数据预处理和训练后质量管理，使 Llama 3.1 系列在多个领域表现优异。Phind-405B 的推出表明开源模型逐渐追赶封闭模型，并具备与顶尖大模型竞争的能力

NVIDIA 推出 ACE 微服务，为数字人和生成 AI 提供新支持

\[摘要\]：NVIDIA 推出了 ACE（Avatar Cloud Engine）微服务，旨在通过 RTX AI 电脑和笔记本实现数字人技术的广泛应用。该服务包括语音识别、面部动画等 AI 技术，赋能医疗、零售等行业的人机交互体验。通过与 Aww Inc. 和 ServiceNow 等企业合作，NVIDIA 正在推动虚拟助手和多语种 AI 非玩家角色（NPC）的应用，使其更具互动性和个性化。这一技术已在 COMPUTEX 2024 上展示，受到广泛关注

Salesforce 发布 AI 自主代理平台 AgentForce

\[摘要\]：Salesforce 于周四推出了 AgentForce，这是一款由 AI 驱动的自主代理平台，旨在通过自动化任务来提升企业各部门的运营效率。AgentForce 依靠其 Atlas 推理引擎，能够模拟人类的思维和决策过程，自动执行从客户服务到业务管理的各种操作。该平台通过低代码界面支持个性化定制，还与 AWS、Google 等多家企业合作，以提供定制化的智能代理解决方案

Anthropic 发布 Quickstarts 项目，简化 Claude API 的应用开发

\[摘要\]：Anthropic 推出了 Quickstarts 代码库，帮助开发者快速构建基于 Claude 的应用。第一个项目为客户支持代理，展示了如何利用 Claude 的自然语言理解和生成能力，创建 AI 辅助的客户支持系统。开发者可以通过克隆代码库、配置 API 密钥等步骤，快速部署这些应用

DeepSeek 团队发布 DeepSeek-V2.5 模型，带来前沿功能

\[摘要\]：DeepSeek 团队发布了最新的 DeepSeek-V2.5 模型，该模型集成了 DeepSeek-Coder 和高级功能，如函数调用与 JSON 输出。该开源模型旨在提供多功能的人工智能解决方案，特别适用于编码、数据分析等任务，并且已展示出超越部分大规模模型的性能。DeepSeek-V2.5 的推出进一步巩固了其在开源 AI 领域的领先地位，为开发者和研究人员提供了更强大的工具和灵活的应用支持

阿里巴巴推出DocOwl2，提升多页文档理解效率  
\[摘要\]：阿里巴巴发布了DocOwl2，一款先进的多页文档理解模型。通过其高分辨率DocCompressor模块，DocOwl2将文档图像压缩为324个token，有效减少了GPU的使用并提升推理速度。该模型采用三阶段训练框架，涵盖单图像预训练、多图像连续预训练及多任务微调，显著提升了多页文档理解的性能。DocOwl2在相关基准测试中表现出色，特别是在减少处理延迟和内存占用方面，设立了新的技术标准

**Groq推出多模式AI模型，提升推理速度**

\[摘要\]：AI芯片初创公司Groq发布了一个尖端多模式AI模型，旨在进一步提升AI推理性能，特别是在云端部署中。该模型利用Groq的超低延迟架构，适用于包括Llama 3.1在内的开源AI模型。Groq的技术不仅支持更快的AI推理速度，还可以与其他平台无缝对接，如OpenAI，仅需几行代码即可迁移。这一创新有望进一步推动AI推理在各行业的应用

谷歌 Gemini AI 系列发布，推动生成式 AI 进展

\[摘要\]：谷歌推出 Gemini AI 系列，包括 Gemini 1 和 1.5 两个版本，标志着公司在生成式 AI 领域的新进展。Gemini 1 系列在多模态任务处理、生成能力和理解能力上表现突出，而最新的 Gemini 1.5 版本在模型的理解和生成精度上进一步提升。这些进展展示了谷歌在 AI 研究和应用上的持续创新，预计将显著推动企业和个人的智能应用发展。

Fish Speech 1.4 推出：开源文本转语音和语音克隆工具  
\[摘要\]：Fish Speech 1.4 是一款开源工具，提供快速的文本转语音和即时语音克隆服务，支持八种语言。用户可以选择自行托管或使用其云服务，定价简洁明了，适合不同需求的用户使用。

LG AI Research 推出 EXAONEPath AI 模型，优化医学图像分析

\[摘要\]：LG AI Research 推出了 EXAONEPath，这是一款开源 AI 模型，旨在提升全幻灯片图像（WSI）的分析效率，帮助医生更快、更准确地诊断癌症等疾病。传统分析方法费时且昂贵，而 EXAONEPath 通过先进的 AI 技术极大地缩短了分析时间。在测试中，该模型在癌症检测任务中取得了 0.861 的高分，优于许多现有模型

Weave 推出突破性家务机器人 Isaac

\[摘要\]：Weave 宣布其新款个人机器人 Isaac，将于 2025 年秋季发货。Isaac 可自主完成整理、折叠衣物和组织空间等家务任务，支持语音和文本指令，并可通过应用程序编程。售价 59,000 美元，或选择 48 个月分期付款，每月 1,385 美元，美国前 30 位客户需支付 1,000 美元预订费。Isaac 的推出加剧了智能家用机器人的竞争，特斯拉的 Optimus 和 1X 的 NEO Beta 等同类产品也在市场角逐。

OpenAI 投资 AI 药物研发初创公司 Chai

\[摘要\]：OpenAI 和 Thrive Capital 对初创公司 Chai Discovery 投资 3000 万美元，支持其 AI 模型 Chai-1 的研发。Chai-1 是一款先进的生化分子结构预测模型，旨在加速药物发现，并在某些基准测试中优于 AlphaFold。Chai 还提供了第一个免费开源模型，以促进科学界的合作和药物开发进步。

### **2，产品市场创新**

蚂蚁集团推出独立人工智能助手“支小宝”

\[摘要\]：蚂蚁集团在2024 INCLUSION大会上发布了新人工智能应用“支小宝”，旨在提供个性化的生活助手服务。该应用集成支付宝功能，可处理订餐、叫车等任务，并提供新闻快讯和本地建议。不过，在处理复杂任务如淘宝购物时，该应用尚显不足。此应用支持iOS和Android设备下载，同时蚂蚁集团还推出了其他三款AI产品，包括AI代理开发平台和AI健康管理师。

百度升级聊天机器人文小言，月活跃用户突破千万  
  
\[摘要\]：百度最近将其移动聊天机器人ERNIE Bot升级为文小言，成为“新搜索”智能助手，支持个性化体验和多媒体搜索。文小言能够记忆用户偏好，提供自定义的AI生成内容，并整合了图像生成与编辑等功能。据百度透露，文小言月活跃用户已超千万，70%为年轻用户。这款助手不仅允许用户通过语音、图片等方式进行多样化搜索，还能与法学硕士代理等数字化身互动。

Salesforce 推出全新 AI 销售代理工具

\[摘要\]：Salesforce 正在开发一种新的 AI 销售代理工具，旨在通过自动化和智能化销售流程，帮助企业实现更高效的销售业绩。该工具基于 Salesforce 的 AI 技术，可以通过分析客户数据、提供个性化的销售建议，并自动完成销售任务。Salesforce 的目标是让销售代理更好地理解客户需求，提高客户转化率，并减少重复的手动操作，从而大幅提升工作效率和销售结果

YouTube 推出“Ask Music”生成式 AI 功能

\[摘要\]：YouTube 正式发布了其新的生成式 AI 功能“Ask Music”。用户现在可以通过文本提示创建个性化电台，该功能基于生成式 AI 技术，为用户推荐符合其喜好的音乐。此新功能旨在提升用户体验，通过智能算法提供量身定制的音乐内容，以满足不同听众的需求。

Anthropic 推出 Claude 部署管理新功能 Workspaces

\[摘要\]：Anthropic 发布了一项名为 Workspaces 的新 API 管理功能，专为管理 Claude AI 部署设计。Workspaces 提供开发人员更细化的控制，允许他们组织资源、管理访问权限、设置费用上限及速率限制。这一功能有助于优化开发、测试和生产环境中的 Claude 部署，提升整体管理效率。目前，Workspaces 已在 Anthropic 的 API 控制台对所有用户开放。

Adobe Firefly 视频模型将于今年晚些时候推出文本转视频功能测试版

\[摘要\]：Adobe 宣布其 Firefly 视频模型将于今年晚些时候发布文本转视频功能的测试版。该功能允许用户通过输入简单的文本提示来生成高质量的视频短片。Firefly 模型能够根据镜头角度、运动和变焦等提示生成动态场景，并结合图像转视频功能，为创作者带来更高效的工作流程和创作自由度。Adobe 还表示，视频编辑者可以利用该技术填补镜头空缺、消除不需要的元素，并优化过渡效果

Google推出NotebookLM的新功能，利用Gemini AI将研究笔记转化为播客  
\[摘要\]：Google的NotebookLM笔记应用现已集成Gemini AI，推出了一项新功能，可将用户的研究笔记、文档和幻灯片转化为个性化的音频播客。通过AI主持人的对话，音频不仅仅是简单的文本朗读，还包括对话式解释和幽默互动，帮助用户更轻松地消化复杂内容。该功能尤其适合那些喜欢通过听觉学习的人，进一步提升了学习和研究的便捷性

Replit 推出 Replit Agent，支持通过自然语言构建应用程序  
\[摘要\]：Replit 最近推出了 Replit Agent，一款能够通过自然语言提示从零构建完整应用程序的 AI 助手。该助手不仅负责生成代码，还可以自动设置开发环境、管理依赖项、配置数据库并将应用程序部署到云端。Replit Agent 当前已向 Replit Core 订阅者提供抢先体验，旨在简化软件开发流程，降低编程门槛，并提高开发效率  
  
谷歌推出 Android 版 Gemini 免费语音模式  
\[摘要\]：谷歌宣布推出 Gemini Live 语音聊天模式，所有 Android 用户可免费使用，无需订阅高级版。这一模式允许用户通过 Gemini 应用与设备进行自然语音互动，类似于 ChatGPT 的语音聊天功能。最初仅供 Gemini Advanced 用户使用，现在已向所有 Android 设备开放，iOS 版本和更多语言支持也即将推出。该功能在 Pixel 9 发布会上首次展示，目前正逐步向所有兼容设备推广。

Clay 推出 AI 驱动的销售勘探自动化工具

\[摘要\]：Clay 是一款通过 AI 自动化销售勘探流程的工具，帮助用户简化寻找潜在客户和撰写个性化消息的过程。该平台集成了超过50个数据提供商，包括 People Data Labs 和 Hunter，提供丰富的企业和人员信息，帮助用户找到最佳的联系对象。通过 OpenAI 的技术支持，Clay 能够从现有数据中生成精确的个性化文案，并与超过200个工具兼容，如 CRM 系统和电子邮件平台，从而显著提升销售团队的效率和转化率

InteractiveDemo.ai 推出 AI 驱动的交互式屏幕演示工具  
\[摘要\]：InteractiveDemo.ai 发布了一款新的工具，利用 AI 从视频中提取关键帧并生成含有信息的弹出窗口。该工具支持智能缩放、点击暂停交互和动画元素，为用户创建引人入胜的演示，提升信息传达的效果。

**Apple推出全新Apple Intelligence功能，聚焦隐私与智能工具**

\[摘要\]：Apple在6月首次推出的Apple Intelligence现已升级，提供了写作校对、照片管理等智能工具，重点保障用户隐私。新功能包括邮件优先级提示、智能回复、语音助手Siri的上下文理解，以及通过相机控制按钮实现的视觉智能。Apple Intelligence还支持自定义图像生成（Genmoji）及自然语言照片搜索。该功能将帮助用户提升日常任务效率，同时确保数据安全，Siri也变得更加智能和直观

### **3，合规和监管**

**Telegram 更新平台以加强用户保护**

\[摘要\]：在创始人 Pavel Durov 被捕后，Telegram 对其平台进行了重要更新，包括在常见问题解答中突出显示“报告”按钮，以允许用户向版主举报非法内容。该公司还删除了“附近的人”功能，以遏制机器人和诈骗者。此举反映了 Telegram 在面临重大挑战时对用户保护的重视。

Meta 更新社交媒体 AI 标签，引发透明性与用户体验平衡讨论  
\[摘要\]：Meta 宣布对其社交平台（包括 Instagram、Facebook 和 Threads）上 AI 修改内容的标签进行调整。AI 信息标签将移至内容菜单中，减低其可见度，但完全由 AI 生成的内容仍将在用户姓名下明确标注。这一调整旨在提高透明度，回应摄影师对“AI 制作”标签的误解，同时也引发了对 AI 技术日益复杂化可能导致误导用户的担忧

---
## 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://haxitag.com/brief/ai-brief-20240915-ai2024915-v2](https://haxitag.com/brief/ai-brief-20240915-ai2024915-v2)
**来源索引（站内可追溯）**：[麦肯锡](https://haxitag.com/search?q=%E9%BA%A6%E8%82%AF%E9%94%A1)、[普华永道](https://haxitag.com/search?q=%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93)、[Gartner](https://haxitag.com/search?q=Gartner)、[IDC](https://haxitag.com/search?q=IDC)、[Forrester](https://haxitag.com/search?q=Forrester)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。