# AI及信息技术应用2024年9月8日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，通过算法和模型实现学习、推理、感知和决策等功能。

## 2. 核心洞察 (TL;DR)
- AI领域技术创新迅速，面壁智能发布MiniCPM 3.0，阿里巴巴开源Qwen2-VL模型。
- 字节跳动推出Loopy项目，通过音频驱动静态照片生成动态视频。
- 澳大利亚发布自愿性AI安全标准清单，指引AI发展方向。

## 3. 关键事实与数据
- 关键事实1: 面壁智能发布MiniCPM 3.0，参数4B，超越GPT-3.5等模型。
- 关键事实2: 阿里巴巴开源Qwen2-VL模型，支持多语言文本理解。
- 关键事实3: 澳大利亚发布自愿性AI安全标准清单，包括10条护栏。

## 4. 深度分析正文


AI及信息技术应用2024年9月8日简报
====================

上周AI领域算法技术创新、产品创新和创业投资依然进展迅速。面壁智能发布了可在端侧运行的强力语言模型MiniCPM 3.0，阿里巴巴开源了新一代视觉语言模型Qwen2-VL。谷歌将70亿参数大模型成功在浏览器运行，为更多应用场景打开了大门。Magic AI推出了能处理1亿token的超长上下文模型，令人瞩目。同时，YouTube等平台也开始利用AI工具打击deepfake等滥用行为。法规方面，澳大利亚发布了自愿性AI安全标准清单，指引AI发展方向。

**1，AI产业及应用研究**
---------------

Claude 集成 GitHub 功能，增强企业版能力

\[摘要\]：Anthropic 宣布推出 Claude 的企业版计划，提供扩展的上下文窗口和 GitHub 原生集成功能。该功能允许开发团队将 GitHub 仓库同步到 Claude，用于代码库的分析和优化。企业版用户不仅能够享受 500K 的上下文窗口，还能借助此集成功能在 Claude 上执行代码排错和项目管理任务。此外，企业版还增加了企业级安全功能，如单点登录 (SSO) 和基于角色的访问控制，进一步提升数据管理与保护能力。

字节跳动推出 Loopy 项目，革新音频驱动动态肖像生成

\[摘要\]：字节跳动推出了名为 Loopy 的新项目，通过音频驱动静态照片生成动态视频。Loopy 不仅能够生成面部表情和头部运动，还能表现出精细的面部微表情、眼睛和眉毛的细微变化。该模型摆脱了传统音频驱动生成方法中的空间运动模板限制，基于音频自主学习运动模式，生成自然逼真的肖像动画。Loopy 的创新之处在于其无需人为干预，大幅提升了生成效率和灵活性，支持非言语动作如情感驱动的面部表情，让生成动画更加生动。

零一万物发布 Yi-Coder 系列模型，专注编码任务

\[摘要\]：零一万物推出了 Yi-Coder 系列模型，专为编码任务设计，拥有 1.5B 和 9B 参数版本。该模型支持 52 种主要编程语言，能处理长达 128K tokens 的上下文，在代码生成、理解和调试上表现显著。Yi-Coder-9B 的性能在 10B 参数以下的模型中领先，超越 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至与 DeepSeek-Coder 33B 的表现相媲美。其模型可在端侧部署，特别适用于复杂项目级代码的生成和理解。

Claude 推出 Prompt Cache 功能，显著降低 LLM API 成本

\[摘要\]：Anthropic 针对 Claude 推出的 Prompt Cache 技术，能够通过重用不同 prompts 之间的文本重叠，减少注意力机制的计算开销，显著降低 LLM 的推理成本。Prompt Cache 的核心在于提前计算并缓存常用的文本模块，结合参数化的模块结构，提升了 prompt 重用的灵活性。该技术源于 Google 与耶鲁大学联合提出的研究《Prompt Cache: Modular Attention Reuse for Low-Latency Inference》，通过 GPU 和 CPU 上的存储和推理优化，在 Llama2、Falcon 等多种模型上实现了显著性能提升，尤其是生成首个 token 的时间减少了 1.5x 至 70x。

JPEG-LM：利用规范编解码器表示的图像生成器LLM研究取得突破

\[摘要\]近期，韩晓创、Marjan Ghazvininejad、Pang Wei Koh、Yulia Tsvetkov 等人提出了一种新的图像生成方法——JPEG-LM。该方法采用自回归LLM架构，直接将图像和视频建模为通过规范编解码器（如JPEG，AVC/H.264）保存在计算机上的压缩文件。使用默认的Llama架构，无需任何视觉特定修改，即可预训练JPEG-LM生成图像。该技术有效降低了图像和视频离散化的难度，比基于像素的建模和复杂的向量量化基线更有效，尤其在生成长尾视觉元素方面具有显著优势。此项研究为多模态语言/图像/视频LLM的未来研究奠定了基础。

面壁智能发布MiniCPM 3.0：端侧模型迎来ChatGPT时刻  
\[摘要\]：面壁智能推出MiniCPM 3.0，这是一款4B参数的端侧AI模型，宣称在自然语言理解、知识、代码、数学等多项能力上超越GPT-3.5，并优于Qwen2-7B、Phi-3.5、GLM4-9B、LLaMa3-8B等模型。MiniCPM 3.0以轻量级、高性能为特点，具备强大的多领域适应性和功能扩展能力，支持工具调用、代码解释和检索增强生成，适用于广泛的应用场景。

阿里巴巴发布全新视觉语言模型Qwen2-VL

\[摘要\]：阿里巴巴旗下通义千问近日开源了新一代视觉语言模型Qwen2-VL。该模型在多个方面展现出卓越性能，包括理解不同分辨率和长宽比的图片、解析20分钟以上的长视频、操作手机和机器人的视觉智能体等。Qwen2-VL还支持多语言文本理解，覆盖多数欧洲语言、日语、韩语等。在多项视觉理解基准测试中，Qwen2-VL达到全球领先水平，甚至超越了GPT-4o等闭源模型。此次开源的包括Qwen2-VL-2B、Qwen2-VL-7B，以及发布了Qwen2-VL-72B的API。

YouTube 开发新 AI 工具以检测和防止 Deepfake 侵权  
\[摘要\]：YouTube 正在开发新的 AI 检测工具，旨在保护创作者的肖像权，防止其面部和声音在未经同意的情况下被用于其他视频。此工具将扩展其现有的内容 ID 系统以识别合成歌声，并采用新技术检测人工智能模拟创作者脸部的情况。该措施是应对深度伪造技术（Deepfake）对在线内容真实性的威胁，确保创作者的权益不受侵犯。

DeepSeek 发布 DeepSeek-V2.5，融合通用与代码能力的开源模型

\[摘要\]：DeepSeek-V2.5 是由杭州深度求索推出的全新开源AI模型，它成功融合了 DeepSeek-V2-Chat 的通用对话能力和 DeepSeek-Coder-V2 的强大代码处理能力。此模型不仅优化了对人类偏好的对齐，而且在写作任务、指令跟随等方面也实现了显著提升。DeepSeek-V2.5 已在网页端及 API 全面上线，向后兼容，为用户提供了一个更简洁、智能、高效的使用体验。此外，模型的安全性也得到了加强，支持 Function Calling、FIM 补全、Json Output 等功能，现已开源至 HuggingFace 平台

GlaiveAI 开源 Reflection Llama-3.1 70B，自主纠正错误引关注

\[摘要\]：GlaiveAI 最近开源了基于 Meta Llama 3.1 70B Instruct 的 Reflection Llama-3.1 70B 模型。该模型引入了 Reflection-Tuning 技术，使其能识别并纠正自身推理错误。Reflection 70B 在多项基准测试中超越了 GPT-4o 和 Llama 3.1 405B，但独立分析机构的评估显示，其实际表现可能未达预期。该模型由两位开发者仅用三周时间完成，引发了社区的广泛关注和讨论。

Yi-Coder：一款高效开源AI编程助手，助力开发者提升工作效率

\[摘要\]：01.AI近日推出了一款名为Yi-Coder的新型开源人工智能编程助手，专为提升代码生成、理解、调试和补全等任务的效率而设计。该工具支持52种主流编程语言，并能在处理长达128K tokens的上下文中展现出卓越性能。Yi-Coder的9B参数版本在多个代码生成基准测试中表现突出，甚至能与10B参数以下的模型相媲美。此外，Yi-Coder还在代码编辑和补全、数学问题求解等方面展现了强大的能力，其准确率在多个数学数据集中表现良好。由于其参数量相对较小，Yi-Coder易于使用和部署，适合集成到端侧应用中，为开发者提供了高效的工作助手。

Google 在浏览器中成功运行 7B+ 参数的大型语言模型  
\[摘要\]：Google AI Edge 的 MediaPipe 团队突破技术瓶颈，成功在浏览器中运行了超过 70 亿参数的大型语言模型 Gemma 1.1 7B。通过重新设计模型加载代码，并结合 WebGPU API 实现高性能模型推理，他们解决了 WebAssembly 和 JavaScript 层面的内存限制问题。此进展不仅提高了用户隐私保护和离线使用的可能性，还为在设备上运行大型语言模型铺平了道路。

Ai2 和 Contextual AI 推出首个开源混合专家语言模型 OLMoE

\[摘要\]：Ai2 和 Contextual AI 联合发布了 OLMoE，这是首个完全开源的混合专家（MoE）语言模型，拥有 10 亿个活动参数和 70 亿个总参数。OLMoE 在性能上优于同类大型语言模型，并可在常见边缘设备上运行。该模型从头开始预训练，并附带开放的数据、代码、日志和中间训练检查点，为研究人员和开发者提供了更高的透明度和可操作性。

MiniMax 推出文本转视频生成模型 video-01

\[摘要\]：MiniMax 宣布推出其新款文本转视频生成模型 video-01，该模型可以在面向消费者的 Hailuo AI 平台上使用。video-01 能够将文本描述转换为高质量的视频内容，旨在提升内容创作的效率和创意灵活性。这一创新技术将为用户提供更为直观和便捷的视频生成体验，进一步推动文本生成视频技术的发展。

Cohere 发布 Command R 和 Command R+ 改进版本

\[摘要\]：Cohere 推出了针对商业用例优化的企业级 AI 模型 Command R 和 Command R+ 的改进版本。这些新版本在性能和功能上有所提升，特别是在处理复杂业务需求和提高响应速度方面表现更佳。Command R 和 Command R+ 的改进旨在提供更高效、可靠的解决方案，以支持企业在各种场景下的智能应用需求。

LM Studio 发布 0.3.0 版本，新增多项功能

\[摘要\]：LM Studio 发布了 0.3.0 版本，新增了基于 RAG 的文档聊天功能、类似 OpenAI 的 JSON 输出支持，并实现了本地 LLM 的自动 GPU/CPU 平衡。这些更新旨在提升文档处理能力、兼容性以及资源管理效率，为用户提供更加灵活和高效的体验。

Google 推出 ShieldGemma：高级安全内容审核套件

\[摘要\]：Google 推出了 ShieldGemma，这是一款基于 LLM 的高级安全内容审核套件。该套件在识别多种类别的有害内容方面表现优于 Llama Guard 和 WildCard 等现有模型，为内容平台提供了更强大的安全防护能力。

### **2，产品市场创新**

Replit 发布 AI 编程助手 Replit Agent，助力零基础用户轻松开发应用  
\[摘要\]：Replit 公司最新推出的 Replit Agent AI 应用开发助手，利用自然语言处理技术，使得任何技能水平的用户都能轻松构建软件项目。用户仅需用日常语言描述应用构想，AI 便能生成相应的开发计划和代码。该工具支持快速原型开发，用户可随时查看和修改 AI 生成的代码，学习编程或调整功能。Replit Agent 还提供了无缝部署功能，自动处理服务器和数据库配置，简化应用上线流程，使用户能够轻松将应用发布到云端。该功能目前向 Replit Core 或 Teams 的订阅用户提供

MyAudioJournal：简化记录，洞察自我

\[摘要\]：MyAudioJournal 是一款创新的 AI 辅助日志应用，旨在帮助用户记录和分析日常思想。用户只需轻松录制每日思绪，AI 将分析并识别行为模式和情感变化，帮助用户更深入地了解自我。通过持续记录，用户能发现内在动机、恐惧及行为模式，从而实现个人成长和目标达成。MyAudioJournal 不仅是一个记录工具，更是自我发现和成长的伴侣。

You.com 获得 5000 万美元融资，Nvidia 和 DuckDuckGo 支持

\[摘要\]：人工智能搜索引擎初创公司 You.com 成功筹集 5000 万美元的融资，来自 Nvidia 和 DuckDuckGo 的支持，融资总额达到 9900 万美元。此次融资由投资机构 Georgian 领投，SBVA、Salesforce Ventures 和 Day One Ventures 参投。创始人兼 CEO Richard Socher 表示，You.com 计划不仅仅提供搜索服务，还将发展成为工作中的生产力工具，并增加 AI 代理功能，以应对来自 Google 和微软等大公司的竞争。

Anthropic推出Claude Enterprise订阅计划，为企业提供强大的AI支持

\[摘要\]：Anthropic最近发布了Claude Enterprise订阅计划，旨在为企业客户提供强大的AI支持。该计划提供了50万个令牌的上下文窗口，原生集成GitHub，并强调了企业级安全功能。这些更新将使Claude能够更好地处理和理解大量数据，从而在处理跨部门、跨项目的大型文档和代码库时提供更好的支持。Claude Enterprise还提供单点登录、基于角色的权限和管理工具等安全功能，以保护数据和团队。此外，Anthropic强调，Claude不会使用用户的对话或内容来训练AI，确保客户数据的安全。

Magic AI 推出 LTM-2-mini：处理 1 亿个标记的超长上下文模型

\[摘要\]：人工智能编码初创公司 Magic AI 推出了 LTM-2-mini，一种超长上下文模型，能够处理高达 1 亿个标记（约 1000 万行代码）。该模型专为高级代码合成和实时推理设计，优化了内存效率，为复杂编码任务提供更强大的支持。

Wyze 推出新人工智能搜索功能：简化摄像机镜头查询

\[摘要\]：Wyze 推出了新人工智能搜索功能，用户现在可以通过关键字和自然语言查询直接搜索摄像机镜头中的特定对象、人物或活动。例如，用户可以输入“卡车”、“送货员”或更详细的请求如“带我看看后院的猫”，无需手动滚动浏览记录事件。这一功能大大简化了摄像头监控的查找过程。

### **3，合规和监管**

YouTube 推出新工具保护创作者免受 AI 模仿

\[摘要\]：YouTube 正在推出新工具，以保护创作者和艺术家的声音、肖像及内容免受未经授权的 AI 模仿。新工具将扩展现有内容 ID 系统，检测 AI 生成的合成歌声和面部伪造，并加强对未经授权抓取创作者内容的防范。YouTube 还计划为创作者提供更多控制权，允许他们决定第三方如何使用其内容进行 AI 训练，以确保 AI 技术能够增强而非侵害创作者的权利。

Sutskever 的 Safe Superintelligence 公司融资 10 亿美元

\[摘要\]：OpenAI 联合创始人 Ilya Sutskever 新创办的公司 Safe Superintelligence (SSI) 宣布成功融资 10 亿美元。此轮融资由顶级投资机构 Andreessen Horowitz 和 Sequoia Capital 领投，资金将用于开发安全且可靠的尖端人工智能系统。Sutskever 与 Daniel Gross 和 Daniel Levy 等人工智能领域的知名人士合作，计划利用这笔资金组建一支顶尖团队，并获取最先进的技术，旨在确保人工智能发展的安全性和可靠性。

澳大利亚发布自愿性人工智能安全标准清单

\[摘要\]：澳大利亚政府发布了一份自愿性人工智能安全标准清单，旨在为企业提供清晰的框架，帮助其在现行法律下部署人工智能，同时为未来的强制性法规奠定基础。该清单包括10条护栏，要求企业实施内部问责、风险管理和数据治理措施，并在人工智能的使用和生成内容时保持透明度。尽管目前这些标准为自愿性质，但未来可能会成为强制性要求，以确保人工智能技术的安全和合规使用。

微软推出工具删除 Bing 搜索中的 Deepfake 色情内容

\[摘要\]：微软与 StopNCII 合作，推出新工具利用数字指纹（哈希值）从 Bing 搜索结果中删除露骨的 Deepfake 色情图片。该工具与 Facebook 和 Instagram 等平台集成，允许用户提交哈希值以防止图片在线传播。至今，微软已经处理了 268,000 张图片，旨在保护色情受害者并打击网络报复行为。

2024 年人工智能占创纪录的初创企业融资份额

\[摘要\]：根据 Crunchbase 的数据，2024 年至今，美国初创企业投资中有 35% 流向了与人工智能相关的公司，这一比例创下历史新高，超过了 2023 年的水平。这反映了人工智能领域的持续强劲增长和投资者对该领域的浓厚兴趣。

Google DeepMind 推出 AlphaProteo，用于设计定制蛋白质

\[摘要\]：Google DeepMind 刚刚推出了 AlphaProteo，这是一种突破性的 AI 系统，能够设计特定分子靶点的定制蛋白质，其结合能力比现有方法提高了 3 到 300 倍。AlphaProteo 成功为 8 个不同靶点中的 7 个设计了有效结合剂，包括癌症相关蛋白质，并在独立测试中显示能够阻止 SARS-CoV-2 感染。此技术有望加速药物研发，降低成本，为患者提供更有针对性的治疗方案。

英国批准微软与 Inflection AI 的合作

\[摘要\]：英国竞争监管机构于周三批准了微软聘用 Inflection AI 部分前员工的合作计划，并表示该交易不需进一步调查。这一批准标志着微软在人工智能领域的战略扩展，巩固了其与初创公司 Inflection AI 的合作关系。

英国人工智能警察摄像头检测超 2,000 名未系安全带者

\[摘要\]：在 7 月至 8 月期间，英国两个县的人工智能警察摄像头在三条道路上检测到超过 2,000 名未系安全带的人员，其中包括 109 名儿童。一例突出的案例中，一名幼儿未系安全带，坐在副驾驶座位上妇女的腿上。除了检测安全带，人工智能摄像头还用于监控乱扔垃圾行为，提升道路安全和环境保护。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240908-ai202498](https://www.haxitag.com/briefs/ai-brief-20240908-ai202498)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。