站内搜索
搜索「模型推理」:共 7 条结果
AI 产品(1)
文章(6)
让推理引擎可被“看见”:大模型推理端到端 Token 级可观测工程实践|QCon北京
## 让推理引擎可被“看见”:大模型推理端到端 Token 级可观测工程实践|QCon北京 从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里! 4 月 16 日-4 月 18 日,[QCon 全球软件开发大会](https://qcon.infoq.cn/2026/beijing/)将在北京举办。本届大会锚定 Agentic AI 时代
2026/3/26 · 6644 阅读PPIO荣获InfoQ2025 年度 AI 基础设施卓越奖
梦瑶 2025-12-25 13:58:38 近日,InfoQ「2025 中国技术力量年度榜单」正式发布,PPIO 模型服务平台凭借在分布式算力调度与模型推理加速领域的深厚技术积淀,与阿里云、腾讯云等行业巨头一并荣获「InfoQ 2025 年度 AI 基础设施卓越奖」。 作为AI行业极具影响力的年度评选,本次榜单旨在 洞察 AI 变革,见证智能未来,系统梳理并呈现过去一年在 AI 全栈创新与产业落
2026/3/13 · 3981 阅读真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文
闻乐 2026-01-19 11:59:54 大模型还能递归读上下文?? 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 让大模型轻松处理比自身上下文窗口长两个数量级的超长文本! MIT CSAIL研究团队提出了一种叫做递归语言模型RLM的长文本处理新方法,来解决上下文腐烂问题。 不修改模型架构、不升级模块设计,但能让GPT-5、Qwen-3这类顶尖模型推理层具备千万级token的超长文本处
2026/3/11 · 7282 阅读OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
闻乐 2025-12-14 14:27:09 让大模型推理像电路图一样清晰 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线? OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。 也就是Circuit Sparsity技术的开源实现。 这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言
2026/3/9 · 1265 阅读曦望发布推理GPU S3:All-in推理的国产GPU,开始算单位Token成本
十三 2026-01-27 22:41:21 推理成为主战场 在大模型产业从“能不能跑”走向“算不算得过账”的阶段,GPU 的竞争逻辑正在被重新定义。 1 月 27 日,国产 GPU 厂商曦望(Sunrise)在杭州举办首届 Sunrise GPU Summit,发布新一代推理 GPU 芯片启望 S3,并同步推出面向大模型推理的超节点方案及推理云计划。这是曦望在近一年累计完成约 30 亿元战略融资
2026/1/14 · 833 阅读做难而正确的AI Infra创新——专访国产大模型推理引擎xLLM社区负责人刘童璇
梦瑶 2025-12-02 11:46:41 在DeepSeek等国产大模型加速普及的今天,AI基础设施(AI Infra)如同数字时代的“水电煤”。然而,长期以来,这一领域的核心技术被vLLM、TensorRT-LLM等海外框架牢牢占据。随着一支年轻团队打造的xLLM在今年8月底出世,这一局面正悄然改变。 12月6日,成立仅三个月的xLLM社区将在北京举办主题为“共建开源AI Infra生态”的
2026/1/14 · 3590 阅读