6月6日,面壁智能正式发布并开源了「面壁小钢炮」端侧系列模型MiniCPM 4.0 模型。英特尔与面壁智能从模型开发阶段紧密合作,通过硬件感知的草稿模型优化策略,结合英特尔加速套件与KV Cache内存增强技术,实现端到端推理效率的2.2倍提升。此次,面壁推出的MiniCPM 4.0系列LLM模型拥有 8B、0.5B 两种参数规模,针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式。
目前,具有CPU、GPU、NPU三个AI运算引擎的英特尔酷睿Ultra处理器已迅速对此适配,并借助OpenVINO™ 工具套件为MiniCPM 4.0系列模型提供优化的卓越性能表现。英特尔再次在NPU上对模型发布提供第零日(Day 0)支持,为不同参数量模型和应用场景提供更多样化的、更有针对性的平台支持。
长上下文窗口的技术创新方面,在保证输出质量的前提下,英特尔首次在基于英特尔锐炫™ Pro B60上将长上下文窗口扩展至128K。相较于稠密模型,首Token延迟降低了38%,Token速率提升多达3.8倍,经过这样的提升,一整部300多页的哈利波特小说,可以在90秒内完成阅读、分析和总结。这为解锁更多端侧AI新应用建立了基础。
配资论坛提示:文章来自网络,不代表本站观点。