​面壁不只要做中国Mistral,还要超过它

面壁不只要做中国Mistral,还要超过它

时隔七十多天,面壁在发布了 MiniCPM-2B 后又带来四个特性鲜明的模型,同时它还官宣了数亿元的新融资。

此次融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。这是其成立后最大的一笔融资。这家常被拿来对标 Mistral 的公司,并不满足于只做一个 " 中国 Mistral",弹药充足后,它要把 " 打精锐 " 这件事进行到底了。

小而强,小而全:小钢炮四连发

今年二月初,面壁智能发布了 2B 参数的开源端侧模型 MiniCPM-2B,并称之为 " 小钢炮 ",在更小参数的基础上实现了 Mistral-7B、Llama2-13B 的性能。自发布以来,MiniCPM-2B 多次登顶 GitHub Trending,还收获了 HuggingFace 联合创始人 Thomas Wolf 的称赞。

时隔七十多天,面壁智能一次性发布了四个模型,我们来看看它们的表现。

多模态模型 MiniCPM-V 2.0

MiniCPM-V 2.0 是可部署在手机端的多模态大模型,规模只有 2.8B 左右,但在主流的评测中取得了很好的分数。OpenCompass 榜单,综合 11 个主流评测基准,通用能力超过 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-LV-34B。

面壁智能特别强调了 MiniCPM-V 2.0 的幻觉概率很低,与持平 GPT-4V,在评估大模型幻觉的 Object HalBench 榜单上,MiniCPM-V 2.0 是 14.5%,GPT-4V 是 13.6%。

MiniCPM-V2.0 在 OCR 能力方面,场景图片文字识别榜单 TextVQA 超越了全系 13B 量级模型,比肩 Gemini Pro。MiniCPM-V2.0 还加强了对于长图的识别和理解,以及对各种尺寸图片的兼容进行了优化,支持从 448x448 像素,到 180 万像素的高清大图,也支持 1:9 的极限宽高比。

长文本模型 MiniCPM-2B-128K

长文本已然成为大模型的一种 " 标配 ",而 MiniCPM-2B-128K 用 2B 的规模实现了 128K 长文本能力,在 InfiniteBench 榜单的平均成绩超过 Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM3-6B-128K、LWM-Text-128K,在 7B 以下的模型中做到了最好的表现。

" 长文本这件事情才刚刚开始,虽然是 2B 的模型,还是需要非常大的内存才能让模型跑起来,下一步会进一步做更加极致的技术探索,让长文本模型在端侧跑起来。"

MOE 版本 MiniCPM-MoE-8x2B MoE

MiniCPM-MoE-8x2B MoE,引入了 MoE 架构,性能增强,能让模型在原有基础上平均水平有 4.5% 的提高。相比完全从头开始训练,节省训练成本。通过 MOE 的方式,平均激活参数只有 4B,但是比 LiaMA2-34B、Gemma-7B 等模型效果都要好,推理成本仅为 Gemma-7B 的 69.7%。

" 更 Mini" 的 MiniCPM-1.2B

MiniCPM-1.2B 参数减少了一半,而能够保持仍保持上一代 2.4B 模型 87% 的综合性能,这其中涉及许多优化,例如把词表中不高频的词替换。在多个榜单测试中,MiniCPM-1.2B 综合性能超过 Qwen1.8B、llama2-7B,甚至超过 llama2-13B。

通过让 1.2B 的模型效果超过了 1.8B 的模型,实现了手机端 25tokens/s。随着模型的变小,成本、和内存占用也随之降低,相比于 MiniCPM-2.4B,MiniCPM-1.2B 内存减少 51.9%,成本下降 60%。

" 模型小了,使用场景大了 "。MiniCPM-1.2B 除了能够支持配置更低的手机,在诸如情感陪护、实时翻译等应用场景都有着广泛的应用。" 他们对于更小更强的模型都是非常期待的 "。

不止于 " 中国版 Mistral"

面壁智能 CEO 李大海将此次发布的系列模型总结为 " 小而强,小而全 ",并再次强调了面壁智能的底层逻辑:一家追求高效大模型的公司。这很容易让人联想到同样是追求高效,同样做小参数高性能模型,同样受到开源社区追捧的 " 欧洲 Open AI"Mistral。

不过面壁智能显然不想只是做第二家 Mistral,这家聚集了中国最早一批研究大模型的技术人员的公司有着自己鲜明的技术判断和产品路线。

面壁智能高效训练的方法论体现在模型训练实验科学化的思路上,在基础设施上,面壁智能很早就自研了 BMTrain 等框架来支撑大模型的训练,从而降低训练成本。

在算法层面上,面壁智能通过进行大量的 " 沙盒实验 ",对模型批次大小、超参数配置等最优训练配置进行了探索,从理论上寻找最优解,用更小的成本和代价去搞清楚规律。比如在较小参数的模型上做大量沙盒实验,通过科学化实验化的 " 炼丹 ",用小模型预估更大规模参数模型的性能、参数方案,最终实现以小博大。

" 持续研究更好的 ScalingLaw,用更大的模型压缩效果,用更少的数据训练出更好的模型、更小的模型。"

此外,在基础模型之外,面壁的另一个重点方向在 AI Agent,这也与 Mistral 很不同。

面壁智能是最早进行 Agent 研究的团队之一,ChatDev 是面壁智能联合 OpenBMB 及清华大学 NLP 实验室开源的大模型 +Agent 项目,ChatDev 就像是多个 Agent 协作运营的软件开发公司,用户指定需求后,不同角色的 Agent 进行交互式协同,产出包括源代码、环境依赖说明书、用户手册在内的完整软件。通过多智能体协作,可以在现有模型中产生更好的效果。这也就是吴恩达近期在红杉 AI 峰会上所说的 GPT3.5 + Agentic Workflow >GPT4,实际上,吴恩达在演讲中直接使用了 ChatDev 作为案例。

Agent 是面壁智能商业化的重要突破口,ChatDev 也从论文研究、开源产品,开始走向了商业化,面壁智能推出了 AI Agent 的 SaaS 化产品 ChatDev,尝试帮助软件开发者和创业者以更低成本和门槛完成软件开发工作。与此同时,面壁智能也在探索大模型 +Agent 在金融、教育、政务、智能终端等场景的商业应用落地。

OpenAI 用大力出奇迹提供了一条通往 AGI 的路径,但抵达彼岸的方法并非只有一条。在疯狂烧钱拼算力的大模型行业,仅靠单一维度的提升会出现瓶颈,而且这种提升可能会受到边际效益递减的影响。面壁智能用实验科学的方式做基础模型研究,强调高效,某种程度上追求的是一种 " 性价比 "。在相同资源的情况下,面壁可以利用 " 高效 " 的杠杆获得更高的收益。MiniCPM 系列模型已经证明了在相同的资源内把模型做得更好是可行的,接下来可以期待面壁延续这个思路,拿出 GPT-4 级别的模型产品。

相较之下,Mistral 虽然在推出了号称挑战 GPT-4 的大模型产品,但不仅在商业模式上越来越却像 OpenAI,Mistral Large 也不再开源,这让人开始质疑,拿了微软投资之后的 Mistral,是否走上了 OpenAI 的老路,最终成为微软的又一个 " 附庸 "。

如果说追求高效是面壁智能和 Mistral 相同之处,而对于 Agent 的研究投入和积累,又让面壁这家公司拥有了不同的商业化道路。从网站到 App,我们见证了互联网原生应用主要载体的变迁,在 AI 时代,Agent 具备了新的潜力,小钢炮们又成为挖掘这种潜力的最佳载体。

从对标 Mistral 、再到超越 Mistral,面壁智能或许选择了一条少有人走的路,但它已经有了足够的底气继续走下去。

相关推荐

​联想急了,豪赌AI

​联想急了,豪赌AI

121

联想急了,豪赌AI 文 | 青橙财经,作者丨方诗意,编辑丨六子 日前,在联想举办的 2024/2025 财年誓师大会上,联想集团董事长兼 CEO 杨元庆表示 将人工智能作为联想集团的新使命 ,联想...

​电瓶车高端化,暂时无解

​电瓶车高端化,暂时无解

116

电瓶车高端化,暂时无解 2024 年,新能源汽车市场的价格战,一轮比一轮汹涌。微缩版新能源——两轮电动车市场,也正在上演类似故事。 去年,两轮电动车市场双雄,雅迪控股销售量...

​七年出售近四成工厂  华润啤酒为何卖厂上瘾?

​七年出售近四成工厂 华润啤酒为何卖厂上瘾?

99

七年出售近四成工厂 华润啤酒为何卖厂上瘾? 当在白酒赛道挥毫描绘百亿蓝图时,华润啤酒主业赛道却波澜重重。4 月 16 日,北京商报记者从上海联交所公众号获悉,近十个华润啤酒...

​涉及多所高校!一批学术不端案件被通报

117

涉及多所高校!一批学术不端案件被通报 近期,经国家自然科学基金委员会监督委员会调查审议、国家自然科学基金委员会委务会议审定,国家自然科学基金委员会对相关科研不端案件...

​马云发声了,但阿里不再回到从前

​马云发声了,但阿里不再回到从前

127

马云发声了,但阿里不再回到从前 大家好,我是首席商业评论的卫明。 最近,阿里巴巴对外发声频繁。 我们之前也转发了蔡崇信接受挪威主权基金采访后的采访稿,前几天,马云又向...

​雷军不下牌桌,也曾和张小龙擦肩而过

​雷军不下牌桌,也曾和张小龙擦肩而过

76

雷军不下牌桌,也曾和张小龙擦肩而过 文 | 吴怼怼 最近,网友拍到雷军出席求伯君女儿婚礼,弯腰握手致辞新人,笑容满面。 能当司机,能开车门,还能当婚礼主持 。 雷布斯 aka 雷斯...

​擅长道歉的智己,为何迎不来自己的春天

​擅长道歉的智己,为何迎不来自己的春天

126

擅长道歉的智己,为何迎不来自己的春天 黑红也是 红 ? 我们把智驾的章节一压再压 ... 还是用了将近 6 分钟做了智驾的介绍,雷总一分钟就把智驾讲完了 ... 还是雷总效率高啊。su7 的...

​隆基苦等翻盘

​隆基苦等翻盘

76

隆基苦等翻盘 出品 | 妙投 APP 作者 | 董必政 头图 | 视觉中国 产能过剩,产品降价,行业洗牌,股价下跌,跨界者止步,充斥着整个光伏行业。 与此同时,光伏 P 型电池 PERC 已经接近发...

​省钱or搞钱?年轻人的「二手人生」全都要

​省钱or搞钱?年轻人的「二手人生」全都要

67

省钱or搞钱?年轻人的「二手人生」全都要 作者 | 成昱 从精致穷到理性省,从 买新不买旧 到积极拥抱平替,当年轻人在花钱和省钱之间越来越绞尽脑汁发挥主观能动性,二手交易市场...

​腾讯网易硬刚,要用户更要下一个十年

​腾讯网易硬刚,要用户更要下一个十年

178

腾讯网易硬刚,要用户更要下一个十年 文 | 正见 TrueView,作者 | 钟沁,编辑 | TV 就在国内暴雪游戏玩家如同面对 离婚 后的父母无所适从之时,曾在一年中频频与腾讯、阿里、字节等买...

​宁德时代也不“挑食”了

​宁德时代也不“挑食”了

170

宁德时代也不“挑食”了 The following article is from 远川汽车评论 Author 罗松松 本文来自公众号远川汽车评 论(ID:yuanchuanqiche) 2021 年 4 月,宁德时代创始人曾毓群和红杉中国创始人沈南...

​从大厂离职后,他们回到了县城

​从大厂离职后,他们回到了县城

114

从大厂离职后,他们回到了县城 文 | 听筒 Tech,作者 | 才哥,编辑 | 饶言 去年秋天,从大厂离职后,在北京工作了十多年的 80 后 郑超,突然有种无所适从的感觉。不仅在寻找新的工作...

​“刘强东”当主播,扶得起京东直播吗?

​“刘强东”当主播,扶得起京东直播吗?

179

“刘强东”当主播,扶得起京东直播吗? 京东没有带货一哥,刘强东派出 分身 。 定焦(dingjiaoone)原创 作者 | 苏琦 编辑 | 金玙璠 东哥呢,在哪里? 4 月 16 日下午 6 点 18 分,刘强东...

​对话李稻葵:Tiktok危机与跳动的博弈

97

对话李稻葵:Tiktok危机与跳动的博弈 文 | 硅谷 101 历经 4 年,美国再次对 TikTok 发难,要求 TikTok 从字节跳动剥离出售,否则就在美国禁用 TikTok。一家价值 1500 亿美元的公司,1.7 亿美国...