10人俩月搞出大模型！一年16篇顶会论文加持：市面上做得好的都没有开源

2024-10-16 19:21

作者：衡宇

来源：量子位

一家今年5月份成立在深圳的公司，团队至今不到10人。

他们要做的却不是小事：挑战AGI。

底气在哪？一看过往履历，二看现在赛道的成绩。

这几个人近一年中，累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文，其中一篇还拿下了顶会ACL 2023的最佳论文提名。

创业后的成绩如何？成立两个月后，所训模型杀入C-Eval榜单前三，中文能力击败ChatGPT和Claude-v1.3。

这就是共生矩阵拿出的成绩。

并且旗下模型GS-LLM七月末首次上榜至今，在C-Eval榜单65个上榜选手中，一直处于第一梯队。

那么，共生矩阵是谁？

10个人挑战AGI

共生矩阵，目标立足自研AGI技术，打造行业数据精炼工厂。

团队所依托的主要是自研大模型GS-LLM。

模型参数规模从7B-130B不等，能根据用户的实际需求量体裁衣。

在C-Eval上占据一席之地的有基于GS-LLM的两个版本，一个是百亿参数版本的GS-LLM-Beta，另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是发现不少使用者，原有的运作环境（甚至云端环境）不足以支撑大体量的本地部署。

测试结果发现，几十亿版本的GS-LLM-Beta就可以发挥不错的性能，在C-Eval上最好排名达到第6。

能够常驻C-Eval榜单前列的原因之一，是共生矩阵搭建了一套完全独立的训练框架，对整个训练构成比较完备的技术支撑。

第二个点在数据，这是这家公司格外重视的一点。

共生矩阵CEO张林举了个简单的例子：

把模型训练比作人的成长过程。如果他从小看的都是没有营养的小说，这个人的总体能力不会太强。

去年团队在一个实验中发现，当模型数据达到某一数量级时，数据质量的跃升反而能引起一些质变。

“也就是说，有一个相对小体量（如百亿级别）的模型，喂给它高质量的数据，训练出来的结果和千亿级别的结果是很接近的。”张林说。

这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。

其实这点近期越来越引起各界注意，微软就有一项新研究《Textbook are all you need》，工作表示，做大不是唯一的出路，高质量的数据才是至关重要的。

于是乎，共生团队构建了一套清洗数据的工程化体系，24小时持续清洗数据。

团队目前清洗出的可以用于训练的文本数据，大约有20T，“这个量级能够支撑非常大体系的模型训练”。

不过张林也透露，短期内共生矩阵不会对外公开团队清洗出的数据。

那么，团队想打造的数据精炼工厂又是什么概念？

张林解释，如果把大模型理解为“信息的压缩”，那么它本身就是一个体量很大的参数数据库。

数据精炼工厂要做的事，就是将模型训练好后的参数数据进行共享和交易。

要知道，大模型的功能是通过参数来承载的，交易参数其实就是切换功能，我们需要大模型功能的多样性，“参数交易是最高效的路径”。

这里指的数据不是大家看得到的那种数据，而是参数数据。我们常说的数据是一段文本、一张图片，而工厂拥有的数据是模型训练好的参数，对参数进行商业化交易。

“原始数据直接进行交易，受到量级大、隐私问题等掣肘。”张林解释，数据交易的概念已经提了很多年了，但并没有完全被市场接受，团队认为想要数据真正流通起来，需要更合理、安全、有效，因此最终确定了参数层面的数据交易。

在团队设想中，数据精炼工厂跑通后，部分数据不用重复训练，效率提升，成本也可降低。

用更少的人和资源把大模型体系做好

大模型热潮中，如何评价大模型成为重要问题，这也是各类榜单雨后春笋出现的原因。

共生矩阵上榜C-Eval后，外界聚焦来的目光主要有2点：

除了成绩不错外，另一个惹人关注的点是，他们是榜上少见的小型团队。

团队表示，榜单并不是全世界唯一最权威，但成立一个月开始上榜，一度杀进前三，能够反映“我们用更少的人和资源把大模型体系做好”。

没错，共生矩阵团队只有不足10人。

人不多，但都挺能打——

CEO张林、CTO王军杰等团队中的核心都出自IDEA研究院，在国内封神榜预训练模型开源体系工作中有丰富实战经验（据悉，封神榜目前已有超过98个开源预训练模型）

张林本人博士毕业于美国纽约州立大学，在计算机国际顶会上发表过三十多篇论文，此前是粤港澳大湾区数字经济研究院（IDEA）资深高级研究员。

王军杰则是早稻田大学的计算机博士，此前是封神榜大模型团队的核心成员。

△张林

纵观当下的AI市场，小团队搞好AI并不是没有先例，最负盛名的文生图模型Midjourney背后，只有11个成员，被称为新时代组织的标杆。AI 2.0时代，国内外也出现了诸多讲求“小而美”的大模型创业团队。

当然，张林表示更深层原因，是因为大模型不是简单堆人力的项目，需要少数精英式团队以保证效率。

他表示训练模型时，技术层面如算子优化、混合精度等，以及背后几百张卡同时支持时通信层面的问题，都非常考验工程能力。小团队如果能将遇到的工程性问题解决，提高效率，不必靠大团队解决。

另外，技术核心小团队更有利于保持思想独立性，不墨守成规以探索更多可能性，堆人力反而容易降低整体效率。

据他预估，全国大模型领域顶尖的人才“加起来可能也就100人左右”，也没什么组建大团队的空间。

因此，团队将在一定时间内保持“不足十人”这个规模。

归根结底，这是对AI 2.0时代与AI 1.0时代背后范式和理念的理解不同。

交流过程中，张林还很直接地表达了团队在另一层面与主流声音的不同理解，它体现在开闭源理念上。

前段时间，免费可商用的LLaMA-2一出，不少人都表示这对市面上的创业公司将是巨大打击，因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。

“LLaMA-2并没有改变市场格局。”共生团队眼中，真正领先的团队并不会开源核心技术。

张林还补充道在当前阶段，开源的意义更多在于教育市场，而非推动商业化。

就像树莓派对电子发烧友有意义，但不会改变手机电脑市场一样，LLAMA 2对入门级用户较有价值,但对要做商业化的用户影响不大。

像这样带点“非主流”的观点和理解，共生矩阵还有不少。

比如不认为大模型就是通用AI的终点，也不认为ChatGPT代表终极方向

他们对独角兽式快速扩张也持谨慎态度，更重视团队凝聚和技术积淀。

……

对于未来的发展路线，共生矩阵选择短期内先闭源，未来在合适的机遇下可能适当开源。

开源需要有明确的商业驱动目标,当前大模型技术仍处于快速迭代和竞争阶段，开源核心技术有丧失先发优势的风险。

10人俩月搞出大模型！一年16篇顶会论文加持：市面上做得好的都没有开源

最新发布

热点资讯

标签