大模型架构创新已死？

作者：小编　日期：2024-09-15 21:04:32　点击数：

　　大模型架构创新已死？起初，前阿里技术VP贾扬清，盆友圈爆料吐槽：有大厂新模型就是LLaMA架构，但为了表示不同，通过改变开源代码名字、替换几个变量名……一石激起千层浪，更晚一些时候，“大厂”被与零一万物关联，其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。零一万物很快给出了说明和回应。但热议并未就此平息，甚至围绕大模型原创、自研的标准，开始被更进一步争论。因为就在Yi-34B首次推出后，迅速横扫了各项中英文评测榜单，在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。贾扬清爆料之后，一封Hugging Face的邮件也对外曝光了，邮件核心内容，就是Yi模型与已经开源的LLaMA架构上存在重合，虽然张量命名不同，但按照开源社区的规则和规范，需要作出调整。第二，大模型的研发中，模型结构只是模型训练的一部分，还有包括数据工程、训练方法、baby sitting（训练过程监测）的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中，由于实验执行需求对代码做了更名，所以处于尊重开源社区的反馈，将代码进行更新，也为更好融入Transformer生态。零一的回应，有人表示理解，比如开源社区领袖Stella Biderman，就认为说谁抄袭LLaMA是无稽之谈，因为所有做大模型研发的团队，现在都几乎“华山一条路”了。他认为大模型主流架构，就是一个“天下诗歌不断抄”的过程。LLaMA的架构抄的Chinchilla，chinchilla抄的Gopher，Gopher抄的GPT3……每个都是一两行的改动。但需要强调的是，大模型的创新或不同，核心应该关注的是训练方法和数据配比——而这些并不会反映在架构上。以及如果严格来论，目前国内的自研大模型，不论是零一万物的Yi，还是百川智能的Baichuan，或者阿里旗下的通义千问，架构上和LLaMA都是一致的。另一则广为流传的讨论，来自猴子无限的尹伯昊，他表示自己亲手玩过各类模型，自己也大模型从业，可以说说自己的看法。第一，目前使用LLaMA架构已经是开原模型的最优解。因为LLaMA开源大模型已经实现了断崖式领先，有了大量工具链。国内外各种大模型的预训练，也都是保持了相同或相似的架构。第二，相同的架构可以做出完全不同的模型，因为大模型的训练是一个充分的系统工程，考察的因素有很多，最后的能力和效果也与这个系统工程息息相关PP电子平台。从现在的趋势来看，开源大模型生态的发展，其实有统一的架构，对于业内更多开发者的切换利大于弊。因为基本上国际主流大模型都是基于Transformer的架构；而后对attention、activation、normalization、positional embedding等部分做一些改动工作。有圈内团队举例，好比让不同的厨师都去做北京烤鸭，原材料和步骤定然是大同小异的（架构）；而最终决定谁做出来的北京烤鸭更好吃，区别更多的是在于厨师本身对火候、烹调技术的掌握（数据参数、训练方法等）。而这种讨论，几乎也打破了圈外对于热潮中“大模型创新”、“国产大模型”的某些期待，认为大模型的研发，可以完全另起炉灶。OpenAI用GPT-3彻底点燃了大模型架构基础，LLaMA在GPT基础上作出了总结并且对外开源，其后更多的玩家，沿着他们的藩篱前行。零一万物在最新的声明中也表示，GPT/LLaMA 的架构正在渐成行业标准。其后开源阵营中，Android在谷歌的大力扶植中上位，成功成为开源世界的第一名，并在其后真正成为了几乎“唯一的一个”。但现在，大模型热潮中，国产玩家其实面临机遇，如果能在初期就能被全球开发者认可，那最后获得话语权和更长远定义权的，一定是生态最强的那个玩家。

上一篇 : 手机的利于弊下一篇 : 手机的利与弊心得体会8篇

随便看看

19 2024-03

手机对人的危害　手机是现代人离不开的日常用品，但它也带来了一系列的危害。首先，长时间使用手机会对人的视力造成伤害，容易导致近视甚至眼睛...
16 2024-02

PP电子官网并非判断手机的唯一标准很多时候你看到的均有水分　PP电子官网并非判断手机的唯一标准很多时候你看到的均有水分你们有没有想过一台手机的并不是“来自这台手机的，而更多的是品...
18 2024-02

PP电子喜讯！衡阳市第十四中学思政辩论赛首战告捷　PP电子喜讯！衡阳市第十四中学思政辩论赛首战告捷2023年5月30日衡阳市第三届中小学思政辩论赛石鼓赛区中学组初赛在衡...
21 2024-01

PP电子官方网站十款强机十大卖点热门智能机优势对决　PP电子官方网站十款强机十大卖点热门智能机优势对决Android系统的开放性使得目前市面上绝大多数智能手机都采用了这...

大模型架构创新已死？

PP电子(中国)官方网站

关于PP电子

新闻动态

产品展示

解决方案