手机浏览器扫描二维码访问
在稀疏这一方向上,孟繁岐选择了细粒度,矩阵层面的稀疏。
DS则选择了通道层面的MoE,混合专家模型。
简单来说,DS选择把模型拆分为1632个专家,就像是把一块蛋糕均分切成1632块。
每一块都是不同的味道,每一个专家更加专注于不同的知识。
根据具体的情况,会有一个门控系统,来决定哪些专家参与计算。
而孟繁岐的野心更甚,他想要从根本上将整个模型在原子级别拆分,细粒度地对所有权重进行大刀阔斧地裁减,直到原本大小的1632分之一。
从理论上说,这种方式的上限更高,MoE的稀疏更显得粗糙。
另一方面,孟繁岐也有愿景,想要增强国内硬件的竞争力。
因为英伟达的设备,是无法支持这种细粒度稀疏计算的。
倘若能够先发展国内计算设备,适配这种技术,就能够在制程等诸多硬件技术落后的情况下,达到更快的推理效果。
换言之,孟繁岐又一次将希望寄予了发展周期更长的硬件厂商,那么在这方面被其他人赶上,倒也不是什么奇怪的事情了。
虽然具体实现上稍显不同,但总体来说,DS完成了孟繁岐在技术上的两点宏观展望。
从其余的许多技术细节当中,孟繁岐可以很强烈地读到,他们的开发之路走得也并不顺利。
比如说混合专家MoE,很容易让一两个专家变成懂王,什么都要参与,很多其他的专家渐渐变成了挂件,貌似在参与,其实完全就是围观的观众。
如果增加额外的损失函数去调整它们,既增加了大量计算量,又极有可能影响到训练的主要目标本身。专家们的调度问题这个小问题影响到模型的能力这个主要问题。
DS最终完美地解决了这个问题,既没有额外增添损失计算优化,又使得各专家实现了负载均衡。
孟繁岐相信,这个最终简洁优雅的技术方案背后一定存在许多努力与艰辛。
而现在的closeai对这种付出是越来越排斥的。
比起花费许多的努力在某一个算子上优化20-30%的速度,他们更愿意多用一些显卡,多花一些时间。
既然英伟达暂时不直接支持FP8做这样的操作,那就先等等吧。
诸如此类的事情持续累积,使得后来者已经实质上实现了相当数量的技术超越,甚至是在孟繁岐较为关注的技术方向上。
而DeepSeek的坦率开源,也让孟繁岐动摇了closeai是否继续闭源的想法。
“若是我适当裁减一些已经沉迷安乐的技术人员,逐渐走向开源,对比海对面的OpenAI倒也算是奇景了。”孟繁岐想到这里也是笑出了声。
自从两国关系逐渐微妙,CloseAI的在美使用就收到了限制。原本标榜开源的OpenAI逐渐走向闭源,而最初就闭源盈利的CloseAI反而在考虑拥抱开源盛世。
这倒也称得上是另一种双向奔赴了。
同一时刻,比起一直在关注技术细节的孟繁岐,普通人更为在意的,则是R1这个模型,首次揭露了前沿高性能智能思考问题的逻辑脉络。
我是导演,我不比烂 我睡后混成大明星 神豪:抽奖万亿,清纯校花当场跪舔! 导演的快乐你不懂 都市桃花医仙 百妖食谱:论妖兽的烹饪技巧 没有前世的我,只好成为在世剑仙 年代:小日子过的真好 变成幼龙被女团捡到,我震惊全网 四合院之我是许多年 从轻小说作家开始的完美人生 学渣被家访,老爹竟是文坛巨佬 重筑2005 真话系统:我成了反向选秀顶流 家族修仙:我能看到提示 万族之尊 李念洛薇 我在美国开诊所 我有十万亿舔狗金 超品兵王在都市
穿越到海贼世界,罗德得到可以抽取天赋能力的神器知识之书。剑斩天地,掌控雷霆,行走空间,信仰之力铸造地上神国!神恩如海,神威如狱。来到这个世界,就注定无敌于世。...
已完结,新书求支持!小神医魂穿女尊王朝,原主臭名昭著,残暴不仁,身后留下一堆烂摊子。家徒四壁,茅屋漏雨,粮缸又已见了底。面对美貌的夫君,又瞅瞅丑不拉叽的自己,她狂奔在一条通往钢牙小白兔的康庄大道上!敢觊觎她夫君?揍,没有拳头解决不了的事情!如果有,那就接着揍!穷?医术,香粉,布艺,美食,酒庄,生意做起来,铺子开...
...
作为普通人的许易穿越到神学院的世界,表示压力山大!然而许易意外激活身体里的无限系统,得而穿越各种不同的幻想世界,影视,动漫,小说一切应有尽有。许易面色淡漠,仰视苍天,忽然开口我要这天,再遮不住我眼。我要这地,再埋不了我心。要这众生,都明白我意。要那诸佛,全都烟消云散。苍天mdzz,老子招你惹你啦!...
(都市热血小说)叶龙曾是世界上公认的文武奇才,所到之处,再强大的敌人也得望风而逃。然而,就是这样的叱咤风云人物却突然放弃耀眼光环,回到灯红酒绿的都市保护大小姐!他性格冷酷张狂,为达到目的不择手段!凭借惊人的本能和超人的智力,在繁华的天骄市上演一场激情四射的热血人生!PS本书读者群128492045(豆丹家族)...
万人追更,火爆爽文农村小子偶然获得神农传承,从此一飞冲天,成为人中龙。带领大家走上一条致富路。...