手机浏览器扫描二维码访问
?每次只用一条数据来更新参数。
?好处:快,而且因为有“随机性”,能跳出局部低谷。
?坏处:路径会抖动,就像你在碗底不断乱蹦,但平均方向是对的。
3小批量梯度下降(i-batchgradientdecent)
?折中方案,每次取几十到几百条数据更新。
?好处:速度和稳定性兼顾。
?这也是现代深度学习中最常用的做法。
所以你可以把梯度下降想象成:
?批量:像一个人走路前先把所有地图看清楚。
?随机:像一个盲人摸索着走,虽然乱七八糟,但大方向对。
?小批量:像一个人拿着指南针,每次用部分信息修正方向,既快又稳。
?
二、学习率的智慧
在梯度下降里有个很关键的参数:学习率(learngrate)。
?如果学习率太大,就像球从碗的一边跳到另一边,永远落不到底,甚至越跳越高。
?如果学习率太小,就像蚂蚁往碗底爬,虽然方向正确,但走到天荒地老也到不了底部。
所以,人类在调参时,其实就是在控制“学习节奏”。
这跟人学习知识很像:
?学得太快,不扎实,容易反弹。
这章没有结束,请点击下一页继续阅读!
?学得太慢,效率低。
?最佳的学习率,就是“适度挑战,稳步前进”。
?
三、为什么说“碗”可能不是碗
你一开始用“碗”比喻很好,但在大模型里,真实情况更复杂:
?损失函数往往不是一个光滑的大碗,而是一个崎岖的山谷。
?它可能有很多小洼地(局部极小值),还有长长的平地(鞍点)。
?模型就像一个人在雾中走山路,只能靠脚下的坡度感知方向。
这时,随机梯度下降反而有好处,它带来的“抖动”能让人跳出一些小陷阱,继续往更深的谷底走。
?
四、和人的认知对比
你说“认识猫和狗”特别好,我再帮你扩展一下:
1模糊性
?人类分类不是绝对的,而是“差不多”——这就是概率思维。
?比如一辆小巧的uv和一个装甲车,它们都有四个轮子,但我们用特征加权来识别:形状、功能、用途。
2迭代修正
?小孩第一次见到“猫”,可能把“狗”也叫猫。
?随着父母纠正,小孩在心里不断“调整参数”,逐渐收敛到更准的概念。
海贼:洛克斯时代第一剑豪! 叶尘:重生在赘婿逆袭之路 吞天仙根 尸之仙 我是赵梦凡 银镜通古今,侯府真千金带崽开挂了! 夺我灵根骂我狠?先天绝情圣体已成! 穿越兽世,日日扶腰求放过 重生后被亿万富豪逼婚,渣男傻眼 神谕之十二生肖 黑芒科技之途 玉孤 盗墓:无故失忆后我直接发癫 女将带球跑后,死对头一夜哭白头 开局表白女神,一剑震撼万族 开局校花太太向我道歉,东京末日 崩坏:从西琳开始捕获小小律者 重回1978都市放牛 迷雾中的真相:侦探手记 穿越之异世奇遇迹
本文无cp文案我变绿了,也变强了。 已有完结文青诡记事,孔方世界。 谢谢大家的支持,让我们做言情界的泥石流吧!...
身世坎坷历经沧桑人间情意究竟为何物?妈妈是什么?奶奶是什么?姑姑婶婶又是什么?也许,都是女人罢了。你们给了我们生活的必须,但是她们没有给我们家庭的温暖,因此从理智上我们应该感激你们的,可是感情上很多时候是会出现偏差的。我喜欢熟女喜欢年龄稍大的女人当然是女人我都会喜欢当然是那种好女人...
穿越成修真世界的一个废柴,那还修你妹的真?一道七彩霞光之后,杨真直接吊炸天了!他看过的功法,直接满品满级,学都学不完!他炼制的丹药,不但起死回生,还能青春永驻!他锻造的武器,上打神王大帝,下捅黄泉幽狱,每一件都让天地颤栗,让神魔退避!我杨真从不装逼,因为我真牛的一批!一群542062672(已满)二群...
军少娇宠未来大小姐由作者绵绵妙创作全本作品该小说情节跌宕起伏扣人心弦是一本难得的情节与文笔俱佳的好书919言情小说免费提供军少娇宠未来大小姐全文无弹窗的纯文字在线阅读。...
一个本来庸才的学生,在一次奇遇后,居然成为傲世天才,他发现自己的身世居然是而后面还有天大的阴谋...
超凡力量回归,巫师也从历史的尘埃中再度降临,站在超凡力量回归的浪潮顶端,沙兰于尘埃和无数位面之中寻找巫师的真意,总有一天,真正的巫师将再临世间。...