手机浏览器扫描二维码访问
?每次只用一条数据来更新参数。
?好处:快,而且因为有“随机性”,能跳出局部低谷。
?坏处:路径会抖动,就像你在碗底不断乱蹦,但平均方向是对的。
3小批量梯度下降(i-batchgradientdecent)
?折中方案,每次取几十到几百条数据更新。
?好处:速度和稳定性兼顾。
?这也是现代深度学习中最常用的做法。
所以你可以把梯度下降想象成:
?批量:像一个人走路前先把所有地图看清楚。
?随机:像一个盲人摸索着走,虽然乱七八糟,但大方向对。
?小批量:像一个人拿着指南针,每次用部分信息修正方向,既快又稳。
?
二、学习率的智慧
在梯度下降里有个很关键的参数:学习率(learngrate)。
?如果学习率太大,就像球从碗的一边跳到另一边,永远落不到底,甚至越跳越高。
?如果学习率太小,就像蚂蚁往碗底爬,虽然方向正确,但走到天荒地老也到不了底部。
所以,人类在调参时,其实就是在控制“学习节奏”。
这跟人学习知识很像:
?学得太快,不扎实,容易反弹。
这章没有结束,请点击下一页继续阅读!
?学得太慢,效率低。
?最佳的学习率,就是“适度挑战,稳步前进”。
?
三、为什么说“碗”可能不是碗
你一开始用“碗”比喻很好,但在大模型里,真实情况更复杂:
?损失函数往往不是一个光滑的大碗,而是一个崎岖的山谷。
?它可能有很多小洼地(局部极小值),还有长长的平地(鞍点)。
?模型就像一个人在雾中走山路,只能靠脚下的坡度感知方向。
这时,随机梯度下降反而有好处,它带来的“抖动”能让人跳出一些小陷阱,继续往更深的谷底走。
?
四、和人的认知对比
你说“认识猫和狗”特别好,我再帮你扩展一下:
1模糊性
?人类分类不是绝对的,而是“差不多”——这就是概率思维。
?比如一辆小巧的uv和一个装甲车,它们都有四个轮子,但我们用特征加权来识别:形状、功能、用途。
2迭代修正
?小孩第一次见到“猫”,可能把“狗”也叫猫。
?随着父母纠正,小孩在心里不断“调整参数”,逐渐收敛到更准的概念。
盗墓:无故失忆后我直接发癫 穿越之异世奇遇迹 银镜通古今,侯府真千金带崽开挂了! 黑芒科技之途 叶尘:重生在赘婿逆袭之路 尸之仙 穿越兽世,日日扶腰求放过 重回1978都市放牛 吞天仙根 迷雾中的真相:侦探手记 女将带球跑后,死对头一夜哭白头 夺我灵根骂我狠?先天绝情圣体已成! 我是赵梦凡 重生后被亿万富豪逼婚,渣男傻眼 海贼:洛克斯时代第一剑豪! 开局校花太太向我道歉,东京末日 玉孤 崩坏:从西琳开始捕获小小律者 开局表白女神,一剑震撼万族 神谕之十二生肖
已完结,新书求支持!小神医魂穿女尊王朝,原主臭名昭著,残暴不仁,身后留下一堆烂摊子。家徒四壁,茅屋漏雨,粮缸又已见了底。面对美貌的夫君,又瞅瞅丑不拉叽的自己,她狂奔在一条通往钢牙小白兔的康庄大道上!敢觊觎她夫君?揍,没有拳头解决不了的事情!如果有,那就接着揍!穷?医术,香粉,布艺,美食,酒庄,生意做起来,铺子开...
18岁那年,我娘被我爹打死,然后我爹娶了个和我一样大的后娘进门。7天后,我娘爬出棺材,敲开了我父亲的门欢迎关注我的微博大家看的时候记得先登陆(QQ号直接登陆就可以了!)然后点一下封面下面的推荐按钮!加更规则200个钻石加一更!单独打赏两个玉佩加一更!一个皇冠加五更!关键词阴娘最新章节阴娘小说阴娘全文阅读...
作为普通人的许易穿越到神学院的世界,表示压力山大!然而许易意外激活身体里的无限系统,得而穿越各种不同的幻想世界,影视,动漫,小说一切应有尽有。许易面色淡漠,仰视苍天,忽然开口我要这天,再遮不住我眼。我要这地,再埋不了我心。要这众生,都明白我意。要那诸佛,全都烟消云散。苍天mdzz,老子招你惹你啦!...
李逸飞,大唐前太子李贤之子,因其父被武则天毒害,从小就被逍遥老人收养,十年之后,学艺有成的李逸飞下山报仇,最后经过与武则天的一番较量终于将女皇降服,成功光复李唐江山,揽江山美人于一身,享受人间帝王之风流。...
...
当秦奋手机微信摇出了天庭朋友圈,他发现自己的人生变了,但天庭的变化更惊悚。想要金点子,行,拿东西来换,我不挑食。超市,串串香,等一系列熟悉的东西对原有的天庭造成了冲击。秦奋看着天庭的物产,发现自己似乎要发了。种田,数钱,好多事要做。我是先吃蟠桃呢,还是九转金丹。签已过,人品嘛,我很有节操可以吗?求点求收求票票,求包...