BatchNorm 和 LayerNorm 的区别 TL; DR 其实二者的区别一张图就可以说明了: 对于 BatchNorm,它将一个 batch 里各个抽样特征的同个下标间做标准化。也就是作用在「样本」维度上。 对于 LayerNorm,它在一个抽样的特征中做标准化。也就是作用在「通道」维度上。 BatchNorm BatchNorm 的更加明确的定义为:给出一个 batch 的输入 xBx_BxB,其输出 yyy 的计算方式为 μ 2023-01-25 学习 #深度学习
[CF1163F] 删边后的最短路 问题 如何在任删除一条边后求解图中从 SSS 到 TTT 的最短路? 方法 考虑求出图中的最短路 PPP。 如果待删除的边本身不在最短路上,则不会给结果带来任何影响。如果删除了最短路上的边,需要继续讨论。 考虑一条不经过最短路 PPP 某条边的最短路 P′P'P′。这条路线如果和 PPP 有交点,就会以 PPP 的前缀/后缀作为 P′P'P′ 的一部分(否则 PPP 就不 2022-12-20 学习 #线段树 #图论
Beam Search 算法及代码解读 我没想到第二个暴搜 tag 居然会给一篇深度学习的文章。 一般的暴搜题目没必要记,有奇妙特性和剪枝的暴搜重点往往便不再是暴搜了。以及,以前不爱写题解。结果就是占据暴搜 tag 的第二篇文章居然是深度学习…… Beam Search 彻头彻尾的暴搜。 Beam Search 一般使用在 seq2seq 任务上。由于输入输出不定长,所以往往是让模型采取一种循环的方式来输出 seq。 简单来讲, 我 2022-12-07 学习 #深度学习 #搜索
能在「浪费」时间中获得乐趣,就不是浪费时间。 近期在某处看到了一句话, 不要因为睡懒觉,而感到自责,因为你起来,也创造不了什么价值。 你能在浪费时间中获得乐趣,就不是浪费时间。 ——罗素 说实话我有点怀疑这句话的真实性,所以求证了一下。看起来,前半句是不知道哪位后人加的。原文更可能是这个: The time you enjoy wasting is not wasted time. ——Bertrand Russell 这样的话看起来 2022-11-19 闲扯
第一台 Macbook 7 年前就想搞台 Mac。 为什么选 MBA 足够的性能 超强的续航 便携 有不错的用户界面 同时有不错的命令行 还有着良好的软件生态 因为没有旧 Mac,所以谈不上 M2 挤牙膏的问题 臭写代码的,离硬件层很远,不必过分担心 ARM 兼容问题 并且还有备用机以防万一 配置上只有一个建议,不要选 256G SSD 或 8G 内存,前者读写缩水后者属于信了「高速缓存」的鬼话。颜色的话似乎 2022-11-06 闲扯
树上路径交问题 在一棵有 nnn 个节点的树上给出一路径 (ui,vi)(u_i,v_i)(ui,vi) 的集合。现求一些路径的交集。 分析 这个东西可以转化为 LCA 问题。 记两条路径为 a:(pa,qa),b:(pb,qb)a:(p_a,q_a), b:(p_b,q_b)a:(pa,qa),b:(pb,qb),它们的交集首先也是一条路径或空。 两两求解 a,ba,ba,b 端点的 LCA。 2022-09-20 code #线段树
Rust 可太难了:主流应用场景中的折磨 文章翻译自 Rust Is Hard, Or: The Misery of Mainstream Programming。非直译。 使用 Rust 会遇到一些很痛苦的情况,就是有时候一些喜闻乐见的简单逻辑会牵涉到超出预料的语言知识、编程技巧,而且你还要付出大量的心血去写代码,折腾半天最后还是没弄好只能摆烂。失落之余你可能会到 Reddit 找找解决办法,突然你就发现自己的代码设计竟然是在理论层 2022-08-04 学习 #Rust
从 YOLOv3 浅度理解目标检测 在前段时间,我们刚理了一遍 RetinaNet 是如何实现目标检测的。不过简单从一个方法上了解目标检测全貌有失偏颇,所以接下来我们继续看另一个 anchor-based 方法 YOLOv3,从两个方法上继续片面理解目标检测。 不过 YOLOv1 呢?因为 v3 是在其上的改进,就不再单独解释 v1,下文可能会以对比的形式提及。若没有提到版本,下文所有的 YOLO 均指 YOLOv3,代码可以参考a 2022-07-21 学习 #深度学习
Pytorch 分布式训练技术 本文分为三部分: 第一部分为官网 Distributed Data Parallel 设计思路翻译; 第二部分为官网教程; 第三部分为实际使用时的一些笔记。 Distributed Data Parallel 设计笔记 torch.nn.parallel.DistributedDataParallel(DDP)透明[1]地执行分布式数据并行训练。该部分内容解释了 DDP 的运行原理及设计细 2022-06-24 学习 #深度学习