MoE 与 LLM MoE 深度学习时代,尤其是在 NLP 大模型大行其道的今天,MoE(Mixture-of-Experts)是指这样一种结构: 在 MoE 模型中,输入数据被 Router(路由)选择性地依照一定规则分配给最适合处理它的 Expert(专家),最终推理结果由专家输出混合形成。因此整个结构被称为混合专家。 可能有人在这种结构中看到了机器学习领域集成方法的影子。二者的确相似,但目的上有着区别。 集 2024-04-12 学习 #深度学习 #CV #NLP #LLM
async fn,impl 返回值,以及其他 在去年 12 月 21 日,Rust 宣布 trait 中的 async fn 和 impl 作为返回值两个特性稳定。 在之前的一些 blog 里,我们曾经讨论了 Rust 中 impl 返回值、async fn、以及 GATs 等一些问题,但那些文章其实讨论得并不完整。在庆祝这次重大进步的同时,我想从头梳理 Rust 中关于 async 的一些东西。 Rust 的异步到底是什么 Rust 的异 2024-03-01 学习 #Rust #协程 #异步
用 maimai b50 展示你的 GPA 这其实算不上一个项目,只是玩一玩 Rust 和 wasm。 一个用 maimai b50 展示你的 GPA 的小工具,起因是看到了这个东西。 用 Rust 和 wasm 实现,直接在前端生成图片,可以在 blog 里找到相关介绍。 点我直达生成器 2024-02-28 闲扯 #maimai
又一篇研究如何游玩音击的文章 本文仅供学习交流使用。本文不提供涉及软件的下载方式。 音击,オンゲキ,ongeki,是一款街机音游。曾有机会上手了一天,发现是真的好玩。可惜它只在日本运营,所以在国内很难接触到,基本上唯一能玩到的办法就是自己跑游戏。 本文记录了我研究如何在家用 PC 上运行这玩意的历程。网上有一些研究帖子,但相对今天已有些过时,这篇文章大量参照了那些已有资料。 最后一次更新于 1 月 30 日。 目标 音击 2024-01-30 闲扯 #音击
Stable Diffusion 模型微调技术探究 本文均仅作学习、交流使用。 本文仍在修订中。 这篇文章并不着重于原理解释,而是主要针对其代码和实践方面的技术性探究。只有密切涉及到的原理才会展开,否则便从简了。 在阅读本文后,你将了解到 Diffusion Model 的基本原理 Textual Inversion 的基本原理,以及如何使用该技术微调模型 LoRA 的原理,以及如何使用 LoRA 微调模型 如何将两种微调技术结合使用 图像生 2024-01-08 学习 #深度学习
如何正确地锁住一个 Normalization Layer? 在之前的一篇文章中我们介绍过关于 BN 和 LN 的一些小细节,在那里提到了这类 Layer 一般会在训练阶段统计输入数据的分布信息,并将该信息使用在推理阶段。随着近期 CV 侧深度学习也从 fine-tune 逐渐走向了直接 freeze backbone,我觉得是时候进一步明确 Norm Layer 在训练阶段和测试阶段的行为细节了。 本文将以 PyTorch 的 BatchNorm 为例。 2023-07-13 学习 #PyTorch
[CF 1828] Codeforces Round 873 (Div. 2) A Divisible Array 第一题是简单的构造。第 iii 个数字是 iii 的时候总和是 n(n+1)/2n(n+1)/2n(n+1)/2,为了凑个条件三,我们给所有数再乘 222 就可以了。 B. Permutation Swap 第二题实际上是形成了 k 组互不干扰的集合,集合中的数字可以随意调换顺序。那么我们要做的就很简单了,检查每个数字到其目标位置的距离,然后取最大公约数。 2023-07-10 code #树状数组 #线段树 #组合数学 #思维 #DFS #二分搜索 #单调栈 #优先队列
用 Rust 玩一玩 WASM 更新于 2024-03-01。主要是 wasm-pack-cli 被弃用。 WASM 是一种虚拟机上的二进制格式,不限语言,跨平台,能够运行在 Web 页面上。相对于 js 而言,WASM 的效率更高,更适合处理高计算量任务。至于为什么会有在浏览器做高计算量的工作…你总会找到场景的,压缩、渲染、游戏计算…… Rust 是对 WASM 支持良好的语言之一,并且从 Rust 本身继承了不少的好处: 2023-06-24 学习 #Rust #WASM
一次面向股价预测的深度学习方法尝试 本文所有内容不构成投资建议。 我不是干这个的,既不研究量化,也不研究这种类型的序列预测模型。所以我只是本着玩玩的心态训了个模型,甚至可以说我就没指望能得到积极结果,这篇文章也仅仅是记录一下我瞎折腾的经过。我在其中获得的乐趣大于它的世俗意义。 异想天开 我大致有这样一些幼稚的假设: 虽然单支股票有在技术、价值上分析的意义,但我所掌握的信息不足以做出这种级别的分析。不过无论哪里,只要人一多了,群体 2023-05-18 闲扯 #深度学习
Chinopie 轻量深度学习框架 更新于 2024/08/26。 在搞研究的过程中,我逐渐把一些代码抽出来并写为了这样一个较为简单的框架。 Chinopie 是又一个面向 Pytorch 的深度学习框架,适用于轻量级学术研究场景下的模型训练与验证。 在最开始我希望用 Rust 写这玩意,名字叫 Chino。然后我发现这个框架需要用到未稳定的 GATs 特性,而且我好像自己也很难用到……作罢,回到 Python,并给名字加了 2023-05-16 Project #深度学习 #Python