Qwen-VL

论文标题：Qwen2.5-VL Technical Report 核心模型能力：更强的视觉识别、精准的目标定位、稳健的文档解析、长视频理解（能够使用「边界框/点」准确定位目标，可以对发票、表单和表格等结构化数据进行稳健信息抽取，对图表、示意图、布局等进行详细分析）交互式视觉智能体：具备推理、工具使用和任务执行能力，能够胜任如操作电脑、移动设备等...

2025-10-21 31 min Blogs, BasicKnow, LLM

DeepSeek-OCR论文阅读记录

论文标题：DeepSeek-OCR: Contexts Optical Compression 核心：光学2D映射（optical 2D mapping） –> 上下文压缩一页包含1000个单词的图像，其视觉编码所需的视觉tokens数可以远小于编码该1000个单词所需的文本tokens数模型构成：Encoder-Decoder结...

2025-10-21 8 min Blogs, BasicKnow, LLM

BBPE笔记记录

Code: https://github.com/OctopusMind/BBPE 1、正则表达式分词支持多语种分词 pat_str = r"'s|'t|'re|'ve|'m|'ll|'d| ?[\p{L}]+| ?[\p{N}]+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+" 各部分含义如下： 's|'t|'re|'ve|'m|'ll|'d ...

2025-09-26 11 min Blogs, BasicKnow, LLM

RoPE + YARN

1. RoPE（旋转位置编码）将二维向量 $(x_1, x_2)$ 绕原点旋转 $\theta$ 角度，用矩阵乘法表示如下： [\begin{pmatrix} x_1’ \ x_2’ \end{pmatrix} = \begin{pmatrix} \cos\theta & -\sin\theta \sin\theta & \cos\theta \end{pmatr...

2025-08-20 1 min Blogs, BasicKnow, LLM

秋招记录-胡言乱语

最后拿到的Offer：比亚迪-规划院，深圳（3技术面+HR面）百度-搜索策略部，北京（火鸡面帮忙内推，3技术面无HR面）高德地图-信息业务中心，北京（3技术面+HR面）阿里达摩院-视觉技术实验室，杭州（实习转正，转正答辩）阿里国际-AI Business，杭州（2技术面+HR面）总结：总的来说，前期并不顺利，而且整个人也很焦虑，焦虑来自于自己太菜的...

2023-01-27 4 min Daily, 日常

四种Normalization的计算差异

Refs: 深度学习中的Normalization方法将输入维度记为$[N, C, H, W]$，在计算操作上，不同Normalization的主要区别在于： Batch Normalization：在Batch Size方向上，对NHW做归一化，对batch size大小比较敏感； Layer Normalization：在Channel方向上，对CHW归一化； Inst...

2022-07-07 10 min Blogs, DeepLearning

LeetCode97-交错字符串

1. 题目描述来源：力扣（LeetCode）链接：https://leetcode.cn/problems/interleaving-string 著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。给定三个字符串 s1、s2、s3，请你帮忙验证 s3 是否是由 s1 和 s2 交错组成的。两个字符串 s 和 t 交错的定义与过程如下，其中每个字...

2022-05-09 6 min LeetCode

劳动节的一些照片：Nikon D750 + Micro-Nikkor 55mm F3.5

前段时间说好不买游戏了，然后莫名其妙又有了买镜头的欲望，于是海鲜市场入了个很早就想买的AI口的Micro-Nikkor 55mm F3.5，有一说一，真的相当满意。虽然在我的D750上对焦也是真的费眼。 4月30日，在实验室改了一天的代码，貌似有了一点进展，结果当天晚上发生了件有点不爽但其实也无所谓的事情。5月1日取了镜头，然后就玩了一下午（从宿舍后面，往二食堂，然后过学园二，学园一，驿站...

2022-05-03 3 min Daily, 照片

我的破脑子

最近觉得自己的脑子真的不太灵光了，总是记不住事情，尤其是刚发生的事情。好几次洗澡的时候头发打湿了，但是就是想不起来刚刚自己有没有洗过头还是只是把头发打湿了，有的时候摸摸脑袋能够根据头发的油腻程度判断。还有就是吃维B维C，有的时候我能确定自己刚刚没吃过，有的时候打算吃，隐约觉得自己在几分钟前或者十几分钟前是不是吃过了（但并不知道是不是真的吃过了），就会纠结还吃不吃。通常遇到这种类似...

2022-04-28 3 min Daily, 照片

LeetCode75-颜色分类

1. 题目描述来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/sort-colors 著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。给定一个包含红色、白色和蓝色、共n个元素的数组nums，原地对它们进行排序，使得相同颜色的元素相邻，并按照红色、白色、蓝色顺序排列。我们使用整数0、1和2分别表...

2022-04-20 8 min LeetCode

1
2
3
1 / 3