论文标题:Qwen2.5-VL Technical Report 核心 模型能力: 更强的视觉识别、精准的目标定位、稳健的文档解析、长视频理解(能够使用「边界框/点」准确定位目标,可以对发票、表单和表格等结构化数据进行稳健信息抽取,对图表、示意图、布局等进行详细分析) 交互式视觉智能体:具备推理、工具使用和任务执行能力,能够胜任如操作电脑、移动设备等...
DeepSeek-OCR论文阅读记录
论文标题:DeepSeek-OCR: Contexts Optical Compression 核心: 光学2D映射(optical 2D mapping) –> 上下文压缩 一页包含1000个单词的图像,其视觉编码所需的视觉tokens数可以远小于编码该1000个单词所需的文本tokens数 模型构成:Encoder-Decoder结...
BBPE笔记记录
Code: https://github.com/OctopusMind/BBPE 1、正则表达式分词 支持多语种分词 pat_str = r"'s|'t|'re|'ve|'m|'ll|'d| ?[\p{L}]+| ?[\p{N}]+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+" 各部分含义如下: 's|'t|'re|'ve|'m|'ll|'d ...
RoPE + YARN
1. RoPE(旋转位置编码) 将二维向量 $(x_1, x_2)$ 绕原点旋转 $\theta$ 角度,用矩阵乘法表示如下: [\begin{pmatrix} x_1’ \ x_2’ \end{pmatrix} = \begin{pmatrix} \cos\theta & -\sin\theta \sin\theta & \cos\theta \end{pmatr...
秋招记录-胡言乱语
最后拿到的Offer: 比亚迪-规划院,深圳(3技术面+HR面) 百度-搜索策略部,北京(火鸡面帮忙内推,3技术面无HR面) 高德地图-信息业务中心,北京(3技术面+HR面) 阿里达摩院-视觉技术实验室,杭州(实习转正,转正答辩) 阿里国际-AI Business,杭州(2技术面+HR面) 总结: 总的来说,前期并不顺利,而且整个人也很焦虑,焦虑来自于自己太菜的...
四种Normalization的计算差异
Refs: 深度学习中的Normalization方法 将输入维度记为$[N, C, H, W]$,在计算操作上,不同Normalization的主要区别在于: Batch Normalization:在Batch Size方向上,对NHW做归一化,对batch size大小比较敏感; Layer Normalization:在Channel方向上,对CHW归一化; Inst...
LeetCode97-交错字符串
1. 题目描述 来源:力扣(LeetCode) 链接:https://leetcode.cn/problems/interleaving-string 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 给定三个字符串 s1、s2、s3,请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下,其中每个字...
劳动节的一些照片:Nikon D750 + Micro-Nikkor 55mm F3.5
前段时间说好不买游戏了,然后莫名其妙又有了买镜头的欲望,于是海鲜市场入了个很早就想买的AI口的Micro-Nikkor 55mm F3.5,有一说一,真的相当满意。虽然在我的D750上对焦也是真的费眼。 4月30日,在实验室改了一天的代码,貌似有了一点进展,结果当天晚上发生了件有点不爽但其实也无所谓的事情。5月1日取了镜头,然后就玩了一下午(从宿舍后面,往二食堂,然后过学园二,学园一,驿站...
我的破脑子
最近觉得自己的脑子真的不太灵光了,总是记不住事情,尤其是刚发生的事情。 好几次洗澡的时候头发打湿了,但是就是想不起来刚刚自己有没有洗过头还是只是把头发打湿了,有的时候摸摸脑袋能够根据头发的油腻程度判断。 还有就是吃维B维C,有的时候我能确定自己刚刚没吃过,有的时候打算吃,隐约觉得自己在几分钟前或者十几分钟前是不是吃过了(但并不知道是不是真的吃过了),就会纠结还吃不吃。 通常遇到这种类似...
LeetCode75-颜色分类
1. 题目描述 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/sort-colors 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 给定一个包含红色、白色和蓝色、共n个元素的数组nums,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。 我们使用整数0、1和2分别表...