智谱提出 Glyph:通过视觉-文本压缩扩展上下文窗口
栏目:广告资讯 发布时间:2025-10-22
智谱GLM大模型团队推出了Glyph框架,探索了一条区别于主流方法的全新上下文扩展路径。该框架创新性地采用视觉-文本压缩技术,将长篇文本转化为图像形式,使模型能够通过“看图”的方式理解语义内容。借助由大语言模型驱动的搜索算法,Glyph可自动寻找到最优的视觉渲染策略,在显著减少输入token数量的同时,保留关键语义信息,从而有效突破传统模型在上下文长度上的限制。在多项长文本基准测试中,Glyph在性能表现与当前顶尖LLM相当的基础上,实现了约3至4倍的上下文压缩率,并带来了数倍的训练与推理

智谱glm大模型团队推出了 glyph 框架,探索了一条区别于主流方法的全新上下文扩展路径

该框架创新性地采用视觉-文本压缩技术,将长篇文本转化为图像形式,使模型能够通过“看图”的方式理解语义内容。借助 由大语言模型驱动的搜索算法,Glyph 可自动寻找到最优的视觉渲染策略,在显著减少输入 token 数量的同时,保留关键语义信息,从而有效突破传统模型在上下文长度上的限制。

在多项长文本基准测试中,Glyph 在性能表现与当前顶尖LLM相当的基础上,实现了约 3至4倍的上下文压缩率,并带来了数倍的训练与推理速度提升。

Glyph 开辟了长上下文建模的新思路——通过将文本视觉化实现高效的信息扩展,为构建面向超长文本处理的大模型提供了极具潜力的发展方向。

动机

面对文档理解、代码库分析、复杂推理等任务时,大模型常常需要处理数十万乃至上百万 token 的输入数据。

然而,直接扩大模型上下文窗口会带来极高的计算和内存开销,导致“百万级上下文”模型难以实际部署与广泛应用。

为应对这一挑战,研究团队提出 Glyph ——一种基于视觉化输入的新型上下文扩展范式

不同于依赖修改注意力机制的传统方案,Glyph 从输入表征层面重构问题本质

将原始文本转换为图像输入,利用视觉-语言模型(VLM)进行读取与理解,实现在不增加模型原生上下文容量的前提下,完成对超长文本的有效建模。

方法

Glyph 的核心理念是让模型学会“用眼睛阅读”超长文本。通过将文字内容渲染成图像,模型可在有限 token 预算下接收更密集的信息流,达成高效的语义压缩。整个系统包含三个关键阶段:

  1. 持续预训练阶段
    研究人员将大量长文本数据渲染为多种视觉样式,涵盖文档排版、网页布局、代码展示等多种真实场景。基于这些图像化文本,构建包括 OCR 识别、图文联合建模、视觉补全在内的多样化任务,帮助模型同时掌握字符的视觉特征与其深层语义。此阶段强化了跨模态对齐能力,使模型能准确“读懂”图像中的文字内容。

  2. **LLM驱动的渲染策略搜索
    不同的渲染参数(如字体大小、行距、分辨率、布局方式)会显著影响模型的理解效果与压缩效率。为此,团队设计了一种基于
    大语言模型引导的遗传搜索算法****。该方法在验证集上评估不同配置的表现,由 LLM 分析结果并生成改进方案,经过多轮迭代后自动收敛至最优渲染策略,在压缩率与语义保真之间达到最佳平衡。

  3. 后训练优化阶段
    确定最优渲染方式后,模型进入精细化调优阶段,采用有监督微调(SFT)结合 GRPO 强化学习算法进行优化。同时引入OCR辅助学习任务,进一步增强模型对细粒度文本结构的识别与理解能力。

总结

Glyph 标志着一种融合视觉与语言的上下文扩展新范式的诞生。

通过三阶段协同训练,Glyph 实现了在 3–4倍文本压缩率 下仍保持强劲的任务表现,并大幅提升了训练与推理效率。

在极端压缩条件下,仅使用 128K 上下文的视觉模型,即可成功处理 百万 token 级别的文本任务,展现出强大的扩展潜力,也为未来迈向千万级上下文的智能系统奠定了坚实基础。

源码地址:点击下载


# 压缩率  # 点击下载  # 带来了  # 可在  # 基础上  # 文档  # 这一  # 实现了  # 建面  # 大模型  # 最优  # 重构  # ocr  # 算法  # Token  # 网页布局  # 压缩技术  # 区别 


相关文章: DDR5、HBM等芯片已全面暴涨 仅剩DDR3、SLC及NOR三种还在洼地  IGN评选2025年最佳日本游戏:《怪物猎人:荒野》上榜  新疆棉事件两年后,最大品牌输家曝光......  国外大神0xZe0n攻破《死亡空间:重制版》D加密  《女神异闻录:夜幕魅影》地铁肘击王海外爆火!制作人感到困惑惊讶  国产影像传感器新动向曝光:SCC90XS或成旗舰机主摄  海尔专卖店2026年要进行四个变革  《给他爱5》麦克演员屡被报假警 甚至与警察成了朋友  玩家请愿拉瑞安:《神界》新作别听社区反馈瞎改  蹭魏大勋热度?旺旺赢麻了!  当风雪有了重量,《抵抗者》新PV为何让人心生期待?  《天穗之咲稻姬》时隔三年发布更新 续作明年发售  Intel院士解释Wi-Fi 8好处:同位置比Wi-Fi 7速度更快更稳  Switch 2加密技术成最强盾牌!《宝可梦》第十世代洩漏时代恐告终结  一加李杰官宣Turbo系列开启预约:赠便携背包,12月28日|直播|曝更多细节  别只会听音乐!AirPods Pro 3的10大隐藏神功能全攻略一次看  Linux 6.19 内核为旧 AMD GPU 带来约 30% 的显著性能提升  兽系输出核心可燃点全方位培养指南  179 级副本速通秘籍:打造不败阵容,掌握战场决胜法则  刚铎之城降临!乐高×魔戒新作惊传破8千片积木 预计2026年现身  中国电信安全团队分析“快手遭攻击事件”:疑似攻击来源主机集中在南美、有组织、有预谋  《最终幻想7重制版》三部曲确认全面登陆Switch2  《蟹蟹寻宝奇遇》制作人呼吁类魂游戏别再模仿《黑暗之魂》  这文案,好水水水水水水水啊  让AI开发更简单!摩尔线程发布AI算力本MTT AIBOOK  荣耀员工:WIN系列将支持四个MagicOS大版本更新  FreeBSD 今年在笔记本电脑支持方面取得重大进展  无界弗远,驭光而至,通用代码生成器光船,先进功能演示  IDEA 插件 Maven With Me 更新 2.6.x 版本,新增自动同步项目配置助力多 JDK 版本开发!  小岛秀夫:希望能开创全新游戏类型,仍想尝试打造西部或太空题材作品  “玩家根本不想看教程!”日本游戏界大佬激烈讨论  腾讯元宝任务功能上线,支持双端设置定时提醒  OPPO Find N6 最快明年 2 月现身!传过年前发布,具 Find X9 同级 200MP 潜望长焦、兼享多光谱相机?  中国第一、全球第四!长鑫科技终于要上市了:TOP5客户首次披露  辉达加入科技巨头「不併购式交易」潮 授权Groq晶片技术并延揽高层  内存涨价成暴利产业 传三星祭出霸王条款:想拿货就得听他的  为何苹果折叠屏会选择5.3英寸超小外屏?有何策略?  蜜雪冰城“考编”中国邮政,瑞幸无辜躺枪?!  开源APP开发工具怎么选?  天钡发布首款Mini-ITX MoDT主板!9955HX3D+双万兆接口  GLM-4.7 登顶 Artificial Analysis 全球开源榜首  真我Neo8无限版包装盒偷跑:首发三星1.5K 165Hz屏 素质比肩苹果  游戏通行证速刷终极指南:高效升级,奖励全拿  荣耀WIN系列首销日销量超过2.5万台 WIN RT占60%  三星Galaxy S26系列新泄露:S26+屏幕追平Ultra,全系列原生支持Qi2充电  骁龙8 Gen 5全面对比8s Gen 4 前者跑分近300万分!  软银砸40亿美元收购DigitalBridge 强化AI资料中心布局  2025联想天禧AI生态伙伴大会:天禧AI一体多端,与开发者共建个人AI生态  OpenAI 人均股票薪酬达 150 万美元  太大胆了! 俄罗斯模特cos《巫师3》凯拉·梅兹 


相关栏目: 【 广告资讯37196 】 【 广告推广143353 】 【 广告优化89630