近日,第八届中国模式识别与计算机视觉学术会议(PRCV 2025)在上海交通大学顺利举行,期间举办的“多模态文本智能大模型前沿技术与应用”论坛获得了广泛关注。合合信息在论坛上推出的“多模态文本智能技术”方案,为破解多模态信息割裂的行业痛点提供了创新思路。
在人工智能深度融入各行各业的当下,多模态大模型成为AI发展的重要方向。多模态指利用文本、图像、音频、视频等多种不同形式或感知渠道的信息进行表达、交流和理解。然而,“实战”应用中,语义割裂、场景理解局限、决策失误等模型缺陷,严重制约了多模态大模型在行业中的应用发展。

(合合信息图像算法研发总监郭丰俊进行主题分享)
合合信息此次推出的方案,通过文本相关空间位置理解深层语义逻辑,实现了对多模态信息的“立体化综合化理解”,赋予模型真正的文本“阅读理解”能力。传统文档处理技术侧重于准确提取信息,但在真实业务场景中,信息常以多模态组合形态存在。例如财报数据需对照表格验证,国家标准文件中的插图依赖图例说明。合合信息的方案建立了从复杂场景文本感知到深层语义理解的技术闭环,解决了不同模态间的信息割裂问题。
论坛上,众多顶尖专家与学者围绕多模态大模型性能优化及行业应用展开了深入讨论。哈尔滨工业大学车万翔教授分享的“多模态思维链”技术,将推理逻辑分解为可解释的跨模态推理步骤,助力大模型跨越模态实现推理能力;南开大学周宇教授介绍的系统化OCR幻觉缓解方案,提升了多模态大模型的可视文本感知能力。合合信息图像算法研发总监郭丰俊分享的文本智能技术创新应用,以及小红书hi lab团队算法工程师燕青分享的多语言文档布局解析工具“dots.ocr”,都展示了多模态文本智能技术在不同领域的实践成果。此外,华中科技大学刘禹良教授介绍的辅助考释框架AlphaOracle,更体现了多模态大模型在文保领域的巨大价值。
目前,合合信息的“多模态文本智能技术”方案已将文本智能认知程度拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术路径。该方案已在金融、医药、教育等专业领域开展应用,通过对复杂文本的精准感知、综合理解和可靠决策,实现业务流程的智能重构。随着多模态大模型融入产业进程,合合信息的方案有望推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴,为行业发展注入新动力。