2026-06-21

多模型协同——为不同场景选择最佳AI模型

一个系统为什么要用多个模型

学情追踪系统中有四个需要 AI 能力的场景：

场景	需求特点	模型要求
错题拍照识别	需要识别图片中的文字和标记	视觉模型
考试试卷分析	多张高清图片 + 复杂推理	强视觉 + 强推理
每日练习出题	根据薄弱知识点生成题目	逻辑推理
每日反馈报告	汇总数据生成评语	文本生成

如果全部用一个模型，要么太贵（视觉模型按 token 计费贵），要么效果不好（文本模型看不懂图片）。

模型选择策略

视觉场景：硅基流动

拍照识别和试卷分析需要视觉能力。我选择了硅基流动（SiliconFlow）作为视觉模型提供商，主要模型配置：

主力：Nex-N2-Pronex（免费额度，日常识别足够）
备选：DeepSeek-OCR（文字识别更精准，需要时切换）
兜底：Qwen2.5-VL-32B（复杂推理场景的最后选择）

切换方式很简单——在后台把备选模型设为默认，旧模型的默认状态自动取消。

文本场景：DeepSeek

出题和写报告是纯文本任务，用 DeepSeek 性价比最高。它的推理能力对出题质量有帮助，价格也比 GPT-4o 便宜很多。

按功能独立配置的设计

传统的做法是全局设置一个”默认模型”，所有功能都用它。我做了改进——在数据库的模型配置表中增加 purpose 字段，每个功能模块查询时只取对应 purpose 的模型：

purpose = 'wrong_questions'  → 错题识别专用模型
purpose = 'daily_practice'   → 出题专用模型
purpose = 'daily_report'     → 报告专用模型
purpose = 'exam_analysis'    → 试卷分析专用模型

这样每个功能可以独立选型、独立切换，互不影响。

成本对比

方案	月成本估算
全部用 GPT-4o	¥500+
全部用 DeepSeek	¥15
视觉用硅基免费版 + 文本用 DeepSeek	¥15

一个月从 500 降到 15 块，效果反而更好。 因为每个场景用的都是最适合的模型，而不是最贵的模型。

总结

多模型协同的核心不是”选最厉害的”，而是”为每个任务选最合适的”。就像你不会用飞机去隔壁便利店买菜——工具要与场景匹配。