多模型协同——为不同场景选择最佳AI模型

一个系统为什么要用多个模型

学情追踪系统中有四个需要 AI 能力的场景:

场景 需求特点 模型要求
错题拍照识别 需要识别图片中的文字和标记 视觉模型
考试试卷分析 多张高清图片 + 复杂推理 强视觉 + 强推理
每日练习出题 根据薄弱知识点生成题目 逻辑推理
每日反馈报告 汇总数据生成评语 文本生成

如果全部用一个模型,要么太贵(视觉模型按 token 计费贵),要么效果不好(文本模型看不懂图片)。

模型选择策略

视觉场景:硅基流动

拍照识别和试卷分析需要视觉能力。我选择了硅基流动(SiliconFlow)作为视觉模型提供商,主要模型配置:

  • 主力:Nex-N2-Pronex(免费额度,日常识别足够)
  • 备选:DeepSeek-OCR(文字识别更精准,需要时切换)
  • 兜底:Qwen2.5-VL-32B(复杂推理场景的最后选择)

切换方式很简单——在后台把备选模型设为默认,旧模型的默认状态自动取消。

文本场景:DeepSeek

出题和写报告是纯文本任务,用 DeepSeek 性价比最高。它的推理能力对出题质量有帮助,价格也比 GPT-4o 便宜很多。

按功能独立配置的设计

传统的做法是全局设置一个”默认模型”,所有功能都用它。我做了改进——在数据库的模型配置表中增加 purpose 字段,每个功能模块查询时只取对应 purpose 的模型:

1
2
3
4
purpose = 'wrong_questions'  → 错题识别专用模型
purpose = 'daily_practice' → 出题专用模型
purpose = 'daily_report' → 报告专用模型
purpose = 'exam_analysis' → 试卷分析专用模型

这样每个功能可以独立选型、独立切换,互不影响。

成本对比

方案 月成本估算
全部用 GPT-4o ¥500+
全部用 DeepSeek ¥15
视觉用硅基免费版 + 文本用 DeepSeek ¥15

一个月从 500 降到 15 块,效果反而更好。 因为每个场景用的都是最适合的模型,而不是最贵的模型。

总结

多模型协同的核心不是”选最厉害的”,而是”为每个任务选最合适的”。就像你不会用飞机去隔壁便利店买菜——工具要与场景匹配。