一个系统为什么要用多个模型
学情追踪系统中有四个需要 AI 能力的场景:
| 场景 | 需求特点 | 模型要求 |
|---|---|---|
| 错题拍照识别 | 需要识别图片中的文字和标记 | 视觉模型 |
| 考试试卷分析 | 多张高清图片 + 复杂推理 | 强视觉 + 强推理 |
| 每日练习出题 | 根据薄弱知识点生成题目 | 逻辑推理 |
| 每日反馈报告 | 汇总数据生成评语 | 文本生成 |
如果全部用一个模型,要么太贵(视觉模型按 token 计费贵),要么效果不好(文本模型看不懂图片)。
模型选择策略
视觉场景:硅基流动
拍照识别和试卷分析需要视觉能力。我选择了硅基流动(SiliconFlow)作为视觉模型提供商,主要模型配置:
- 主力:Nex-N2-Pronex(免费额度,日常识别足够)
- 备选:DeepSeek-OCR(文字识别更精准,需要时切换)
- 兜底:Qwen2.5-VL-32B(复杂推理场景的最后选择)
切换方式很简单——在后台把备选模型设为默认,旧模型的默认状态自动取消。
文本场景:DeepSeek
出题和写报告是纯文本任务,用 DeepSeek 性价比最高。它的推理能力对出题质量有帮助,价格也比 GPT-4o 便宜很多。
按功能独立配置的设计
传统的做法是全局设置一个”默认模型”,所有功能都用它。我做了改进——在数据库的模型配置表中增加 purpose 字段,每个功能模块查询时只取对应 purpose 的模型:
1 | purpose = 'wrong_questions' → 错题识别专用模型 |
这样每个功能可以独立选型、独立切换,互不影响。
成本对比
| 方案 | 月成本估算 |
|---|---|
| 全部用 GPT-4o | ¥500+ |
| 全部用 DeepSeek | ¥15 |
| 视觉用硅基免费版 + 文本用 DeepSeek | ¥15 |
一个月从 500 降到 15 块,效果反而更好。 因为每个场景用的都是最适合的模型,而不是最贵的模型。
总结
多模型协同的核心不是”选最厉害的”,而是”为每个任务选最合适的”。就像你不会用飞机去隔壁便利店买菜——工具要与场景匹配。