

重点 1
微调后的 Llama 3.2 3B 在完整性和事实准确性方面有显著提升(总体评分从约 5.35 提升到 8.55)。
重点 2
可自动生成干净且标准化的结构化 JSON,使后续处理无缝衔接。
重点 3
可高效运行在消费级 GPU 上,包括 RTX 2070 Super 和 4090,而无需依赖云服务。

改进 1
目前缺乏用户友好的界面,工作流过于依赖脚本和命令行,对非技术用户不够友好。
改进 2
虽然针对个人使用进行了优化,但可能无法高效处理批量任务或多用户环境。
改进 3
安装和微调过程需要更详细的说明、示例和面向初学者的故障排除指导。
产品功能
引入一个简易的桌面或网页 UI,用于上传音频文件并可视化结构化输出。增加批量处理支持,并提供与 Obsidian 或 Notion 等笔记应用的可选集成。
UI & UX
设计一个简洁直观的仪表盘,用于管理音频转录和查看 JSON 输出,使工具对非开发者也易于使用。
SEO 或营销
创建博客文章、教程和演示视频,展示生产力工作流、会议转录和个人知识管理等用例,以吸引更广泛的受众。
多语言支持
通过在多语言数据集上微调额外的 Whisper 和 Llama 模型,扩展转录和结构化输出的多语言支持。
- 1
这个工具的功能是什么?
它使用 Whisper/Parakeet 在本地转录音频笔记,然后通过微调过的 Llama 3.2 3B 模型处理原始转录文本,生成包含标题、标签、实体、日期和动作的结构化 JSON。
- 2
我需要云服务才能使用它吗?
不需要,该工具专为本地处理设计。你可以完全离线运行转录和结构化分析。
- 3
它的准确率和大模型相比如何?
微调后的模型在评估中获得 8.55 分,超过了多个更大模型,例如 Mistral-Small-24B(7.90)和 Gemma-3-12B(7.76),并且接近教师模型 Kimi K2(约 8.82)。