回到电脑前剪辑时,问题变得非常清晰。
回到电脑前剪辑时,问题变得非常清晰。传统剪辑工具擅长处理镜头、节奏和帧,但当内容价值主要来自“说了什么”时,缩略图和波形并不能帮助用户快速检索、定位和组织观点。那些最重要的句子,常常埋在漫长的时间轴里。
于是,我开始构想一种新的剪辑方式:先把音视频还原成文本,再让文本成为时间轴的主要组织界面。用户不再只是拖动素材、对齐波形,而是可以像写文章一样梳理段落、调整结构、组织语义。对于采访、播客、口述、课程和真实故事来说,这是一种更自然、更以人为本的工作流。
“对于这类素材,真正重要的往往不是画面,而是语言本身。”


还有一个前提对我来说同样重要:转写必须在本机完成。
还有一个前提对我来说同样重要:转写必须在本机完成。很多用户记录的是私人经历、访谈素材或商业讨论,这些内容并不适合上传到云端。对这类工具而言,隐私不应该是附加选项,而应该是基础能力。
我很快做出了第一个版本,但也很快遇到了现实问题。早期方案依赖本地模型,虽然可以离线运行,却很难同时兼顾精度、效率和包体体积。为了保护隐私而内置模型,会让 App 变得臃肿;想提升精度,又不得不引入更大的模型和更高的成本。那时我意识到,这个产品真正要解决的,不只是转写本身,而是如何在智能、可靠和可用之间取得平衡。
转机来自 macOS Tahoe。Apple SpeechTranscriber 提供的原生端侧转写能力,让速度、精度和隐私第一次在这个产品里同时成立。我据此重构了整套技术架构,把更多精力重新投入到交互设计本身:如何让用户更快理解素材,如何让结构更直观,如何让“编辑”从处理时间轴,变成组织表达。
围绕这个目标,我设计了文本流轨道和故事图谱。
围绕这个目标,我设计了文本流轨道和故事图谱。转写后的内容不再只是字幕列表,而是可被浏览、检索、重组的文本结构;故事图谱则把整段叙事可视化成一朵“蒲公英”:每一支是一个句子,每一个点对应一个字,用户既能把握整体结构,也能追溯到具体语句与时间位置。这不是为了炫技,而是为了让复杂内容变得清晰、可信、可操作。
当内容回到文本,人的阅读和理解能力终于可以真正参与到剪辑中。用户能够一目十行地浏览素材,快速找到关键表达,像整理文章一样组织故事。这款 App 不替用户编造内容,而是提供一个智能而克制的创作环境,让真实的表达被更准确地发现、整理和呈现。


