一个实现自动网页剪藏的工作流
本文最后更新于 2025年1月30日 晚上
针对现有的软件,我的一些不满意的点
在试用了一众 “稍后读” 和 “剪藏” 软件后, 仍然找不到满意的软件。
总结了一下针对当前的「网页剪藏」软件,现在自己不满意的几个点:
1 - 快照使用「服务器采集」: cubox, pocket 等
这种方式的缺点就在于,很多内容平台,特别是国内的平台,都需要登录才能访问完整内容。
那么这样的采集方式受限就很大,服务器端采集无法携带用户的认证信息,因此往往只能获取到部分内容或者直接无法访问。
2 - 自带的「网页解析」或者「解析为 Markdown」: obsidian / upnote 等笔记软件的 clipper
网页结构和样式的多样性使得通用解析器很难完美处理所有情况,特别是对于代码块、表格、数学公式等特殊格式,解析质量往往不尽如人意。
3 - 仅能保存 URL 的「稍后读」: raindrop 等
内容的持久性在互联网上并不能得到保证,特别是:
- 一些平台会定期清理历史内容
- 某些文章可能因各种原因被删除或修改
- 网站本身可能关停或改版
- 付费内容可能从免费变为收费
对于一些时刻可能下架的敏感内容,或者经常变动的网站,url 可能过一阵子就看不了了。
我理想中的「网页剪藏」
- 我希望功能不要过于复杂,例如各种各样的划线标注,笔记,阅读状态,都是我不需要的。
- 我想让我的保存,查看能够尽可能的简单高效,不要打乱我目前浏览网页的进度 —— 也就是说不要在我保存的时候出现一个大表单让我填写,或者卡住等待插件处理和解析网页。
- 我希望能永久保存内容,在任何时候我可以看到「我当初看到这个网页的样子」。
- 我希望做到云存储,不希望作为一大堆散落的附件保存在本地。
于是我搭建了一个联动 SingleFile, dropbox, notion, 和 telegram bot 的 workflow 来满足我的需求。
我搭建的工作流
之所以说是工作流 Workflow,实际上就是将一大堆 API 串起来。
整体实现起来不难,把所有 API 写好,作为一个 notepad 喂给 cursor,基本上 10 分钟就完成了,然后接下来用了几个小时来完善整个流程。
以下是 Demo (youtube):
PS:demo 实际展示了 Telegram 的提示过程 + 服务端日志,实际上对于我而言只需要按一下「
cmd + shift + s
」 快捷键之后,剩下的一切都是服务端处理了。PPS:演示的时候 DeepSeek 又卡了,还好加了一个备用的 API。。
简单来说这个工作流如下:
- 利用 singlefile 保存单页 html 作为快照。
- 通过 webdav 上传到服务端开始处理。
- 服务端上传文件到 dropbox 并获取分享链接 (可以直接点击查看快照页面) 。
- 服务端通过 deepseek / gpt 的 API 自动生成摘要和 tag。
- 将所有的元数据上传到 Notion Database 进行保存。
- Telegram 的 bot 全程通知进度,以及报告成功 / 失败的错误日志。
总体来说个人还是挺满意的,最近搞了不少自动化,这个算是折腾比较久的和比较好玩的,于是写出来分享下。