一个实现自动网页剪藏的工作流

本文最后更新于 2025年1月30日 晚上

针对现有的软件,我的一些不满意的点

在试用了一众 “稍后读” 和 “剪藏” 软件后, 仍然找不到满意的软件。

总结了一下针对当前的「网页剪藏」软件,现在自己不满意的几个点:

1 - 快照使用「服务器采集」: cubox, pocket 等

这种方式的缺点就在于,很多内容平台,特别是国内的平台,都需要登录才能访问完整内容。

那么这样的采集方式受限就很大,服务器端采集无法携带用户的认证信息,因此往往只能获取到部分内容或者直接无法访问。

2 - 自带的「网页解析」或者「解析为 Markdown」: obsidian / upnote 等笔记软件的 clipper

网页结构和样式的多样性使得通用解析器很难完美处理所有情况,特别是对于代码块、表格、数学公式等特殊格式,解析质量往往不尽如人意。

3 - 仅能保存 URL 的「稍后读」: raindrop 等

内容的持久性在互联网上并不能得到保证,特别是:

  • 一些平台会定期清理历史内容
  • 某些文章可能因各种原因被删除或修改
  • 网站本身可能关停或改版
  • 付费内容可能从免费变为收费

对于一些时刻可能下架的敏感内容,或者经常变动的网站,url 可能过一阵子就看不了了。

我理想中的「网页剪藏」

  1. 我希望功能不要过于复杂,例如各种各样的划线标注,笔记,阅读状态,都是我不需要的。
  2. 我想让我的保存,查看能够尽可能的简单高效,不要打乱我目前浏览网页的进度 —— 也就是说不要在我保存的时候出现一个大表单让我填写,或者卡住等待插件处理和解析网页
  3. 我希望能永久保存内容,在任何时候我可以看到「我当初看到这个网页的样子」。
  4. 我希望做到云存储,不希望作为一大堆散落的附件保存在本地。

于是我搭建了一个联动 SingleFile, dropbox, notion, 和 telegram bot 的 workflow 来满足我的需求。

我搭建的工作流

之所以说是工作流 Workflow,实际上就是将一大堆 API 串起来。

整体实现起来不难,把所有 API 写好,作为一个 notepad 喂给 cursor,基本上 10 分钟就完成了,然后接下来用了几个小时来完善整个流程。

以下是 Demo (youtube):

PS:demo 实际展示了 Telegram 的提示过程 + 服务端日志,实际上对于我而言只需要按一下「cmd + shift + s」 快捷键之后,剩下的一切都是服务端处理了。

PPS:演示的时候 DeepSeek 又卡了,还好加了一个备用的 API。。

简单来说这个工作流如下:

  1. 利用 singlefile 保存单页 html 作为快照。
  2. 通过 webdav 上传到服务端开始处理。
  3. 服务端上传文件到 dropbox 并获取分享链接 (可以直接点击查看快照页面) 。
  4. 服务端通过 deepseek / gpt 的 API 自动生成摘要和 tag。
  5. 将所有的元数据上传到 Notion Database 进行保存。
  6. Telegram 的 bot 全程通知进度,以及报告成功 / 失败的错误日志。

总体来说个人还是挺满意的,最近搞了不少自动化,这个算是折腾比较久的和比较好玩的,于是写出来分享下。


一个实现自动网页剪藏的工作流
https://moreality.net/posts/51437/
作者
Moreality
发布于
2025年1月30日
许可协议