Back to Articles

把散落的推文变成有价值的笔记

/amp-smart

这次做的事情说起来很简单:从以前的推文备份里,挑出值得长期保留的内容,整理成博客上的笔记。

但"简单"只是说起来简单。真正动手之后才发现,从一堆原始数据里提炼出有价值的东西,比写一篇新文章还费劲。

为什么要整理推文

推文备份一直躺在数据文件夹里,JSON 格式,几千条。这些内容里有不少是当时认真想过、认真写过的——个人观点、生活感受、某个瞬间的想法。但混在里面的也有大量噪音:转发的摘要、AI 工具的使用记录、绘图相关的技术参数,等等。

如果不做整理,这些有价值的内容会永远埋在噪音里,既没法浏览也没法检索。我希望把它们沉淀到笔记区,和其他日常随笔放在一起,成为一种可以回顾和再利用的资产。

筛选:不是留得越多越好

一开始的思路是按文字长度来筛——超过三百字的保留,太短的丢掉。但很快发现长度只是最粗的一层过滤,远远不够。一条三百字的 AI 摘要转发没什么保留价值,而一条一百多字的个人感悟可能恰恰值得留下。

于是筛选变成了好几层叠加:先按长度初筛,再排除掉模板化的提示词内容、非中文帖子、AI 绘图相关帖子,最后再判断剩下的内容是"个人表达"还是"信息搬运"。

这个过程让我意识到,内容筛选的标准特别容易在"过宽"和"过严"之间摇摆。放宽了会混进大量噪音,收紧了又可能误伤真正有价值的东西。最终的办法是把筛选分成硬性规则和软性判断两层——硬规则用来排除明显不要的,软判断用来甄别模糊地带——同时保留每一步的中间结果,万一筛错了可以回退重来。

去重:避免重复劳动

筛选之后还要做一步去重——之前已经整理过一批推文了,不能把已经存在的内容再导入一遍。方法是把现有笔记里出现过的所有推文链接提取出来,和新的候选列表做比对,剔除重复的。

这一步看起来简单,但如果漏掉了,就会出现同一条推文在笔记里出现两次的情况,后续清理起来很麻烦。

整理成笔记:单条还是按天合并

筛完去重之后,下一个问题是怎么组织这些内容。一开始是每条推文生成一个独立文件,但这样文件数量太多,浏览起来碎片感很重。后来改成按日期合并——同一天的推文放在同一篇笔记里,按时间顺序排列,每条都附上原帖链接以便回溯。

这种"按日聚合"的方式阅读体验好很多,更像翻一本日记,而不是一堆散落的便签。

格式打磨中的反复

整理到格式阶段又出了不少小问题。一开始用每条推文的第一句话做子标题,但有些帖子的开头并不适合做标题,读起来莫名其妙。后来统一改成了纯编号——"1、2、3"——简单直接,不容易出错。

还有一个低级但恼人的问题:生成文档的摘要信息里,推文条数显示成了"undefined条"。原因是计数逻辑取错了位置,改成直接数文档里实际有多少条就解决了。这种小问题不难修,但如果没发现就发布出去,会让人觉得很不专业。

一次让人恼火的"降智"事故

这轮工作我全程用 Codex 辅助编程。大部分时候它表现得很稳定,但在整理后期发生了一件让我相当恼火的事——在调整"哪些文件保留、哪些清理"的过程中,Codex 似乎完全忽略了上下文里已经隐含的意图,把之前辛苦整理好的成果也一股脑删掉了。

客观地说,实际损失并不大,几分钟就修复了。但那一瞬间的感受非常不好——你明明一路小心翼翼地推进,结果助手突然来一个毫无道理的操作,把你做过的工作抹掉一部分。那种"我到底能不能信任你"的不安感比损失本身更让人难受。我甚至忍不住当场怼了 Codex 一顿,虽然我也知道骂它并没有什么实际意义。

冷静下来之后想了想,问题出在我过于依赖它"应该能理解当前状态"这个假设。AI 助手在连续操作中会丢失上下文、混淆指令方向,尤其是在"保留"和"删除"这种语义相反的操作之间频繁切换时。事后我调整了工作方式:执行删除之前先列出完整的待删清单做二次确认,删完之后再做目录对账。对于这类内容,尽量采用"整体重建目标状态"的方式,而不是在现有文件上反复做局部修补——后者太容易出错了,不管操作者是人还是 AI。

意外收获:提示词的整理

推文里还有一类特殊内容——AI 绘图的提示词。有些帖子是"图片在主帖、提示词在回复"的模式,需要把上下文配对起来才能还原完整信息。

最终只保留了那些确实能提取出完整提示词的条目,把质量不够的一律放弃。宁可少收一些,也不要让垃圾混进来降低整体质量。这些提示词按主题归类后单独存放,作为以后复用的素材库。

几点感悟

第一,内容整理的核心不是"保留尽可能多",而是"保留真正有价值的"。放低标准看似省事,但会让后续的浏览和检索体验变差,最终这些内容还是没人看。

第二,批量处理内容的时候,一定要保留中间状态。筛选标准随时可能调整,如果每一步都是不可逆的,一旦判断失误就只能从头来过。

第三,自动化和人工判断各有所长。机器擅长做硬性规则的过滤(长度、语言、关键词匹配),但"这条内容是不是值得留下"这种偏主观的判断,还是需要人来拍板。好的流程是让两者各司其职,而不是试图用其中一方完全替代另一方。