四月折腾小记：OpenClaw 自动化、视频生成流水线与多维世界图书馆

一个月没更新了，简单记录一下四月在干什么。

一、OpenClaw 打通博客自动化更新

先是把之前 OpenClaw 的科技日报和个人博客打通了。现在 OpenClaw 每天除了通过飞书给我定时推送订阅的相关文章外，还会同步推送到博客，博客通过 GitHub 的 CI Action 触发自动更新，完全交付给 OpenClaw 做日常定时更新。

二、打通小红书自动发布（以及随之而来的封号）

为了打造个人 IP，把小红书的日更也打通了。

流程大概是：

OpenClaw 每天定时爬取早盘、午盘、收盘后的财经新闻
花重金开了 MiniMax Pro 版，结合爬取的财经新闻生成图文内容
让 OpenClaw 调小红书的接口定时发布

很遗憾，自动化发布三天后账号就被封禁了。

说实话，小红书上类似的账号并不少见，为什么偏偏是我的账号被封？有没有大佬能解惑：是有什么特殊手段可以绕过检测的吗？

三、本地视频生成流水线（初期）

本地搭了一个专门用来生成视频的项目，目前还处于比较初期的阶段。

整体流程

① 爬取财经新闻

通过脚本爬取多个来源（财联社、新浪财经、雪球——这个开了 Playwright 无头浏览器去爬取、东方财富等等）。

② AI 整理生成口播数据

调用 AI 接口，整理爬取的新闻，生成如下结构的口播脚本：

{
  "hook": "30字开场钩子（吸引注意力的问题或结论）",
  "body": "210字主体内容（3-5条要点，数字精确）",
  "cta": "30字结尾引导（点赞/关注/评论）",
  "hashtags": ["#话题1", "#话题2", "#话题3", "#话题4", "#话题5"]
}

③ 语音合成

调用 MiniMax 的语音生成模型，支持语调、语速、音量、比特率、采样率、输出格式调整，以及时间戳（字幕）返回（精确到句）。

调用步骤：

Step 1  POST /v1/t2a_async_v2
        → 提交合成任务，得到 task_id

Step 2  GET  /v1/query/t2a_async_query_v2?task_id=xxx
        → 每 3 秒轮询，等待 status = "Success"（通常 5~15 秒）

Step 3  GET  /v1/files/retrieve?file_id=xxx
        → 获取结果包的 download_url（文件名为 *.tar）

Step 4  下载 .tar 包 → 解压 → 提取音频和字幕
        tar 包内容结构：
        └── {id}/
            ├── content-{id}.mp3      ← 合成音频
            ├── content-{id}.titles   ← JSON 字幕（精确到句）
            └── content-{id}.extra    ← 附加信息（音频时长等）

④ PPT 幻灯片渲染

直接用 HTML 画幻灯片，产出一组 PNG 图片文件，每一帧对应一张图片。

⑤ 视频合成

前面图片和语音都已制作好，最后用 FFmpeg 把 PNG 每张播 1 秒，叠加音频，生成 MP4 视频。

后续计划

目前是比较简单的财经新闻播报形式。之后主要想在 HTML 设计上下功夫，尝试用生图模型生成背景图，制作更丰富的页面效果，生成更高质量的视频。等搭建得更完善后会再详细介绍项目架构。

四、多维世界图书馆：持续迭代了一个月

重点介绍一下这个项目：多维世界图书馆

邀请码暂时开放 20 个，因为用的是 MiniMax 个人账户，经常会遇到接口限流，遇到这种情况等一会再重新生成就好了。

邀请码列表（每个码只能使用一次）：

BOOK-NBT5-OQ9J
BOOK-94ME-A9J9
BOOK-42SD-YSUH
BOOK-LL86-6H5F
BOOK-WNT1-LIGL
BOOK-BMNT-UR4M
BOOK-3IPF-7NA9
BOOK-BNJL-N4ZH
BOOK-SD68-PLCK
BOOK-ZN6R-YZ8L
BOOK-B21J-RVO7
BOOK-6PEG-J87T
BOOK-7LGA-LZIC
BOOK-5Q1J-7OYE
BOOK-JEQ2-EMHP
BOOK-7OAE-SA82
BOOK-1CWZ-3R8O
BOOK-E3NQ-LYEH
BOOK-WC1T-8OH1
BOOK-05OP-BQ4U

核心功能一：AI 与小说角色对话

上传 EPUB 电子书 → 脚本解析清洗为 JSON → LangChain 切块向量化入库 → 向量检索提取角色人设（用户也可自主选择角色）→ 对话模式。

用户可以直接和小说人物对话，也可以扮演小说人物与其他角色对话，聊书中的各种情节和内容。通过 RAG 向量检索获取关键剧情片段作为上下文，让 AI 完成对话，核心目的是增强用户在小说世界中的参与感。

核心功能二：AI 辅助写小说

用户写一段最基础的想法构思，AI 辅助生成：

大纲
世界观构建
人物塑造
情节伏笔
写作风格

这些生成好以后，以此为背景基础，AI 持续生成连贯的小说。过程中会压缩提炼前文内容作为上下文补充给 AI，让 AI 持续生成有记忆、跟着大纲走的小说。

核心功能三：AI 分镜生成

把每章小说给到 AI → 切割生成分镜片段 → 调用 MiniMax 图片模型生成图片。

目前存在的问题：生成的图片无法保持风格、背景和人物的一致性。

目前的解决思路：先生成人物、背景三视图作为资产库，生成新图时，将对应的人物/背景三视图作为垫图（图生图）。这样生成的分镜质量会有明显提升，但依然会偶尔出现奇怪的图片。

目前的局限：MiniMax 个人账户图片质量有限，9小时只能生成 50 张，暂时先这样处理，等图片模型价格更低时再换。后续会把分镜片段单独拆出来，增加提示词调优，生成更符合要求的分镜图。

后续计划

类贴吧的小说世界社交平台：用户和小说角色都可以发帖互动。比如海贼王世界里白胡子发帖"我比赤犬牛逼"，各种人物和用户一起回帖——角色亲自下场回应会更有意思。
小说二创功能：对已完结或连载中的小说，借助 AI 写二创，并开辟二创平台供用户分享内容，进一步增强用户对小说世界的参与感。
从小说到视频的一体化生成：AI 生视频最好的提示词，仅靠自然语言描述远远不够，自然语言 + 分镜图片才是最优解。终极目标是打造从小说生产到视频的完整流水线，同时配套社交平台，增强用户的内容参与感。

五、近期值得思考的几篇文章

只整理观点，不做过多评论，留给自己思考。

你无法保证某个 LLM 会不会执行某个特定动作，也无法保证它给你的结果一定符合现实。

如果用户从一开始就被迫按真实费率付费，很多人会立刻对这个产品失去兴趣——因为只要随便折腾、探索一下 LLM 到底能做什么，烧掉 5 美元 token 实在太容易了。LLM 往往被设计成迎合用户，即便用户说的是危险且离谱的话，它也会附和——这就是为什么整个行业如此努力地掩盖这些成本——这他妈就是一个宰客局！

— AI 的经济学说不通

Claude Code 的架构哲学：给模型最大的局部自主性，但用极厚的确定性基础设施（权限、压缩、恢复、扩展）将其严密包裹。

— 深入解析 Claude Code：当下与未来人工智能智能体系统的设计范畴

某智能体通过一次对 Railway 的 API 调用，删除了生产数据库以及所有基于卷的备份，事后承认违反了"不做破坏性操作"等安全规则。

很有意思的一篇文章，值得思考：在真实生产环境中应该如何预防此类情况？出现了又该如何处置？

— 某智能体竟不慎损毁生产数据，还留下书面自白

如果 AI 只追求"当下有用"，可能正在侵蚀人类最宝贵的能力——独立思考和坚持不懈解决问题的意愿。

— 人工智能辅助会降低坚持度，损害独立思考能力

编码智能体是模型加上围绕它构建的一切。Harness 工程将这种脚手架视为真正的产物，每当智能体出错时，它就会收紧。

— 智能体 Harness 工程

记忆听起来像智能，因为人类自然将记忆与理解关联，但产品记忆不是人类记忆。

它是带检索规则、摘要错误、隐私权衡、安全暴露，以及持续倾向把旧信号变成未来偏见的存储上下文。这没让它无用，但绝对昂贵。如果你的 AI 产品仍在挣扎于基本工作流设计、显式设置、清晰状态管理和可靠任务执行，那么添加记忆很可能不会让它更聪明，更多只会让它更难理解何时失败、更难调试漂移、更难信任它在自信地向前携带错误内容。

真相是：多数 AI 产品不需要更好的记忆，它们需要更好的产品设计。

— 记忆可能正在损害你的 AI 产品

文科的未来，不在于守住边界，而在于成为判断力的制度化训练场。

固守边界的文科，作为一套有社会价值、能培养真实判断力的教育与知识生产体制，确实只有死路一条。而死路的另一面，不是虚无，而是一个尚未被充分想象的可能：一种重新学会在真实世界中承担风险的文科，一种将判断力而非表达力视为核心产出的文科，一种不再需要边界来保护自己、因为它的价值就在于跨越边界这一行动本身的文科。

— AI 时代，文科还有出路吗？

大多数公司只是把 AI 硬接到现有流程上。整个工作流并没有变化，效率提升 10% 到 20%，但结构上没有任何改变。这只是 AI 辅助。

AI-first 意味着，你要围绕"AI 是主要构建者"这一前提，重新设计流程、架构和组织。你不再问"AI 怎样帮助工程师？"，而是开始问"我们怎样重构一切，让 AI 负责构建，而工程师负责方向与判断？"

我看到很多团队自称 AI-first，却依然运行着同样的迭代周期、同样的 Jira 看板、同样的每周站会、同样的 QA 签核。他们只是把 AI 加进了环路，却没有重构这个环路。

快速写代码的能力每个月都在贬值，评估、批判并引导 AI 的能力则越来越值钱。

我会告诉我们 19 岁的实习生：训练批判性思维，学会评估论证、发现漏洞、质疑假设，培养对优秀设计的判断力——这些能力会持续复利。

— 以 AI 为核心不等于单纯使用 AI

Anthropic 未公开发布的安全模型 Mythos，已能在复杂企业网络攻击模拟中显著超越现有模型，且随 token 预算增加仍持续提升。

这意味着未来系统加固本质上是与攻击者比拼谁投入更多 token 找漏洞，安全成本最终由漏洞市场价值决定。

— 网络安全如今看起来就像是工作量证明机制

以上就是四月的折腾记录，五月继续。

一、OpenClaw 打通博客自动化更新

二、打通小红书自动发布（以及随之而来的封号）

三、本地视频生成流水线（初期）

整体流程

后续计划

四、多维世界图书馆：持续迭代了一个月

核心功能一：AI 与小说角色对话

核心功能二：AI 辅助写小说

核心功能三：AI 分镜生成

后续计划

五、近期值得思考的几篇文章

评论区