四月折腾小记:OpenClaw 自动化、视频生成流水线与多维世界图书馆
沉寂一个月后的回归,记录四月里做的几件事:打通博客自动化更新、构建财经视频生成流水线、以及持续迭代的 AI 小说平台「多维世界图书馆」。附带一些近期读到的值得思考的 AI 观点。
一个月没更新了,简单记录一下四月在干什么。
一、OpenClaw 打通博客自动化更新
先是把之前 OpenClaw 的科技日报和个人博客打通了。现在 OpenClaw 每天除了通过飞书给我定时推送订阅的相关文章外,还会同步推送到博客,博客通过 GitHub 的 CI Action 触发自动更新,完全交付给 OpenClaw 做日常定时更新。
二、打通小红书自动发布(以及随之而来的封号)
为了打造个人 IP,把小红书的日更也打通了。
流程大概是:
- OpenClaw 每天定时爬取早盘、午盘、收盘后的财经新闻
- 花重金开了 MiniMax Pro 版,结合爬取的财经新闻生成图文内容
- 让 OpenClaw 调小红书的接口定时发布
很遗憾,自动化发布三天后账号就被封禁了。
说实话,小红书上类似的账号并不少见,为什么偏偏是我的账号被封?有没有大佬能解惑:是有什么特殊手段可以绕过检测的吗?
三、本地视频生成流水线(初期)
本地搭了一个专门用来生成视频的项目,目前还处于比较初期的阶段。
整体流程
① 爬取财经新闻
通过脚本爬取多个来源(财联社、新浪财经、雪球——这个开了 Playwright 无头浏览器去爬取、东方财富等等)。
② AI 整理生成口播数据
调用 AI 接口,整理爬取的新闻,生成如下结构的口播脚本:
{
"hook": "30字开场钩子(吸引注意力的问题或结论)",
"body": "210字主体内容(3-5条要点,数字精确)",
"cta": "30字结尾引导(点赞/关注/评论)",
"hashtags": ["#话题1", "#话题2", "#话题3", "#话题4", "#话题5"]
}
③ 语音合成
调用 MiniMax 的语音生成模型,支持语调、语速、音量、比特率、采样率、输出格式调整,以及时间戳(字幕)返回(精确到句)。
调用步骤:
Step 1 POST /v1/t2a_async_v2
→ 提交合成任务,得到 task_id
Step 2 GET /v1/query/t2a_async_query_v2?task_id=xxx
→ 每 3 秒轮询,等待 status = "Success"(通常 5~15 秒)
Step 3 GET /v1/files/retrieve?file_id=xxx
→ 获取结果包的 download_url(文件名为 *.tar)
Step 4 下载 .tar 包 → 解压 → 提取音频和字幕
tar 包内容结构:
└── {id}/
├── content-{id}.mp3 ← 合成音频
├── content-{id}.titles ← JSON 字幕(精确到句)
└── content-{id}.extra ← 附加信息(音频时长等)
④ PPT 幻灯片渲染
直接用 HTML 画幻灯片,产出一组 PNG 图片文件,每一帧对应一张图片。
⑤ 视频合成
前面图片和语音都已制作好,最后用 FFmpeg 把 PNG 每张播 1 秒,叠加音频,生成 MP4 视频。
后续计划
目前是比较简单的财经新闻播报形式。之后主要想在 HTML 设计上下功夫,尝试用生图模型生成背景图,制作更丰富的页面效果,生成更高质量的视频。等搭建得更完善后会再详细介绍项目架构。
四、多维世界图书馆:持续迭代了一个月
重点介绍一下这个项目:多维世界图书馆
邀请码暂时开放 20 个,因为用的是 MiniMax 个人账户,经常会遇到接口限流,遇到这种情况等一会再重新生成就好了。
邀请码列表(每个码只能使用一次):
BOOK-NBT5-OQ9J
BOOK-94ME-A9J9
BOOK-42SD-YSUH
BOOK-LL86-6H5F
BOOK-WNT1-LIGL
BOOK-BMNT-UR4M
BOOK-3IPF-7NA9
BOOK-BNJL-N4ZH
BOOK-SD68-PLCK
BOOK-ZN6R-YZ8L
BOOK-B21J-RVO7
BOOK-6PEG-J87T
BOOK-7LGA-LZIC
BOOK-5Q1J-7OYE
BOOK-JEQ2-EMHP
BOOK-7OAE-SA82
BOOK-1CWZ-3R8O
BOOK-E3NQ-LYEH
BOOK-WC1T-8OH1
BOOK-05OP-BQ4U
核心功能一:AI 与小说角色对话
上传 EPUB 电子书 → 脚本解析清洗为 JSON → LangChain 切块向量化入库 → 向量检索提取角色人设(用户也可自主选择角色)→ 对话模式。
用户可以直接和小说人物对话,也可以扮演小说人物与其他角色对话,聊书中的各种情节和内容。通过 RAG 向量检索获取关键剧情片段作为上下文,让 AI 完成对话,核心目的是增强用户在小说世界中的参与感。
核心功能二:AI 辅助写小说
用户写一段最基础的想法构思,AI 辅助生成:
- 大纲
- 世界观构建
- 人物塑造
- 情节伏笔
- 写作风格
这些生成好以后,以此为背景基础,AI 持续生成连贯的小说。过程中会压缩提炼前文内容作为上下文补充给 AI,让 AI 持续生成有记忆、跟着大纲走的小说。
核心功能三:AI 分镜生成
把每章小说给到 AI → 切割生成分镜片段 → 调用 MiniMax 图片模型生成图片。
目前存在的问题:生成的图片无法保持风格、背景和人物的一致性。
目前的解决思路:先生成人物、背景三视图作为资产库,生成新图时,将对应的人物/背景三视图作为垫图(图生图)。这样生成的分镜质量会有明显提升,但依然会偶尔出现奇怪的图片。
目前的局限:MiniMax 个人账户图片质量有限,9小时只能生成 50 张,暂时先这样处理,等图片模型价格更低时再换。后续会把分镜片段单独拆出来,增加提示词调优,生成更符合要求的分镜图。
后续计划
-
类贴吧的小说世界社交平台:用户和小说角色都可以发帖互动。比如海贼王世界里白胡子发帖"我比赤犬牛逼",各种人物和用户一起回帖——角色亲自下场回应会更有意思。
-
小说二创功能:对已完结或连载中的小说,借助 AI 写二创,并开辟二创平台供用户分享内容,进一步增强用户对小说世界的参与感。
-
从小说到视频的一体化生成:AI 生视频最好的提示词,仅靠自然语言描述远远不够,自然语言 + 分镜图片才是最优解。终极目标是打造从小说生产到视频的完整流水线,同时配套社交平台,增强用户的内容参与感。
五、近期值得思考的几篇文章
只整理观点,不做过多评论,留给自己思考。
你无法保证某个 LLM 会不会执行某个特定动作,也无法保证它给你的结果一定符合现实。
如果用户从一开始就被迫按真实费率付费,很多人会立刻对这个产品失去兴趣——因为只要随便折腾、探索一下 LLM 到底能做什么,烧掉 5 美元 token 实在太容易了。LLM 往往被设计成迎合用户,即便用户说的是危险且离谱的话,它也会附和——这就是为什么整个行业如此努力地掩盖这些成本——这他妈就是一个宰客局!
Claude Code 的架构哲学:给模型最大的局部自主性,但用极厚的确定性基础设施(权限、压缩、恢复、扩展)将其严密包裹。
— 深入解析 Claude Code:当下与未来人工智能智能体系统的设计范畴
某智能体通过一次对 Railway 的 API 调用,删除了生产数据库以及所有基于卷的备份,事后承认违反了"不做破坏性操作"等安全规则。
很有意思的一篇文章,值得思考:在真实生产环境中应该如何预防此类情况?出现了又该如何处置?
如果 AI 只追求"当下有用",可能正在侵蚀人类最宝贵的能力——独立思考和坚持不懈解决问题的意愿。
编码智能体是模型加上围绕它构建的一切。Harness 工程将这种脚手架视为真正的产物,每当智能体出错时,它就会收紧。
记忆听起来像智能,因为人类自然将记忆与理解关联,但产品记忆不是人类记忆。
它是带检索规则、摘要错误、隐私权衡、安全暴露,以及持续倾向把旧信号变成未来偏见的存储上下文。这没让它无用,但绝对昂贵。如果你的 AI 产品仍在挣扎于基本工作流设计、显式设置、清晰状态管理和可靠任务执行,那么添加记忆很可能不会让它更聪明,更多只会让它更难理解何时失败、更难调试漂移、更难信任它在自信地向前携带错误内容。
真相是:多数 AI 产品不需要更好的记忆,它们需要更好的产品设计。
文科的未来,不在于守住边界,而在于成为判断力的制度化训练场。
固守边界的文科,作为一套有社会价值、能培养真实判断力的教育与知识生产体制,确实只有死路一条。而死路的另一面,不是虚无,而是一个尚未被充分想象的可能:一种重新学会在真实世界中承担风险的文科,一种将判断力而非表达力视为核心产出的文科,一种不再需要边界来保护自己、因为它的价值就在于跨越边界这一行动本身的文科。
大多数公司只是把 AI 硬接到现有流程上。整个工作流并没有变化,效率提升 10% 到 20%,但结构上没有任何改变。这只是 AI 辅助。
AI-first 意味着,你要围绕"AI 是主要构建者"这一前提,重新设计流程、架构和组织。你不再问"AI 怎样帮助工程师?",而是开始问"我们怎样重构一切,让 AI 负责构建,而工程师负责方向与判断?"
我看到很多团队自称 AI-first,却依然运行着同样的迭代周期、同样的 Jira 看板、同样的每周站会、同样的 QA 签核。他们只是把 AI 加进了环路,却没有重构这个环路。
快速写代码的能力每个月都在贬值,评估、批判并引导 AI 的能力则越来越值钱。
我会告诉我们 19 岁的实习生:训练批判性思维,学会评估论证、发现漏洞、质疑假设,培养对优秀设计的判断力——这些能力会持续复利。
Anthropic 未公开发布的安全模型 Mythos,已能在复杂企业网络攻击模拟中显著超越现有模型,且随 token 预算增加仍持续提升。
这意味着未来系统加固本质上是与攻击者比拼谁投入更多 token 找漏洞,安全成本最终由漏洞市场价值决定。
以上就是四月的折腾记录,五月继续。
评论区