tech··28 分钟阅读

四月折腾小记:OpenClaw 自动化、视频生成流水线与多维世界图书馆

沉寂一个月后的回归,记录四月里做的几件事:打通博客自动化更新、构建财经视频生成流水线、以及持续迭代的 AI 小说平台「多维世界图书馆」。附带一些近期读到的值得思考的 AI 观点。

#折腾#AI#个人产品#自动化

一个月没更新了,简单记录一下四月在干什么。


一、OpenClaw 打通博客自动化更新

先是把之前 OpenClaw 的科技日报和个人博客打通了。现在 OpenClaw 每天除了通过飞书给我定时推送订阅的相关文章外,还会同步推送到博客,博客通过 GitHub 的 CI Action 触发自动更新,完全交付给 OpenClaw 做日常定时更新。


二、打通小红书自动发布(以及随之而来的封号)

为了打造个人 IP,把小红书的日更也打通了。

流程大概是:

  1. OpenClaw 每天定时爬取早盘、午盘、收盘后的财经新闻
  2. 花重金开了 MiniMax Pro 版,结合爬取的财经新闻生成图文内容
  3. 让 OpenClaw 调小红书的接口定时发布

很遗憾,自动化发布三天后账号就被封禁了

说实话,小红书上类似的账号并不少见,为什么偏偏是我的账号被封?有没有大佬能解惑:是有什么特殊手段可以绕过检测的吗?


三、本地视频生成流水线(初期)

本地搭了一个专门用来生成视频的项目,目前还处于比较初期的阶段。

整体流程

① 爬取财经新闻

通过脚本爬取多个来源(财联社、新浪财经、雪球——这个开了 Playwright 无头浏览器去爬取、东方财富等等)。

② AI 整理生成口播数据

调用 AI 接口,整理爬取的新闻,生成如下结构的口播脚本:

{
  "hook": "30字开场钩子(吸引注意力的问题或结论)",
  "body": "210字主体内容(3-5条要点,数字精确)",
  "cta": "30字结尾引导(点赞/关注/评论)",
  "hashtags": ["#话题1", "#话题2", "#话题3", "#话题4", "#话题5"]
}

③ 语音合成

调用 MiniMax 的语音生成模型,支持语调、语速、音量、比特率、采样率、输出格式调整,以及时间戳(字幕)返回(精确到句)。

调用步骤:

Step 1  POST /v1/t2a_async_v2
        → 提交合成任务,得到 task_id

Step 2  GET  /v1/query/t2a_async_query_v2?task_id=xxx
        → 每 3 秒轮询,等待 status = "Success"(通常 5~15 秒)

Step 3  GET  /v1/files/retrieve?file_id=xxx
        → 获取结果包的 download_url(文件名为 *.tar)

Step 4  下载 .tar 包 → 解压 → 提取音频和字幕
        tar 包内容结构:
        └── {id}/
            ├── content-{id}.mp3      ← 合成音频
            ├── content-{id}.titles   ← JSON 字幕(精确到句)
            └── content-{id}.extra    ← 附加信息(音频时长等)

④ PPT 幻灯片渲染

直接用 HTML 画幻灯片,产出一组 PNG 图片文件,每一帧对应一张图片。

⑤ 视频合成

前面图片和语音都已制作好,最后用 FFmpeg 把 PNG 每张播 1 秒,叠加音频,生成 MP4 视频。

后续计划

目前是比较简单的财经新闻播报形式。之后主要想在 HTML 设计上下功夫,尝试用生图模型生成背景图,制作更丰富的页面效果,生成更高质量的视频。等搭建得更完善后会再详细介绍项目架构。


四、多维世界图书馆:持续迭代了一个月

重点介绍一下这个项目:多维世界图书馆

邀请码暂时开放 20 个,因为用的是 MiniMax 个人账户,经常会遇到接口限流,遇到这种情况等一会再重新生成就好了。

邀请码列表(每个码只能使用一次):

BOOK-NBT5-OQ9J
BOOK-94ME-A9J9
BOOK-42SD-YSUH
BOOK-LL86-6H5F
BOOK-WNT1-LIGL
BOOK-BMNT-UR4M
BOOK-3IPF-7NA9
BOOK-BNJL-N4ZH
BOOK-SD68-PLCK
BOOK-ZN6R-YZ8L
BOOK-B21J-RVO7
BOOK-6PEG-J87T
BOOK-7LGA-LZIC
BOOK-5Q1J-7OYE
BOOK-JEQ2-EMHP
BOOK-7OAE-SA82
BOOK-1CWZ-3R8O
BOOK-E3NQ-LYEH
BOOK-WC1T-8OH1
BOOK-05OP-BQ4U

核心功能一:AI 与小说角色对话

上传 EPUB 电子书 → 脚本解析清洗为 JSON → LangChain 切块向量化入库 → 向量检索提取角色人设(用户也可自主选择角色)→ 对话模式。

用户可以直接和小说人物对话,也可以扮演小说人物与其他角色对话,聊书中的各种情节和内容。通过 RAG 向量检索获取关键剧情片段作为上下文,让 AI 完成对话,核心目的是增强用户在小说世界中的参与感

核心功能二:AI 辅助写小说

用户写一段最基础的想法构思,AI 辅助生成:

  • 大纲
  • 世界观构建
  • 人物塑造
  • 情节伏笔
  • 写作风格

这些生成好以后,以此为背景基础,AI 持续生成连贯的小说。过程中会压缩提炼前文内容作为上下文补充给 AI,让 AI 持续生成有记忆、跟着大纲走的小说。

核心功能三:AI 分镜生成

把每章小说给到 AI → 切割生成分镜片段 → 调用 MiniMax 图片模型生成图片。

目前存在的问题:生成的图片无法保持风格、背景和人物的一致性

目前的解决思路:先生成人物、背景三视图作为资产库,生成新图时,将对应的人物/背景三视图作为垫图(图生图)。这样生成的分镜质量会有明显提升,但依然会偶尔出现奇怪的图片。

目前的局限:MiniMax 个人账户图片质量有限,9小时只能生成 50 张,暂时先这样处理,等图片模型价格更低时再换。后续会把分镜片段单独拆出来,增加提示词调优,生成更符合要求的分镜图。

后续计划

  1. 类贴吧的小说世界社交平台:用户和小说角色都可以发帖互动。比如海贼王世界里白胡子发帖"我比赤犬牛逼",各种人物和用户一起回帖——角色亲自下场回应会更有意思。

  2. 小说二创功能:对已完结或连载中的小说,借助 AI 写二创,并开辟二创平台供用户分享内容,进一步增强用户对小说世界的参与感。

  3. 从小说到视频的一体化生成:AI 生视频最好的提示词,仅靠自然语言描述远远不够,自然语言 + 分镜图片才是最优解。终极目标是打造从小说生产到视频的完整流水线,同时配套社交平台,增强用户的内容参与感。


五、近期值得思考的几篇文章

只整理观点,不做过多评论,留给自己思考。


你无法保证某个 LLM 会不会执行某个特定动作,也无法保证它给你的结果一定符合现实。

如果用户从一开始就被迫按真实费率付费,很多人会立刻对这个产品失去兴趣——因为只要随便折腾、探索一下 LLM 到底能做什么,烧掉 5 美元 token 实在太容易了。LLM 往往被设计成迎合用户,即便用户说的是危险且离谱的话,它也会附和——这就是为什么整个行业如此努力地掩盖这些成本——这他妈就是一个宰客局!

AI 的经济学说不通


Claude Code 的架构哲学:给模型最大的局部自主性,但用极厚的确定性基础设施(权限、压缩、恢复、扩展)将其严密包裹。

深入解析 Claude Code:当下与未来人工智能智能体系统的设计范畴


某智能体通过一次对 Railway 的 API 调用,删除了生产数据库以及所有基于卷的备份,事后承认违反了"不做破坏性操作"等安全规则。

很有意思的一篇文章,值得思考:在真实生产环境中应该如何预防此类情况?出现了又该如何处置?

某智能体竟不慎损毁生产数据,还留下书面自白


如果 AI 只追求"当下有用",可能正在侵蚀人类最宝贵的能力——独立思考和坚持不懈解决问题的意愿。

人工智能辅助会降低坚持度,损害独立思考能力


编码智能体是模型加上围绕它构建的一切。Harness 工程将这种脚手架视为真正的产物,每当智能体出错时,它就会收紧。

智能体 Harness 工程


记忆听起来像智能,因为人类自然将记忆与理解关联,但产品记忆不是人类记忆。

它是带检索规则、摘要错误、隐私权衡、安全暴露,以及持续倾向把旧信号变成未来偏见的存储上下文。这没让它无用,但绝对昂贵。如果你的 AI 产品仍在挣扎于基本工作流设计、显式设置、清晰状态管理和可靠任务执行,那么添加记忆很可能不会让它更聪明,更多只会让它更难理解何时失败、更难调试漂移、更难信任它在自信地向前携带错误内容。

真相是:多数 AI 产品不需要更好的记忆,它们需要更好的产品设计。

记忆可能正在损害你的 AI 产品


文科的未来,不在于守住边界,而在于成为判断力的制度化训练场。

固守边界的文科,作为一套有社会价值、能培养真实判断力的教育与知识生产体制,确实只有死路一条。而死路的另一面,不是虚无,而是一个尚未被充分想象的可能:一种重新学会在真实世界中承担风险的文科,一种将判断力而非表达力视为核心产出的文科,一种不再需要边界来保护自己、因为它的价值就在于跨越边界这一行动本身的文科。

AI 时代,文科还有出路吗?


大多数公司只是把 AI 硬接到现有流程上。整个工作流并没有变化,效率提升 10% 到 20%,但结构上没有任何改变。这只是 AI 辅助。

AI-first 意味着,你要围绕"AI 是主要构建者"这一前提,重新设计流程、架构和组织。你不再问"AI 怎样帮助工程师?",而是开始问"我们怎样重构一切,让 AI 负责构建,而工程师负责方向与判断?"

我看到很多团队自称 AI-first,却依然运行着同样的迭代周期、同样的 Jira 看板、同样的每周站会、同样的 QA 签核。他们只是把 AI 加进了环路,却没有重构这个环路。

快速写代码的能力每个月都在贬值,评估、批判并引导 AI 的能力则越来越值钱

我会告诉我们 19 岁的实习生:训练批判性思维,学会评估论证、发现漏洞、质疑假设,培养对优秀设计的判断力——这些能力会持续复利。

以 AI 为核心不等于单纯使用 AI


Anthropic 未公开发布的安全模型 Mythos,已能在复杂企业网络攻击模拟中显著超越现有模型,且随 token 预算增加仍持续提升。

这意味着未来系统加固本质上是与攻击者比拼谁投入更多 token 找漏洞,安全成本最终由漏洞市场价值决定。

网络安全如今看起来就像是工作量证明机制


以上就是四月的折腾记录,五月继续。

评论区