泡泡资讯网

死掉的创业公司,成了AI最抢手的训练数据

一家做了 13 年的字幕转录公司,关门时靠卖内部 Slack 存档、Jira 工单和邮件,给创始人换回了“几十万美元”。

一家做了 13 年的字幕转录公司,关门时靠卖内部 Slack 存档、Jira 工单和邮件,给创始人换回了“几十万美元”。这家叫 cielo24 的公司,原本担心付不上最后一笔账单,最后却借此得以干净收尾。

过去一年,硅谷有一批倒闭或正准备倒闭的创业公司,都在用这种方式重新估价:不按现金,不按代码库,也不按还能再卖的办公家具,而是按它们留下的一整套数字履历,比如 Slack 存档、Jira 工单、内部邮件、Confluence 页面、Google Drive 里的工作文档。买家是 AI 实验室,用途是训练下一代能替人干活的 agent。

在短短一年多的时间里,这样一条从清算到训练的产业链迅速形成。上游是倒闭的公司,中游是帮它们关厂顺便打包数据的清算掮客,下游是把这些碎片加工成模拟办公室的新型 AI 创业公司,最终流向 Anthropic 和 OpenAI 这两个最大的买家。每一层玩家都已就位,每一笔交易都已有标价。

专门打扫战场的人

在这条链条的中游,SimpleClosure 和 Sunset 是两家比较有代表性的公司,它们都是 2023 年成立的美国创业公司。

SimpleClosure 由以色列连续创业者 Dori Yona 和 Nimrod Ram 联合创立。Yona 的上一家公司 Earny 是个消费级金融返现应用,用户做到 350 万,累计融资 1,400 万美元,2021 年被私下出售。

图丨Dori Yona 和 Nimrod Ram(来源:SimpleClosure)

关掉 Earny 的经历让 Yona 意识到美国没有“关厂 SaaS”这个品类,而处理相关业务的律所和会计师事务所收费 7 万美元起,流程要拖 6 到 12 个月。SimpleClosure 的定位是“关厂版 TurboTax”,把这件事压缩到几周、几千美元。

Fast Company 的数据显示,SimpleClosure 2024 年一年处理了超过 500 家公司的关厂手续,累计融资约 550 万美元,主要渠道合作方是 Stripe Atlas 和 Carta,后两者本身就是硅谷创业公司从注册到发薪的基础设施,能精准把关门中的客户导过来。

Sunset 的创始人 Brendan Mahony 和 Grant Rheingold 都是 YC 系出身,本人就趟过关厂的坑。Mahony 自己 2017 年创立的玩具公司 Toybox 走的是 YC 路径,2020 年被收购;紧接着第二家公司 Contrast 做不下去,他花了半年多亲自走完清算流程。那次经历让他决定 2023 年开做 Sunset。

Sunset 后来和 Acquire.com 达成合作,后者是硅谷最大的创业公司并购撮合平台,大量“收购”实际是资产收购(acquihire),交易完成后还需要清算留下的法律实体。Sunset 顺势接下这块单子,形成“被收购+留壳清算的闭环业务。

数据交易是两家公司在过去一年才加上的新业务线。据 Forbes 报道,SimpleClosure 过去一年做了“近 100 笔”这类交易,每笔报价在 1 万到 10 万美元区间,累计为创始人回收超过 100 万美元。定价主要看“数据丰度”,比如一张 Jira 工单如果能追溯到具体一次代码提交、一条 Slack 讨论、一次 PR review,价值会远高于一份孤立的 Word 文档。医疗和金融的数据有溢价。

Yona 本周正式推出了一个叫 Asset Hub 的新产品,把 SimpleClosure 过去零散做的数据撮合正式产品化,创业公司关门时可以把代码、域名、IP、设备,连同 Slack 存档、邮件、内部文档一起挂上去交易。Asset Hub 里关于数据的那一栏目前还在 beta,Yona 给的理由是脱敏。

10 亿美元在买什么

SimpleClosure 每笔 1 到 10 万美元的定价,上限由链条末端的买家决定。The Information 在 2025 年 9 月披露,Anthropic 管理层讨论过在未来一年里拿出 10 亿美元投入强化学习环境(RL environments,更通俗的叫法是 RL gyms)。OpenAI 这边,2025 年全年数据开销约 10 亿美元,内部预测到 2030 年将涨到 80 亿美元。

简单而言,RL gym 做的事情就是搭一个“虚拟办公室”,把 Salesforce、Slack、Gmail、Excel、Jira 等主流企业软件的界面和交互逻辑复刻出来,让 AI agent 在里面反复练习。SemiAnalysis 2026 年 1 月盘点过这条赛道,已有名字可查的就有十几家:Habitat、DeepTune、Fleet、Vmax、Turing、Mechanize、Preference Model、Bespoke Labs、Veris.ai、HUD,多数是不到 20 人的种子轮团队,服务 1 到 3 家 AI 大客户,总数估算约 50 家。

一些头部团队的估值增长速度惊人。例如由 Andrej Karpathy、Founders Fund 和 Menlo Ventures 等支持的 Prime Intellect 此前就构建了一个开源社区版 Environments Hub,对标“RL 环境界的 Hugging Face”,2025 年秋季估值已过 10 亿美元。Mechanize 走相反的路数,小而精,给软件工程师开 50 万美元年薪专职造环境,已经是 Anthropic 的合作方。

AfterQuery 是 Y Combinator 2025 年冬季批次的毕业团队,最近拿下 Altos Ventures 领投的 3,000 万美元 A 轮,估值 3 亿美元,ARR 过了 1 亿,主打产品是一系列起名叫“Big Tech World”“Finance World”“Tax World”的模拟公司世界。

还有更早动手的是数据标注公司 Turing,过去一年里已经建了超过 1,000 个 RL 环境,包括 Airbnb、Zendesk、Microsoft Excel 的像素级复刻。据 SemiAnalysis 的统计,单个“UI gym”均价约 2 万美元,OpenAI 过去一年里买了数百个,一次性买断,复用在之后所有代际的模型训练上。数据标注老牌玩家也都挤了进来。

估值 100 亿美元的 Mercor 最近也在向投资人推销它的 RL 环境业务,客户包括 OpenAI、Meta、Anthropic;2024 年营收 12 亿美元的 Surge 成立了专门的 RL 环境部门,CEO Edwin Chen 对 TechCrunch 说过去几个月需求“显著增长”。

在这套供应链里,倒闭公司的数据处于最底层,它们是最快、最便宜、最真的原材料。自己从零搭一个带真实项目轨迹的 Slack 克隆要花几十人月;从一家倒闭公司那里买一份现成的、带完整协作上下文的存档,是更划算的起点。

AfterQuery 的训练题库的一道任务可以帮我们理解这一点。在该任务中,AI agent 被布置去给一个叫 Bob 的同事策划生日 party。它并不知道另一个同事也在张罗同一件事,也忘了 Bob 到底哪天生日。要拿到通关分,它得主动给其他员工发消息、在信息不全的情况下推理、决定是合流还是另起炉灶。

这种任务对应的正是 AI 实验室最想训练的那类能力:在一个信息不全、多方利益、工具分散的日常办公里,把一件琐碎的小事推动到闭环。Dario Amodei 2025 年 5 月公开说过,未来 1 到 5 年 AI 可能消灭掉美国一半的初级白领岗位。而替代那些岗位的能力,有相当一部分就在从 cielo24 这类公司的数据残骸里被训练出来。

那个“脱敏开关”并不存在

尽管发展迅速,但这条产业链目前依然面临着隐私等敏感问题,这也是 Yona 把 Asset Hub 的数据交易板块留在 beta 阶段的原因。

员工的数据并不能只靠简单的“抹掉姓名”就能避免暴露风险。一个人的名字可以替换成任何符号,但他在 Slack 上的语言习惯、项目风格、跟谁吵过架、被谁抄送过邮件这些结构性信号,很难完全清除。

在由 Google DeepMind 的 Milad Nasr、Nicholas Carlini 团队在 ICLR 202 发表的一项研究(Scalable Extraction of Training Data from Aligned, Production Language Models)中,团队成功用两种攻击手段能绕过 ChatGPT 的对齐机制,在超过 23% 的对话里让它吐出训练集原文,甚至可以定向重建指定文档。论文表明,现有对齐机制挡不住训练数据从生产级模型里外流。

图丨相关论文(来源:OpenReview)

这项研究的对象还是用公开互联网数据训练的模型。换成“倒闭公司 Slack 存档”这类更窄、更集中、更多个人痕迹的训练集,风险只会更大。

而在法律层面,美国联邦层面没有对应“员工通讯出售”这种场景的规则,州一级的数据保护法(包括加州 CCPA、伊利诺伊 BIPA)大多只覆盖消费者数据。欧盟 GDPR 理论上适用,但要真正触发起诉,得有某个具体个人意识到自己的数据被某个模型记住了,这是一个几乎无法自举的条件。

非营利组织 Center for AI and Digital Policy 创始人 Marc Rotenberg 本周向美国参议院商务委员会致函,要求 FTC 介入审查这套生意,但从研究提请到监管动作,中间还有较长的一段路要走。

参考资料:

1.https://www.forbes.com/sites/annatong/2026/04/16/ais-new-training-data-your-old-work-slacks-and-emails/

2.https://www.businesswire.com/news/home/20260416986787/en/SimpleClosure-Launches-Asset-Hub-to-Unlock-Value-Startups-Leave-Behind

3.https://www.fastcompany.com/91270762/simpleclosure-most-innovative-companies-2025

4.https://newsletter.semianalysis.com/p/rl-environments-and-rl-for-science

运营/排版:何晨龙