[LG]《Simulation-BasedInference:APract

爱生活爱珂珂 2025-08-20 07:20:05

[LG]《Simulation-Based Inference: A Practical Guide》M Deistler, J Boelts, P Steinbach, G Moss... [University of Tübingen] (2025)

模拟驱动推断(SBI)实用指南概览:

• 核心挑战:科学与工程领域常需确定符合先验知识和观测数据的模型参数,贝叶斯推断虽原则明确,但对含随机模拟器的模型计算开销巨大。

• SBI方法要点:通过对模拟器生成的数据训练神经网络,绕过对似然函数的直接计算,实现快速“摊销”推断,适用黑盒模拟器,支持并行计算,极大提升推断效率。

• 标准工作流:

1. 定义问题:选择模拟器与合理先验,确保模拟数据覆盖观测范围,防止模型误设。

2. 选择SBI组件:数据表示(原始、摘要统计或嵌入网络)、推断算法(NPE、NLE、NRE等)及推断网络(归一化流、扩散模型等)。

3. 执行推断:生成模拟样本,训练推断网络,进行摊销推断。

4. 诊断验证:模型误设检测、后验预测检验、全局及局部覆盖诊断,确保后验估计的可靠性。

5. 后验分析:可视化后验,研究参数空间特征,计算边际与条件矩,最大后验估计及基于贝叶斯决策理论的应用。

• 方法选择指南:

- NPE适合高维数据及多次推断,推断速度快,训练成本中等,支持嵌入网络,易于处理模拟失败。

- NLE适合i.i.d.数据,训练时样本需求少,但推断需MCMC等采样,计算负担大。

- NRE训练简单(分类器),计算成本低,但同样需采样辅助推断。

• 诊断工具关键:

- 模型误设检测需确保观测数据可由模拟器产生。

- 后验预测检验比较后验预测数据与观测数据分布。

- 覆盖率诊断(SBC、期望覆盖、TARP)检测后验不确定性估计的校准性。

- 局部诊断(LCT、L-C2ST)评估特定观测的后验质量。

• 经典案例:

- 天体物理:引力波信号参数快速摊销推断,使用嵌入网络处理高维时序数据。

- 心理物理学:多次独立试验数据,采用NLE,训练于单次试验,推断时高效处理多试次。

- 神经科学:高维参数空间(31维),大规模模拟训练NPE模型集成,结合多种诊断确保后验质量,揭示参数间复杂耦合关系。

• 未来方向:

- 提升模拟效率及方法鲁棒性,特别是针对模型误设问题。

- 探索更灵活的生成模型(扩散模型、流匹配、基础表格模型)。

- 发展统一建模框架(如Simformer)支持缺失数据与多任务推断。

• 实用资源:

- 全文及代码开源,基于sbi工具箱,支持快速上手与扩展。

- 社区驱动的应用数据库(sbi-applications-explorer.streamlit.app)助力实践者了解领域前沿。

🔗 详细阅读及代码示例👉 arxiv.org/abs/2508.12939

模拟驱动推断贝叶斯推断神经网络科学计算机器学习高性能计算

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注