[LG]《GaussianEmbeddings:HowJEPAsSecr

爱生活爱珂珂 2025-10-09 06:02:25

[LG]《Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density》R Balestriero, N Ballas, M Rabbat, Y LeCun [Meta-FAIR] (2025)

JEPAs 如何秘密学会你的数据密度?论文揭示了自监督学习中的一个惊人发现👇

1、JEPAs(Joint Embedding Predictive Architectures)通过两个核心目标训练:

- 预测潜在空间中轻微扰动样本的表示

- 防止全部样本陷入同一表示(反坍缩)

2、传统认为反坍缩只是避免表示退化,但论文证明这一项同时隐式地估计了数据的概率密度!

换言之,成功训练的JEPA能直接给出样本的概率分布,且计算高效,闭式表达通过模型在样本点的Jacobian矩阵实现。

3、这意味着JEPAs不只是学习特征,实际上它们也能做数据密度估计,具备强大应用价值:

- 数据清洗与筛选

- 异常检测

- 密度估计等

4、理论结果不依赖于数据集或具体模型架构,实验证明在合成数据、Imagenet甚至多模态模型MetaCLIP上均有效。涵盖JEPA家族中的I-JEPA、DINOv2等方法。

5、论文提出了一个提取JEPA学得密度的算法——JEPA-SCORE,开启了自监督学习中密度估计的新篇章!

📖 原文链接:arxiv.org/abs/2510.05949

这项研究为理解和利用自监督表示学习打开了新视角,值得ML和AI领域关注和深入探索!机器学习 自监督学习 数据密度估计 人工智能

0 阅读:0