泡泡资讯网

OpenAI 的Sebastien Bubeck,说OpenAI 的一个内部模型

OpenAI 的Sebastien Bubeck,说OpenAI 的一个内部模型解决了著名的数学猜想Erdős unit distance conjecture(Erdős 单位距离猜想),下面是他的介绍:-----------------OpenAI 的一个内部模型解决了离散几何中最著名的猜想之一,也就是在单位距离问题中,网格是否最优的问题。这个猜想自 80 年前提出以来,尽管一直受到很多关注,却没有取得进展。(不过围绕它的相关问题有很多研究活动和进展!)

我用这篇文章具体解释一下发生了什么。你也可以在我们的 blogpost、由世界顶尖数学家撰写的 companion paper(今天晚些时候会出现在 arxiv 上)、包含 AI 原始证明的 report,以及模型解决这个问题时的重写版 chain of thought 中,找到不同复杂度层级的解释。

我们到底在讨论什么?这个问题表述起来非常简单:如果我在平面上放置 n 个点,这些点两两之间有多少个距离可以相同?通过缩放,也可以等价地问:其中有多少个距离可以等于 1,因此这个问题叫作“单位”距离问题。显然,你可以把一个点放在圆心,其余所有点放在以它为圆心的圆上,这样就会得到 n-1 个相同距离。另一方面,距离总数最多显然是 n^2/2 个。所以真实情况是什么?最好的构造能达到 n 量级,还是 n^2 量级?

Erdos 在 1946 年提出这个问题时,分析了这个问题最自然的构造:把点放在一个简单网格上。这样一来,网格中的一个点有 4 个邻居,因此相同距离的数量至少是 2*n 量级。这里是 2n 而不是 4n,是因为每条距离会被重复计算。但我们可以稍微聪明一点。与其看距离为 1 的顶点,比如网格边长为 1,不如看距离为 sqrt(5) = sqrt(1+2^2) 的顶点。画个小图就能看到,这个距离上有 8 个点!基本上就是沿着一个 L 形移动,而这个 L 形可以朝任意方向旋转,总共有 8 种方式。Erdos 证明了(下面我会给出证明),这个思路可以继续推进,直到大约 u(n) = 2^{log(n)/loglog(n)}。也就是说,网格至少能产生大约 u(n)*n 个相同距离。事实上,这个计算对网格来说是最优的。注意 u(n)*n = n^{1+o(1)},更具体地说,是 n^{1+cst/loglog(n)}。

Erdos 猜想的是:网格本质上是最优的。任何点配置中,相同距离的数量最多都应该是 n^{1+o(1)}。这个问题在过去 80 年里没有取得任何进展,尽管它如此基础、自然,也吸引了很多关注。据我理解,Erdos 非常相信网格是最优的。而在一个紧密相关的问题中,也就是他在同一篇 1946 年论文中提出的“不同距离问题”里,他的直觉得到了验证。不同距离问题就是这个问题的相反版本:给定 n 个点,它们能形成的不同距离最少是多少?网格给出的是 n/sqrt(log(n)) 种不同距离。大约 10 年前,Guth 和 Katz 的一篇突破性论文证明,这基本上是最优的,他们给出了 n/log(n) 的下界。换句话说,所有迹象都指向:网格也应该是单位距离问题的最优候选构造。

这就是 OpenAI 内部模型登场的地方。它非常有力地推翻了这个长期以来的信念,并发现了一个令人震惊的新构造,使相同距离的数量达到 n^{1+delta} 量级,其中 delta>0。为了说明模型是如何取得这个突破的,我需要先讲一点 Erdos 的证明,以及为什么会出现 2^{log(n)/loglog(n)} 这个量。原来,素数藏在这里面!

我们假设关于素数的两件事。第一是素数定理:小于 n 的素数大约有 n/log(n) 个。其实我们需要一个略微更精细的版本,但在这个解释层级上不重要。第二,如果一个素数等于 1 modulo 4,那么它可以在 Gaussian integers 中分解。Gaussian integers 指的是形如 a+ib 的整数,其中 a 和 b 都是整数。也就是说,这种情况下 p = z bar{z}。例如 5=(1+2i)(1-2i),这应该会让你想起前面我们数距离为 sqrt(5) = sqrt(1+2^2) 的 8 个顶点。现在取前 k 个等于 1 modulo 4 的素数 p_1, …, p_k,并考虑数字 R=p_1…p_k = z_1 bar{z_1} … z_k \bar{z_k}。关键在于,我们可以从中得到 2^k 个 Gaussian integers,它们的模都等于 sqrt{R}。做法是:对每个素数 p_i,选择 z_i 或 bar{z_i},然后把它们相乘。这里关键利用了模的乘法性,以及共轭不会改变模。换句话说,我们已经在网格上找到了 2^k 个点,它们到原点的距离都是 sqrt{R}!(严格地说,我们还需要证明这些点彼此不同。这时 Z 中的唯一分解性会变得重要,而这一点在新的证明中也会很关键,不过这里先略过。)接下来只需要看,在保持 sqrt{R}