如何广义地理解「所有自然数之和」?

所有自然数之和是负数?! (这是谬误问题)数学证明: 为什么全体自然数的和是负十二分之一?
关注者
2,884
被浏览
1,299,331

60 个回答

  • 发散级数在其它意义下的求和(需要普通微积分水平的背景知识)

视频开头\sum_{n=0}^\infty (-1)^n=\frac{1}{2}这个问题依赖于数列极限的定义。

考虑 Cauchy 的数列极限定义:

如果部分和数列S_nS_n=\sum_{i=1}^n a_i)收敛于有限数s,则对于任意\varepsilon>0,存在正整数N,当n>N时,|S_n-s|<\varepsilon即加的项数足够多以后,部分和S_ns“要多接近有多接近”。

在上面的定义下级数\sum_{n=0}^\infty (-1)^n不收敛的。这可以通过Cauchy收敛定理加以说明:任何收敛的级数其通项必须趋于0。显然这个交错级数不满足这一性质。其实从上面的定义中可以看出部分和在01之间来回震荡,不可能稳定于某个s


数学家为了让这样的数列收敛,就修改了数列收敛的定义。其中一个就是 Cesaro 平均收敛。所谓平均收敛, 只要求\lim_{n\to\infty}\frac{\sum_{i=1}^n S_i}{n}收敛即可,即相当于对S_n求平均值在这个意义下级数收敛:S_n01之间来回震荡,它的平均值是\frac{1}{2}

所以\sum_{n=0}^\infty (-1)^n收敛与否,归根结底是我们对“和”的定义不同。但要指出,Cesaro 和与 Cauchy 和的定义是相容的:如果一个数列在 Cauchy 和的意义下收敛于s,则在 Cesaro 和的意义下也收敛于s,但反之不然。

有关发散级数在其他定义下的“和”还有很多:比如 Abel 和定义为\lim_{x\to1^-}\sum_{n=0}^\infty a_nx^n。容易证明 Abel 和比 Cesaro 和更弱:如果一个数列在 Cesaro 和的意义下收敛于s,则在 Abel 和的意义下也收敛于s,但反之不然。一个反例是\sum_{n=0}^{\infty}(-1)^n(n+1),可以证明这个数列在 Abel 和下收敛于\frac{1}{4},但不能 Cesaro 求和。其他一些例子可以参考 Wikipedia:

发散级数

所有自然数的和\sum_{n=1}^\infty n这个级数在 Cesaro 和 Abel 和的意义下都不收敛。因此为了得到\sum_{n=1}^\infty n=-\frac{1}{12}我们还需要更进一步的看法。

    • 有关错位相加

视频之后的计算几乎是毫无道理的。条件收敛的级数不能随便改变求和顺序,更不必谈原本就发散的级数。所以错位相加肯定是错误的。举一个例子:考虑级数A_n=\underbrace{1+1+\ldots+1}_{n\text{个}}B_n=\underbrace{-1-1-\ldots-1}_{n\text{个}},这两个级数显然都是发散的。但是我们将其错位相加:如果错一位得到的结果便是1(或-1,取决于你错位的方法),错两位便是2(或-2)。不同的错位方法得到的结果不同,错位相加自然不是一个合理的计算方法。

  • Casimir effect 与权重因子(最好能有量子场论的背景知识)

所有自然数之“和”是-\frac{1}{12}这个结论曾经出现在 A.Zee 的《Quantum Field Theory in a Nutshell》关于

Casimir effect

的推导中。具体可以参考 1.9 Disturbing the vacuum 一节。在弦论中也出现过很多类似的求和。这也就是说,\sum_{n=1}^\infty n=-\frac{1}{12}这个奇怪的结果有确实可观测的物理效应。这已经不是单纯利用定义的不同所可以解释的了。

在 A.Zee 的关于 Casimir effect 的推导中,所用的解释是板振动的频率不可能无限高,高于某个截止频率a以后的项都要忽略最终得到这样的结果。他所采用的方法是为n配了一个e^{-an/d}的“权重因子”,再对权重因子求和,当a\to0时展开保留第一项,这是一种常见的方法。下面的这段计算来源于 Polchinski 的《String Theory》的书后习题:

S=\sum_{n=1}^\infty n e^{-\varepsilon n}=\frac{e^\varepsilon}{(e^\varepsilon-1)^2}

它在\varepsilon=0附近的 Laurent 展开是\frac{1}{\varepsilon^2}-\frac{1}{12}+\frac{\varepsilon^2}{240}+O(\varepsilon^4)。在 Casimir effect 中第一项被真空中的零点能抵消,所以只剩下-\frac{1}{12}。真空中的零点能也出现在弦论中,而且弦论中类似的计算中第一项也会被消去。这种找到无穷大的方法实际就是量子场论中的正规化(regularization),而扔掉它则对应着重整化(renormalization)的想法。

因此\sum_{n=1}^\infty n=-\frac{1}{12}实际上被物理学家解读为S=\sum_{n=1}^\infty n e^{-\varepsilon n}\varepsilon=0附近的 Laurent 展开的零阶项的系数。

  • \zeta函数与解析延拓(需要复分析或者复变函数水平的背景知识)

注意到这样一个幂级数展开\sum_{n=0}^\infty(-1)^{n}x^n=\frac{1}{1+x},|x|<1。如果在上式中令x=1,似乎就得到了\sum_{n=0}^\infty (-1)^n=\frac{1}{2}的结果。但要注意上式只有在|x|<1的区域内收敛,令x=1实际上是对相当是对\sum_{n=0}^\infty(-1)^{n}x^n=\frac{1}{1+x},|x|<1解析延拓到全平面(除了-1)的结果。

因此所有自然数之“和”是-\frac{1}{12}其实还有一种更简单的看法。注意到

黎曼ζ函數

的定义是\zeta(s)=\sum_{n=1}^\infty\frac{1}{n^s}。所谓所有自然数之“和”便是\zeta(-1)。在解析延拓的意义下,\zeta(-1)=-\frac{1}{12}

解析延拓很不直观,这个结果和我们之前有关的结论能否对应?答案是肯定的。在陶哲轩的博文 The Euler-Maclaurin formula, Bernoulli numbers, the zeta function, and real-variable analytic continuation 中,便提到解析延拓和光滑渐进形式的联系。在第一部分陶哲轩把一个级数改写成 smoothing sum 的形式并且估计 smoothing sum 的余项。第二部分用这个渐进形式可以得到和解析延拓的关系。这篇文章答主并没有仔细阅读过,感兴趣的同学可以自行阅读。

博文网址:

terrytao.wordpress.com/
  • 总结

我认为这个问题的来源于对数学中定义的滥用,以及人们对定义的误解。

数学家是这个世界上最严谨的一批人,他们谈论什么都有据可循。事实上,数列极限本身就是一个有严格定义的概念(可见答案最开始处的\varepsilon-N定义)。所有学过微积分的同学不妨问自己\sum_{n=1}^\infty\frac{1}{n^2}=\frac{\pi^2}{6}中这个等号的意义是什么,和1+1=2中的等号是否意义相同?一个严肃的数学家绝对不会轻易写下“\sum_{n=0}^\infty (-1)^n=\frac{1}{2},而是可能会告诉你这是在 Cesaro 和意义下的结果或是解析延拓意义下的结果,这里等号的意义已不是\sum_{n=1}^\infty\frac{1}{n^2}=\frac{\pi^2}{6}中的等号或是1+1=2等号的意义。

至于在解析延拓的意义下\sum_{n=1}^\infty n=-\frac{1}{12}这个式子为何会有物理上的效应,这是另外一个问题。粗略地说是因为解析延拓可以反映求和的某些渐进行为。而这背后蕴含的则是物理中正规化的方法和重整化的思想。

  • 相关阅读
真空里面有什么? - andrew shen 的回答
数学功底究竟指的是什么? - andrew shen 的回答

炒个冷饭吧,这里补充的是 Schwartz, M. D. 在 Quantum field theory and the standard model. 一书中的讲法,说明了 1+2+3+\dots=-1/12 这个式子在多大的任意性上成立。

本文假定读者已经大致理解本问题以及类似问题下的主要高票回答。

我们知道,这个式子最早出现在物理问题中,是在考虑(一维标量场的)卡西米尔效应时。考虑如下三块平行板子

板子的存在使得标量场在此处只能取固定边界条件,从而对容许的能态进行了约束,这样系统的基态能量便和参数 a 相关,从而存在一个作用在中间板上的作用力 F 。如果将 L 取成无穷大,我们得到的便是两块平行板之间的相互作用力。写下体系的哈密顿量

H = \sum_n\left[a^\dag_n(a)a_n(a)+\frac{1}{2}\right]\omega_n(a)+\sum_n\left[a^\dag_n(L-a)a_n(L-a)+\frac{1}{2}\right]\omega_n(L-a)

其中和板间距相关的频率为

\omega_n(r)=\frac{n\pi}{r}

我们考虑系统的基态能量

\begin{aligned} E=&\langle0|H|0\rangle\\ =&\frac{1}{2} \sum_n\omega_n(a)+\frac{1}{2}\sum_n\omega_n(L-a)\\ =&\frac{\pi}{2a}\sum_{n=0}^\infty n+\frac{\pi}{2(L-a)}\sum_{n=0}^\infty n \end{aligned}

然后我们就看到了全部正整数之和了。如果不去理会这个和,而先对 a 求偏导来试图得到作用力

F=-\frac{\partial E}{\partial a}

显然,此时发散的无穷求和依旧留在式子中,我们得到了一个发散的作用力。


那么问题出在哪儿呢?出在了边界条件上。我们的这几块板子并不是无穷牛逼的,不管是多高能量的场都能让它在边界上等于零。换句话说,足够高能量的场应该能够直接从板子穿过去,完全不被其影响,从而也不贡献作用力。从这个思路来考虑,上面系统基态能量的求和式应该写成

\begin{aligned} E=&\frac{1}{2} \sum_n\omega_n(a)f\left[\frac{\omega_n(a)}{\pi\Lambda}\right]+\frac{1}{2}\sum_n\omega_n(L-a)f\left[\frac{\omega_n(L-a)}{\pi\Lambda}\right] \end{aligned}

其中 \Lambda 是用来表示足够高的能量到底有多高,而函数 f(x) 具体长什么样应当依赖于板子在高能端的具体性质,但我们起码能确定以下两点:

  • x 很小时 f(x) 趋近于 1
  • x 很大时 f(x) 趋近于 0

然后我们就可以来处理这个求和了。我们假定 L\rightarrow\infty ,先处理第二项

\begin{aligned} &\frac{1}{2}\sum_n\omega_n(L-a)\left[\frac{\omega_n(L-a)}{\pi\Lambda}\right]\\ =&\frac{\pi\Lambda^2(L-a)}{2}\sum_n \frac{ n}{\Lambda(L-a)}f\left[\frac{ n}{\Lambda(L-a)}\right]\times \frac{1}{\Lambda(L-a)} \\ \approx& \frac{\pi}{2}\Lambda^2(L-a)\int xf(x)\,\mathrm dx \end{aligned}

将无穷求和转化为一个积分。和第一项加在一起,得到

E= \frac{\pi}{2}\Lambda^2L\int xf(x)\,\mathrm dx +\frac{\pi}{2}\Lambda^2a\left[\sum_n\frac{n}{\Lambda a}f\left(\frac{n}{\Lambda a}\right)\times \frac{1}{\Lambda a} - \int xf(x)\,\mathrm dx\right]

前一项是某一个很大的常数,而后一项括号里是一个离散的求和与将其连续化后的积分之差。我们可以使用欧拉-麦克劳林公式

\begin{aligned} \sum_{n=1}^NF(n)-\int_0^NF(x)\,\mathrm dx = \sum_{m=0}^\infty\frac{(-1)^{m+1}B_{m+1}}{(m+1)!}\left[F^{(m)}(N)-F^{(m)}(0)\right] \end{aligned}

其中 B_m 是伯努利数。将这个公式代入得

\begin{aligned} E=& \frac{\pi}{2}\Lambda^2L\int xf(x)\,\mathrm dx +\frac{\pi}{2}\Lambda^2a\lim_{x\rightarrow\infty}\\ &\left[\frac{xf(x)-0f(0)}{2}+\frac{f(x)+xf'(x)-f(0)-0f'(0)}{12(\Lambda a)^2}+\dots\right]\\ =&\frac{\pi}{2}\Lambda^2L\int xf(x)\,\mathrm dx +\frac{\pi}{2a}\times\left(-\frac{1}{12}\right)+O(\frac{1}{\Lambda a}) \end{aligned}

我们很兴奋的发现,式子中出现了熟悉的 -1/12 ,这回它却和伯努利数挂上了钩

1+2+3+\dots=-\frac{B_2}{2}=-\frac{1}{12}


上面这些推导告诉我们,卡西米尔效应的物理结论与我们怎么去选取 f(x) 没有任何关系,其他答主使用负指数或者幂函数的正规化因子得到的都应该是这个结果。

事实上,在量子场论中,这叫做任何物理可观测量都不依赖于正规化的方式,即不管我们通过什么办法去消除发散,只要保证前后一致,得到的物理结果应该都是一样的。

当然,这件事并没有得到一般性的证明,感兴趣的读者可以自行尝试,诺贝尔奖在向你招手。