第五章II两体量子系统优化(majorization)和偏序(partialorder)有两个几率分布,表示为几率向量的形式,nEpip= (P1, P2, ..., Pn),pi≥0.=1>q=(q1,q2,**qn),qi≥0,qi=1i=1哪一个更为混乱,哪一个更为有序?用数学中优化的语言来说,如果q优于p(pismajorizedby),记作pq,那么几率分布q更为有序下面介绍“优化”的概念考虑两个n维的非负分量的实向量x,y,它们的分量xi≥0,yi≥0.将它们的分量以降序排列.如果它们满足下列两个条件,kk(i) >k=1,2,..,nXiyi(ii)Xi=>y那么我们说,向量y优于x(xismajorizedbyy),记作x<y如果我们所考虑的向量是几率向量,所有分量的和为1,那么上述第(i)个条件自然满足降序排列后的向量用x+表示x+<xtxt<y, y+<z+ xt<z+partialorder+<yt, yt<x+- xt=yt这个偏序结构中的最小和最大:t)=(1 . )<x*(1 0 …. 0)=)有一个容易证明的简单关系:对于pE[0,1],xt <yt and x±y+ (pxt+(1-p)x±)y*1
第五章 两体量子系统 III 优化 (majorization) 和偏序 (partial order) 有两个几率分布, 表示为几率向量的形式, p = p1; p2; ; pn ; pi > 0; Xn i=1 pi = 1 q = q1; q2; ; qn ; qi > 0; Xn i=1 qi = 1 哪一个更为混乱, 哪一个更为有序? 用数学中优化的语言来说, 如果 q 优于 p (p is majorized by q), 记作 p q, 那么几率分布 q 更为有序. 下面介 绍 ‘‘优化” 的概念. 考虑两个 n 维的非负分量的实向量 x, y, 它们的分量 xi > 0, yi > 0. 将它们的分量以降序排列. 如果它们满足 下列两个条件, (i) X k i xi 6 X k i yi ; k = 1; 2; ; n (ii) Xn i xi = Xn i yi 那么我们说, 向量 y 优于 x (x is majorized by y), 记作 x y. 如果我们所考虑的向量是几率向量, 所有分量的和为 1, 那么上述第 (ii) 个条件自然满足. 降序排列后的向量用 x # 表示. x # x # x # y # ; y# z # H) x # z # x # y # ; y# x # H) x # = y # 9 >>= >>; H) partial order 这个偏序结构中的最小和最大: x # (n) = 1 n 1 n 1 n x # 1 0 0 = x # (1) 有一个容易证明的简单关系: 对于 p 2 [0; 1], x # 1 y # and x # 2 y # H) px # 1 + (1 p)x # 2 y # 1
2几率向量之间的优越关系描述了随机分布的有序性或者混乱程度,x是最为有序的,x)是最为混乱的,下面的定理给出了x<y的充要条件Hardy,Littlewoodand Polyax<y的充要条件是,存在一个双随机矩阵(bistochasticmatrix)B,使得x=By随机矩阵(stochasticmatrix)是这样的,如果n行矩阵B=(biji)的矩阵元非负,即bij≥0,并且每一列的矩阵元的和为1,即Zi=1bij=1,那么B是随机矩阵.进一步地,如果一个n×n的随机矩阵B的每一行的矩阵元的和也为1,即"=bij=1,那么该矩阵是双随机矩阵.想象用一个n行随机矩阵B作用于某个n-分量的几率向量p,将其变换为p=Bp,变换后的几率向量的某一个分量是pi-biupjj=1可以看到,变换前后几率守恒,即变换前=1Pi=1,变换后n24:2a:Zbj = 1pi=bupj=Zbij-11,j=1=1i-对于双随机矩阵,不但保证几率守恒,而且还可以保持“最小的”x不变如果矩阵B的矩阵元bij=[uil,其中uij是某个酉矩阵的矩阵元,那么Zi=ibij=Z=bij=1,表明矩阵B是双随机矩阵,称为酉随机矩阵(unistochasticmatrix):酉随机矩阵一定是双随机矩阵,但是双随机矩阵不一定是酉随机矩阵.密度矩阵的本征值密度矩阵的本征值可以视作观测结果的几率:Cn中的量子态的密度矩阵p="=,iiXsil,即本征值为入i,相应的本征向量为传).如果观测量X与密度矩阵p对易,[X,p]=0,那么在基(si)上它们都是对角的,即X=Z,xiiXsil,其中xi是X的本征值.测量X、得到结果xi的几率是pX = (ilpli) = 入;于是有几率向量pX,pX = = (a1, 22, ..., an)现在,我们想说明,几率向量pX是最优的设另外某个观测量A的本征值和本征向量分别是ai和αi).得到某个结果aj的几率为p4=(αjlplαj)下面的过程给出了pA和pX之间的联系.pf = (αjlplaj)Ea
2 几率向量之间的优越关系描述了随机分布的有序性或者混乱程度. x # (1) 是最为有序的, x # (n) 是最为混乱的. 下面的定理给出了 x y 的充要条件. Hardy, Littlewood and Pólya x y 的充要条件是, 存在一个双随机矩阵 (bistochastic matrix) B, 使得 x = By. 随机矩阵 (stochastic matrix) 是这样的, 如果 n 行矩阵 B = (bij ) 的矩阵元非负, 即 bij > 0, 并且每一列的矩阵 元的和为 1, 即 Pn i=1 bij = 1, 那么 B 是随机矩阵. 进一步地, 如果一个 n n 的随机矩阵 B 的每一行的矩阵元 的和也为 1, 即 Pn j =1 bij = 1, 那么该矩阵是双随机矩阵. 想象用一个 n 行随机矩阵 B 作用于某个 n-分量的几率向量 p, 将其变换为 p 0 = Bp, 变换后的几率向量的某一 个分量是 p 0 i = Xn j =1 bijpj 可以看到, 变换前后几率守恒, 即变换前 Pn i=1 pi = 1, 变换后 Xn i=1 p 0 i = Xn i;j =1 bijpj = Xn j =1 Xn i=1 bij bj = Xn j =1 bj = 1 对于双随机矩阵, 不但保证几率守恒, 而且还可以保持 ‘‘最小的” x # (n) 不变. 如果矩阵 B 的矩阵元 bij = juij j 2 , 其中 uij 是某个酉矩阵的矩阵元, 那么 Pn i=1 bij = Pn j =1 bij = 1, 表明矩阵 B 是双随机矩阵, 称为酉随机矩阵 (unistochastic matrix). 酉随机矩阵一定是双随机矩阵, 但是双随机矩阵不一定 是酉随机矩阵. 密度矩阵的本征值 密度矩阵的本征值可以视作观测结果的几率. Cn 中的量子态的密度矩阵 = Pn i=1 i jiihi j, 即本征值为 i , 相 应的本征向量为 jii. 如果观测量 X 与密度矩阵 对易, [X; ] = 0, 那么在基 fjiig 上它们都是对角的, 即 X = P i xi jiihi j, 其中 xi 是 X 的本征值. 测量 X, 得到结果 xi 的几率是 p X i = hi jjii = i 于是有几率向量 p X , p X = = (1; 2; ; n) 现在, 我们想说明, 几率向量 p X 是最优的. 设另外某个观测量 A 的本征值和本征向量分别是 ai 和 j˛ii. 得到某个结果 aj 的几率为 p A j = h˛j jj˛j i. 下面 的过程给出了 p A j 和 p X i 之间的联系. p A j = h˛j jj˛j i = X i jhi j˛j ij 2 i
3=a (1)用p4表示观测量A的测量结果的几率向量,并定义矩阵D=(di),矩阵元dj=I《ilαj)P,因此有pA= DpX-DA显然矩阵D是酉随机矩阵,也是双随机矩阵,所以有p4<a(2)这说明几率向量入优于p4.Schur凸函数Shur凸函数(Schur-convexfunction)对于xy,如果实函数f满足f(x)≤f(y),那么称之为Schur-convex函数一个可微函数f(xi,x2,,xn)是Schur凸函数,当且仅当f满足下面两个条件,1.函数f关于(xi)是交换不变的.2.对于所有的x=(x1,X2,**,Xn),有afaf(xi x))≥(axax详细的讨论和证明参见T.Ando,Majorization,doublystochasticmatrices,andcomparisonofeigenvalues.Linear Algebra and its Applications 118, 163-248 (1989).例如,下列函数是Schur凸函数,f(x)=Exilog xi,f(x)=Ex (for k ≥1). f(x)=-IIxi, etc.如果f(x)是Schur凸函数,那么-f(x)是Schur凹函数.比如f(x)=-,xlogxi是Schur凹函数Shannon 摘和 von Neumann熵“熵”是Clausius为了讨论物理系统的热力学行为而引入的概念,在Boltzmann,Gibbs等人的工作之后,vonNeumann和Shannon又对摘理论做出了进一步贡献.他们二人的着眼点是不同的,vonNeumann的出发点在于量子力学,Shannon则是奠定了经典通讯理论是系统状态的不确定性和随机性的度量.Shannon认为,物理系统承载着的不确定性可以被视作系统携带的信息。通过适当的操作,我们可以从物理系统中获得一定量的信息,如果物理系统有着较大的不确定性,那么获得的信息也较多
3 = X i jhi j˛j ij 2 p X i (1) 用 p A 表示观测量 A 的测量结果的几率向量, 并定义矩阵 D = (dij ), 矩阵元 dij = jhi j˛j ij 2 , 因此有 p A = Dp X = D 显然矩阵 D 是酉随机矩阵, 也是双随机矩阵, 所以有 p A (2) 这说明几率向量 优于 p A. Schur 凸函数 Shur 凸函数 (Schur-convex function) 对于 x y, 如果实函数 f 满足 f (x) 6 f (y), 那么称之为 Schur-convex 函数. 一个可微函数 f (x1; x2; ; xn) 是 Schur 凸函数, 当且仅当 f 满足下面两个条件, 1. 函数 f 关于 fxi g 是交换不变的. 2. 对于所有的 x = (x1; x2; ; xn), 有 (xi xj ) @f @xi @f @xj > 0 详细的讨论和证明参见 T. Ando, Majorization, doubly stochastic matrices, and comparison of eigenvalues. Linear Algebra and its Applications 118, 163-248 (1989). 例如, 下列函数是 Schur 凸函数, f (x) = X i xi log xi ; f (x) = X i x k i (for k > 1); f (x) = Y i xi ; etc. 如果 f (x) 是 Schur 凸函数, 那么 f (x) 是 Schur 凹函数. 比如 f (x) = P i xi log xi 是 Schur 凹函数. Shannon 熵和 von Neumann 熵 ‘‘熵” 是 Clausius 为了讨论物理系统的热力学行为而引入的概念, 在 Boltzmann, Gibbs 等人的工作之后, von Neumann 和 Shannon 又对熵理论做出了进一步贡献. 他们二人的着眼点是不同的, von Neumann 的出发点在于 量子力学, Shannon 则是奠定了经典通讯理论. 熵是系统状态的不确定性和随机性的度量. Shannon 认为, 物理系统承载着的不确定性可以被视作系统携带的信 息. 通过适当的操作, 我们可以从物理系统中获得一定量的信息. 如果物理系统有着较大的不确定性, 那么获得的 信息也较多
4设经典随机变量X有n个可能的取值xi,相应的概率是pi,且Zipi=1.经典情形下的Shannon摘是H(X) = -pi log pi其中,对数的底可以是2.得到bit,也可以是e,得到nat.在统计力学中,熵是微观状态数的度量,即S=kgln2,其中,kB是Boltzmann常数,Q是微观状态数。考虑Boltzmann分布,N个可区分的粒子放入k个盒子中,并且在第i个盒子中放入N;个粒子,Zk-N;=N,那么状态数是N!W(Nt, N2..., N.) = N! N?! .. N.!用概率的语言描述,粒子放入第i个盒子的概率是pi,那么对于N》1,第i个盒子中的粒子数是Ni=piN,状态数改写为N!W(P1, P2,*** Pk) =(piN)!(p2N)!...(pkNk)!利用Stirling公式InN!=NInN-N+O(lnN),可以看到- .N于是Shannon摘与统计力学中的有着紧密联系,所以有时候也把Shannon摘称为Boltzmann-Gibbs-Shannon摘.量子情形下,有量子摘,又叫vonNeumann摘von Neumann 摘量子态p的vonNeumann摘是S(p) = - Tr(p log p) = - (ai log M)其中入,是密度算子p的本征值纯态的量子熵等于0.C"上的最大混合态的量子摘等于lognvonNeumann摘和统计物理中的在一定程度上有所对应.设想两种不同的理想气体A和B,分别有Ni和N2个气体分子,热力学状态分别是(P,V1,T)和(P,V2,T),也就是说,它们有相同的压强和温度:在相同的温度T下将它们混合,混合后的体积是V=V1+V2.混合前后摘的改变是VVAS=kBNilog+kBN21ogV2用几率P1和p2表示,Ni=PiN,N2=p2N.Vi=piV.V2=p2V而且Pi+P2=1.摘的增量改写为△S=-kBNpilogpi-kBNp2logp2
4 设经典随机变量 X 有 n 个可能的取值 xi , 相应的概率是 pi , 且 P i pi = 1. 经典情形下的 Shannon 熵是 H(X) = X i pi log pi 其中, 对数的底可以是 2, 得到 bit, 也可以是 e, 得到 nat. 在统计力学中, 熵是微观状态数的度量, 即 S = kB ln Ω, 其中, kB 是 Boltzmann 常数, Ω 是微观状态数. 考虑 Boltzmann 分布, N 个可区分的粒子放入 k 个盒子中, 并且在第 i 个盒子中放入 Ni 个粒子, Pk i=1 Ni = N, 那么 状态数是 W (N1; N2; ; Nk) = N! N1! N2! Nk! 用概率的语言描述, 粒子放入第 i 个盒子的概率是 pi , 那么对于 N 1, 第 i 个盒子中的粒子数是 Ni = piN, 状 态数改写为 W (p1; p2; ; pk) = N! (p1N)!(p2N)! (pkNk)! 利用 Stirling 公式 ln N! = N ln N N + O(ln N), 可以看到 ˇ ˇ ˇ ˇ 1 N ln W (p1; p2; ; pk) H(p1; p2; ; pk) ˇ ˇ ˇ ˇ = O ln N N 于是 Shannon 熵与统计力学中的熵有着紧密联系, 所以有时候也把 Shannon 熵称为 Boltzmann-Gibbs-Shannon 熵. 量子情形下, 有量子熵, 又叫 von Neumann 熵. von Neumann 熵 量子态 的 von Neumann 熵是 S() = Tr( log ) = X i (i log i) 其中 i 是密度算子 的本征值. 纯态的量子熵等于 0. Cn 上的最大混合态的量子熵等于 log n. von Neumann 熵和统计物理中的熵在一定程度上有所对应. 设想两种不同的理想气体 A 和 B, 分别有 N1 和 N2 个气体分子, 热力学状态分别是 (P; V1; T ) 和 (P; V2; T ), 也就是说, 它们有相同的压强和温度. 在相同的温度 T 下将它们混合, 混合后的体积是 V = V1 + V2. 混合前后熵的改变是 ∆S = kBN1 log V V1 + kBN2 log V V2 用几率 p1 和 p2 表示, N1 = p1N; N2 = p2N; V1 = p1V; V2 = p2V 而且 p1 + p2 = 1. 熵的增量改写为 ∆S = kBNp1 log p1 kBNp2 log p2
5再引入一些量子力学的描述.假设混合前气体A的分子处于1,气体B的分子处于状态2,这两个状态是正交的.混合前,气体A的熵记作S(y1.PiN),气体B的熵记作S(2,p2N).整体的焰是S(1,PiN)+S(2,P2N)混合后系统的状态是p=Pi1+p22,混合后气体的熵记作S(p,N),S(p, N)=S(1,PiN)+ S(2,P2N)+△S(3)=S(1.PiN)+S(2,P2N)-kNpilogPi-kNp2logP2假定S正比于粒子数,S(1, Ni)= NiS(1), S(2, N2) = N2S(2),S(p, N) = NS(p)在(3)式的两端同除以N,S(p)=P1S()+p2S(2)-kBPilogP1-kBP2logP2而和都是纯态,所以它们的焰应该等于零,S(1)=S(2)=0,进而有S(p)=kBPi log P1-k P2 log P2令Boltzmann常数kB=1,得到vonNeumann摘的表达式1.vonNeumann摘是“最优的”密度矩阵p的本征值构成几率向量a=(, .,a某个观测量A的测量结果的几率构成另一个几率向量pA = (pA..**, Ph)(2)式表明,入优于p4.注意到Shannon熵函数是Schur凹函数,所以有S(p) = H(a) ≤ H(pA)vonNuemann摘是所有观测量测量结果的Shannon摘中的最小值混合态的纯化如果两体(以至于多体)量子系统处于某个纯态亚=)(,那么某个子系统的局部量子态是用约化密度矩阵描述的,子系统的量子态是混合态1气体混合前后摘的改变,这个话题涉及Gibbs伴谜,考虑到量子情形下全同粒子不可区分,Gibbs伴谌这个古老的问题仍然有很多不清楚的地方,参看S. Saunders, The Gibbs Paradox. Entropy 20, 552 (2018)
5 再引入一些量子力学的描述. 假设混合前气体 A 的分子处于 1, 气体 B 的分子处于状态 2, 这两个状态是正交 的. 混合前, 气体 A 的熵记作 S( 1; p1N), 气体 B 的熵记作 S( 2; p2N). 整体的熵是 S( 1; p1N) + S( 2; p2N) 混合后系统的状态是 = p1 1 + p2 2, 混合后气体的熵记作 S(; N), S(; N) = S( 1; p1N) + S( 2; p2N) + ∆S = S( 1; p1N) + S( 2; p2N) kBNp1 log p1 kBNp2 log p2 (3) 假定熵 S 正比于粒子数, S( 1; N1) = N1S( 1); S( 2; N2) = N2S( 2); S(; N) = NS() 在 (3) 式的两端同除以 N, S() = p1S( 1) + p2S( 2) kBp1 log p1 kBp2 log p2 而 1 和 2 都是纯态, 所以它们的熵应该等于零, S( 1) = S( 2) = 0, 进而有 S() = kBp1 log p1 kBp2 log p2 令 Boltzmann 常数 kB = 1, 得到 von Neumann 熵的表达式 1 . von Neumann 熵是 ‘‘最优的” 密度矩阵 的本征值构成几率向量 = 1; ; n) 某个观测量 A 的测量结果的几率构成另一个几率向量 p A = p A 1 ; ; pA n (2) 式表明, 优于 p A. 注意到 Shannon 熵函数是 Schur 凹函数, 所以有 S() = H() 6 H(p A ) von Nuemann 熵是所有观测量测量结果的 Shannon 熵中的最小值. 混合态的纯化 如果两体 (以至于多体) 量子系统处于某个纯态 Ψ = jΨi hΨj, 那么某个子系统的局部量子态是用约化密度矩阵描 述的, 子系统的量子态是混合态. 1 气体混合前后熵的改变, 这个话题涉及 Gibbs 佯谬. 考虑到量子情形下全同粒子不可区分, Gibbs 佯谬这个古老的问题仍然有很多不清楚的地方, 参看 S. Saunders, The Gibbs Paradox. Entropy 20, 552 (2018)