这里长方形框中两个方格内的整数被看成是所移动的行块的编号。在要构成新的行块配 对时,只要将每个处理器所对应的行块按箭头方向移至相邻的处理器即可,这样的传送可以 在行块之间实现完全配对。当编号为i和j的两个行块被送至同一处理器时,令编号为i的 行块中的每行元素和编号为j的行块中的每行元素配对,以消去相应的非主对角元素,这样 在所有的行块都两两配对之后,可以将所有的非主对角元素消去一遍,从而完成一轮计算 由图1.1可以看出,在一轮计算中,处理器之间要2p-1次交换行块。为保证不同行块配对 时可以将原矩阵A的非主对角元素消去,引入变量b记录每个处理器中的行块数据在原矩 阵A中的实际行号。在行块交换时,变量b也跟着相应的行块在各处理器之间传送。 处理器之间的数据块交换存在如下规律 0号处理器前一个行块(简称前数据块,后一个行块简称后数据块)始终保持不变,将后 数据块发送给1号处理器,作为1号处理器的前数据块。同时接收1号处理器发送的后数据 块作为自己的后数据块 1号处理器首先将后数据块发送给编号为p-2的处理器,作为p-2号处理器的后数据 块。然后将前数据块移至后数据块的位置上,最后接收p-2号处理器发送的前数据块作为自 己的前数据块。 编号为 my rank的其余处理器将前数据块发送给编号为 my rank+1的处理器,作为 my rank+Ⅰ号处理器的前数据块。将后数据块发送给编号为 my rank-1的处理器,作为 my rank-1号处理器的后数据块。 为了避免在通信过程中发生死锁,奇数号处理器和偶数号处理器的收发顺序被错开。 使偶数号处理器先发送后接收:而奇数号处理器先将数据保存在缓冲区中,然后接收偶数号 处理器发送的数据,最后再将缓冲区中的数据发送给偶数号处理器。数据块传送的具体过程 描述如下: 算法214雅可比法求对称矩阵特征值的并行过程中处理器之间的数据块交换算法 输入:矩阵A的行数据块和向量b的数据块分布于各个处理器中 输出:在处理器阵列中传送后的矩阵A的行数据块和向量b的数据块 对所有处理器 my rank( my rank=0…,p-1)同时执行如下的算法 矩阵A和向量b为要传送的数据块* (1)if( my-rank=0)then/*0号处理器* (1.1)将后数据块发送给1号处理器 (1.2)接收1号处理器发送来的后数据块作为自己的后数据块 (2)if(( my-rank=p-1)and(my- rank mod2≠0)then/*处理器p-1且其为奇数* (2.1)fori=m/2tom-1do/*将后数据块保存在缓冲区buer中* forj=0 to n-l do buffer{i-m2,/=q[i小 d fo 2.2 )for i=m/2 to m-I do
这里长方形框中两个方格内的整数被看成是所移动的行块的编号。在要构成新的行块配 对时,只要将每个处理器所对应的行块按箭头方向移至相邻的处理器即可,这样的传送可以 在行块之间实现完全配对。当编号为 i 和 j 的两个行块被送至同一处理器时,令编号为 i 的 行块中的每行元素和编号为 j 的行块中的每行元素配对,以消去相应的非主对角元素,这样 在所有的行块都两两配对之后,可以将所有的非主对角元素消去一遍,从而完成一轮计算。 由图 1.1 可以看出,在一轮计算中,处理器之间要 2p-1 次交换行块。为保证不同行块配对 时可以将原矩阵 A 的非主对角元素消去,引入变量 b 记录每个处理器中的行块数据在原矩 阵 A 中的实际行号。在行块交换时,变量 b 也跟着相应的行块在各处理器之间传送。 处理器之间的数据块交换存在如下规律: 0 号处理器前一个行块(简称前数据块,后一个行块简称后数据块)始终保持不变,将后 数据块发送给 1 号处理器,作为 1 号处理器的前数据块。同时接收 1 号处理器发送的后数据 块作为自己的后数据块。 p-1 号处理器首先将后数据块发送给编号为 p-2 的处理器,作为 p-2 号处理器的后数据 块。然后将前数据块移至后数据块的位置上,最后接收 p-2 号处理器发送的前数据块作为自 己的前数据块。 编号为 my_rank 的其余处理器将前数据块发送给编号为 my_rank+1 的处理器,作为 my_rank+1 号处理器的前数据块。将后数据块发送给编号为 my_rank-1 的处理器,作为 my_rank-1 号处理器的后数据块。 为了避免在通信过程中发生死锁,奇数号处理器和偶数号处理器的收发顺序被错开。 使偶数号处理器先发送后接收;而奇数号处理器先将数据保存在缓冲区中,然后接收偶数号 处理器发送的数据,最后再将缓冲区中的数据发送给偶数号处理器。数据块传送的具体过程 描述如下: 算法 21.4 雅可比法求对称矩阵特征值的并行过程中处理器之间的数据块交换算法 输入:矩阵 A 的行数据块和向量 b 的数据块分布于各个处理器中 输出:在处理器阵列中传送后的矩阵 A 的行数据块和向量 b 的数据块 Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: /*矩阵 A 和向量 b 为要传送的数据块*/ (1)if (my-rank=0) then /*0 号处理器*/ (1.1)将后数据块发送给 1 号处理器 (1.2)接收 1 号处理器发送来的后数据块作为自己的后数据块 end if (2)if ((my-rank=p-1) and ( my-rank mod 2 ≠ 0)) then /*处理器 p-1 且其为奇数*/ (2.1)for i=m/2 to m-1 do /* 将后数据块保存在缓冲区 buffer 中*/ for j=0 to n-1 do buffer[i-m/2,j]=a[i,j] end for end for (2.2)for i=m/2 to m-1 do
buf[i-m/2]=bd (2.3)for=0tom2-ldo/*将前数据块移至后数据块的位置上*/ =0 to n-1 de a计+m2=a[i end f (2. 4)for i=0 to m/2-1 do b计+m/2]=b d fo (2.5)接收p-2号处理器发送的数据块作为自己的前数据块 (26)将bfer中的后数据块发送给编号为p-2的处理器 3)ir( my-rank=p-1)and( my-rank mod2=0)then/*处理器p1且其为偶数* (3.1)将后数据块发送给编号为p2的处理器 (3,2)fori=0tom/2-1do/*将前数据块移至后数据块的位置上* orj=0 to n-l do a计+m2=a nd fo (3. 3)for i=0 to m/2-1 do b计+m/2]=b end ior (34)接收p-2号处理器发送的数据块作为自己的前数据块 (4)if(( my-rank≠p-l)and( my-rank≠0)then/其它的处理器* (4)f(my- rank mod2=0)then/偶数号处理器* ()将前数据块发送给编号为 my rank+1的处理器 (i)将后数据块发送给编号为 my rank-1的处理器 (in)接收编号为 my rank-1的处理器发送的数据块作为自己的前 数据块 (iv)接收编号为 my rank+1的处理器发送的数据块作为自己的后 数据块 else/*奇数号处理器* (v)for=0tom-1do/*将前后数据块保存在缓冲区buer中* for户=0ton-ld (vifor i=0 to m-l do buf[]=b[i nd for (ⅶi)接收编号为 my rank-1的处理器发送的数据块作为自己的前 数据块
buf [i-m/2] =b[i] end for (2.3)for i=0 to m/2-1 do /*将前数据块移至后数据块的位置上*/ for j=0 to n-1 do a[i+m/2,j]=a[i,j] end for end for (2.4)for i=0 to m/2-1 do b[i+m/2] =b[i] end for (2.5)接收 p-2 号处理器发送的数据块作为自己的前数据块 (2.6)将 buffer 中的后数据块发送给编号为 p-2 的处理器 end if (3)if ((my-rank=p-1) and ( my-rank mod 2=0)) then /*处理器 p-1 且其为偶数*/ (3.1)将后数据块发送给编号为 p-2 的处理器 (3.2)for i=0 to m/2-1 do /*将前数据块移至后数据块的位置上*/ for j=0 to n-1 do a[i+m/2,j]=a[i,j] end for end for (3.3)for i=0 to m/2-1 do b[i+m/2] =b[i] end for (3.4)接收 p-2 号处理器发送的数据块作为自己的前数据块 end if (4)if ((my-rank ≠ p-1) and ( my-rank ≠ 0)) then /*其它的处理器*/ (4.1)if (my-rank mod 2=0) then /*偶数号处理器*/ (i)将前数据块发送给编号为 my_rank+1 的处理器 (ii)将后数据块发送给编号为 my_rank-1 的处理器 (ii)接收编号为 my_rank-1 的处理器发送的数据块作为自己的前 数据块 (iv)接收编号为 my_rank+1 的处理器发送的数据块作为自己的后 数据块 else /*奇数号处理器*/ (v)for i=0 to m-1 do /* 将前后数据块保存在缓冲区 buffer 中*/ for j=0 to n-1 do buffer[i,j]=a[i,j] end for end for (vi)for i=0 to m-1 do buf[i] =b[i] end for (vii)接收编号为 my_rank-1 的处理器发送的数据块作为自己的前 数据块
(vi)接收编号为 my rank+1的处理器发送的数据块作为自己的 后数据块 (ⅸx)将存于buer中的前数据块发送给编号为 my rank+1的处理 (x)将存于buer中的后数据块发送给编号为 my rank-1的处理器 end if end if End 各处理器并行地对其局部存储器中的非主对角元素a进行消去,首先计算旋转参数并 对第i行和第j行两行元素进行旋转行变换。然后通过扩展收集操作将相应的旋转参数及第 i列和第j列的列号按处理器编号连接起来并广播给所有处理器。各处理器在收到这些旋转 参数和列号之后,按0,1,…P-1的顺序依次读取旋转参数及列号并对其m行中的第i列和第 j列元素进行旋转列变换 经过一轮计算的2p-1次数据交换之后,原矩阵A的所有非主对角元素都被消去一次 此时,各处理器求其局部存储器中的非主对角元素的最大元 localmax,然后通过归约操作的 求最大值运算求得将整个n阶矩阵非主对角元素的最大元muax,并广播给所有处理器以决定 是否进行下一轮迭代。具体算法框架描述如下: 算法215雅可比法求对称矩阵特征值的并行算法 输入:矩阵Anxn,ε 输出:矩阵A的主对角元素即为A的特征值 对所有处理器 my rank( my rank=0,…,p-1)同时执行如下的算法 (afor i=0 to m-l do b[]= myrank*m+i/b记录处理器中的行块数据在原矩阵A中的实际行号* end for (b)whie(|max|>e)do/*max为A中所有非对角元最大的绝对值 (I)for i=my rank*m to(my rank+l)*m-2 do /*对本处理器内部所有行两两配对进行旋转变换* for j=i+l to(my rank+l)*m-1 do (1.1)= i mod m,闩modm陣*,j为进行旋转变换行(称为主行)的 实际行号,r,t为它们在块内的相对行号 (1.2ff(ar≠0)then/*对四个主元素的旋转变换 fa[rl,g=(a[小-a[,)/2,h=gm(g)°sqgr(+g*g), sin2=h, sinl=h/sgri(2 (1+sgr(l-hh)), cosl=sqrt( l-sinIsinl) bpp=a[r, i*cosl *cosl+a[t,j]*sinl*sinl+a[r;j*sin2 bear i" sinI sinl+at," cosl"cosl-arjsin2 bpg0, bqp=0 (i)fory=0ton-1do体*对两个主行其余元素的旋转变换* if((v≠)and(v≠)then 付y]=a[r;v]*cosl+qny a[t, v]=-a[r, v]*sinl alL, v]*
(viii)接收编号为 my_rank+1 的处理器发送的数据块作为自己的 后数据块 (ix)将存于 buffer 中的前数据块发送给编号为 my_rank+1 的处理 器 (x)将存于buffer中的后数据块发送给编号为my_rank-1的处理器 end if end if End 各处理器并行地对其局部存储器中的非主对角元素 aij 进行消去,首先计算旋转参数并 对第 i 行和第 j 行两行元素进行旋转行变换。然后通过扩展收集操作将相应的旋转参数及第 i 列和第 j 列的列号按处理器编号连接起来并广播给所有处理器。各处理器在收到这些旋转 参数和列号之后,按 0,1,…,p-1 的顺序依次读取旋转参数及列号并对其 m 行中的第 i 列和第 j 列元素进行旋转列变换。 经过一轮计算的 2p-1 次数据交换之后,原矩阵 A 的所有非主对角元素都被消去一次。 此时,各处理器求其局部存储器中的非主对角元素的最大元 localmax,然后通过归约操作的 求最大值运算求得将整个 n 阶矩阵非主对角元素的最大元 max,并广播给所有处理器以决定 是否进行下一轮迭代。具体算法框架描述如下: 算法 21.5 雅可比法求对称矩阵特征值的并行算法 输入:矩阵 An×n,ε 输出:矩阵 A 的主对角元素即为 A 的特征值 Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: (a)for i=0 to m-1 do b[i] =myrank*m+i /* b 记录处理器中的行块数据在原矩阵 A 中的实际行号*/ end for (b)while (│max│>ε) do /* max 为 A 中所有非对角元最大的绝对值*/ (1)for i=my_rank*m to (my_rank+1)*m-2 do /*对本处理器内部所有行两两配对进行旋转变换*/ for j=i+1 to (my_rank+1)*m-1 do (1.1)r=i mod m , t=j mod m /*i, j 为进行旋转变换行(称为主行)的 实际行号, r, t 为它们在块内的相对行号*/ (1.2)if (a[r,j] ≠ 0) then /*对四个主元素的旋转变换*/ (i)Compute: f=-a[r,j], g=( a[t,j]- a[r,i])/2, h=sgn(g)*f/sqrt(f*f+g*g) , sin2=h , sin1=h/sqrt(2*(1+sqrt(1-h*h))) , cos1=sqrt(1-sin1*sin1), bpp= a[r,i]*cos1*cos1+a[t,j]*sin1*sin1+a[r,j]*sin2, bqq= a[r,i]* sin1*sin1+a[t,j]* cos1*cos1-a[r,j]*sin2, bpq=0 , bqp=0 (ii)for v=0 to n-1 do /*对两个主行其余元素的旋转变换*/ if ((v ≠ i) and ( v ≠ j)) then br[v] = a[r,v]*cos1 + a[t,v]*sin1 a[t,v] = -a[r,v]* sin1 + a[t,v]* cos1 end if
end for (infor v=0 to n-l do if((v≠)and(v≠)then end if end for (iv)for 1=0 to m-1 do /*对两个主列在本处理器内的其余元素的旋转变换* if(v≠r)and(v≠) bilv]=av, i* cosl av sinl av=-alv i*sinl +alv* cosl if(v≠p)and(v≠D))then a[, i]= bilv] a[; i=bpp, atj=bqq, a[r=bpq, at, i=bqp /*用 templ保存本处理器主行的行号和旋转参数* 1[0= templ[2=(float)i, templ]=(float y mpl[0]=0, templ[1=0 templ[2]=0, templ3=0 nd if (1.3)将所有处理器empl中的旋转参数及主行的行号 按处理器编号连接起来并广播给所有处理器,存于temp2中 *根据temp2中的其它处理器的旋转参数及主行的行号对相关的 列在本处理器的部分进行旋转变换* (i)Compute sl=temp2[(-1)*4+0],cl=temp2(y-1)*4+1]1 il=(int)temp2[(y-1)*4+21,j1-int)emp2(v-1)*4+3] (i)if(sl、cl、il、jl中有一不为o)then if (my-rank current)then z[-=a[=,i]cl+a{=/1]*sl at[=/l]=a[=,i]*sl+a[=:/1]*cl end for for=0 to m-l d
end for (iii)for v=0 to n-1 do if ((v ≠ i) and ( v ≠ j)) then a[r,v]=br[v] end if end for (iv)for v=0 to m-1 do /*对两个主列在本处理器内的其余元素的旋转变换*/ if (( v ≠ r) and ( v ≠ t)) then bi[v] = a[v,i]*cos1 + a[v,j]*sin1 a[v,j]= - a[v,i]* sin1 + a[v,j]* cos1 end if end for (v)for v=0 to m-1do if ((v ≠ r) and ( v ≠ t)) then a[v,i]= bi[v] end if end for (vi)Compute: a[r,i]=bpp , a[t,j]=bqq , a[r,j]=bpq , a[t,i]=bqp, /*用 temp1 保存本处理器主行的行号和旋转参数*/ temp1[0]=sin1, temp1[1]=cos1, temp1[2]=(float)i ,temp1[3]= (float)j else (vii)Compute: temp1[0]=0, temp1[1]= 0, temp1[2]= 0 , temp1[3]= 0 end if (1.3)将所有处理器 temp1 中的旋转参数及主行的行号 按处理器编号连接起来并广播给所有处理器,存于 temp2 中 (1.4)current=0 (1.5)for v=1 to p do /*根据 temp2 中的其它处理器的旋转参数及主行的行号对相关的 列在本处理器的部分进行旋转变换*/ (i)Compute: s1=temp2[(v-1)*4+0] , c1=temp2[(v-1)*4+1], i1=(int)temp2[(v-1)*4+2], j1=(int)temp2[(v-1)*4+3] (ii )if (s1、c1、 i1、 j1 中有一不为 0) then if (my-rank ≠ current) then for z=0 to m-1 do zi[z]=a[z,i1]*c1 + a[z,j1]*s1 a[ z,j1]=- a[z,i1]*s1 + a[z,j1]*c1 end for for z=0 to m-1 do
a=,il=-i{- end for nd if end if (iii currentcurrent+I end f d fo (2)for counter=l to 2p-2 do *进行2p2次处理器间的数据交换,并对交换后处理器中所有行两两配对 进行旋转变换* (2.1) Data exchange()/处理器间的数据交换* (2.2)for i=0 to m/2-1 do for j=m/2 to m-I do (i)if(a[bUj]≠0)then/对四个主元素的旋转变换* ①Com f-a[i, bll,g=(al, bll-ali, ba)/2 sgn(g)*sgp(升+g*g), sin2=h, sinl=h/sqrt(2*(1+sgr(1-h*))) cosl=sqrt(l-sinl*sinl) bpp=a[, b[i*cosl*cosl+ al, bll*sinl*sin1+a[i, bl]*sin2 bgg[i, b(G*sinl*sinl+al, bl J* cosl*cosl-a[i, bU1*sin2 bpo, bgp=0 ②fory=0ton-1do/*对两个主行其余元素的旋转变换 if((v≠band(v≠bU])then brlv]=a[i, v*cosl +al, v]*sinl al, v]=-a[i, v]*sin1 +al, v]*cosl end if end for ③for= if(v≠b[)and(v≠b))then ai, vl=brlvl end for ④for1=0tom-ldo /*对本处理器内两个主列的其余元素旋转变换 if(v≠)and(v≠))then bilv]=av, b[i*cosl + alv, blJ*sin av,b]]=-a[v,b[小*sin1+av,b]°cosl ⑤fory=0tom-ldo if((v≠D)and(V≠)then av, bal=bilv]
a[z,i1]= zi[z] end for end if end if (iii)current=current+1 end for end for end for (2)for counter=1 to 2p-2 do /*进行 2p-2 次处理器间的数据交换, 并对交换后处理器中所有行两两配对 进行旋转变换*/ (2.1)Data_exchange( ) /*处理器间的数据交换*/ (2.2)for i=0 to m/2-1 do for j=m/2 to m-1 do (i) if (a[i,b[j]] ≠ 0) then /*对四个主元素的旋转变换*/ ①Compute: f= -a[i,b[j]],g=(a[j,b[j]]- a[i,b[i]])/2, h=sgn(g)*f/sqrt(f*f+g*g), sin2=h, sin1=h/sqrt(2*(1+sqrt(1-h*h))), cos1=sqrt(1-sin1*sin1), bpp= a[i,b[i]]*cos1*cos1+ a[j,b[j]]*sin1*sin1+a[i,b[j]]*sin2, bqq= a[i,b[i]]* sin1*sin1+a[j,b[j]]* cos1*cos1-a[i,b[j]]*sin2, bpq=0, bqp=0 ②for v=0 to n-1 do /*对两个主行其余元素的旋转变换*/ if ((v ≠ b[i]) and ( v ≠ b[j])) then br[v] = a[i,v]*cos1 + a[j,v]*sin1 a[j,v] = -a[i,v]* sin1 + a[j,v]* cos1 end if end for ③for v=0 to n-1 do if ((v ≠ b[i]) and ( v ≠ b[j])) then a[i,v]=br[v] end if end for ④for v=0 to m-1 do /*对本处理器内两个主列的其余元素旋转变换*/ if ((v ≠ i) and ( v ≠ j)) then bi[v] = a[v, b[i]]*cos1 + a[v, b[j]]*sin1 a[v, b[j]] = - a[v, b[i]]* sin1 + a[v, b[j]]* cos1 end if end for ⑤for v=0 to m-1 do if ((v ≠ i) and ( v ≠ j)) then a[v, b[i]]=bi[v]