理論グループのミーティングの報告

日時：97/05/20
場所：齋藤理一郎助教授西5-517

メモリ,GL,GSの配置とハウスホルダー変換の手順について

○今回の変更点は、GL のメモリのデータバスを独立にした。: この様な構成にすると GL を通過して GS に入力される場合についでに演算を加えることが出来る。
○ハウスホルダー変換の手順を示した。 W_k C_k α_k β_k を求める。 P_k を求める q_k を求める A_k+1 を求める チップ間の通信がおおいのは A_k+1 の計算で 4 N² /N_GS cycle、 次に多いのが P_k+1 を求めるもので N² /N_GS cycle 全ての k についての通信は約 5 N³/(3 N_GS) cycle となる。 ○上の説明のファイル読んでもわかるのは書いた人だけなので、データのフローを図に示す。 データのフローの簡略図 ○データ量と演算量と計算速度の関係 ハウスホルダー変換に必要な計算はデータ量 N に対して N^3 に比例した演算が必要といわれる。計算速度をあげるには、演算速度をあげるか、演算器の数を増やすことになる。演算器の速度は、そんなに自由にならないが、数の方は比較的自由である。ここでどのようにメモリと演算器を構成すれば良いかを考えることになる。 ハウスホルダー変換に必要な計算はベクトルの内積とか、引き算がほとんどであるが、それ(内積・引き算)を速くするために、演算器の数を増やしても、通信速度が律速になってしまう。なぜなら、データ数/2 と演算回数の比は 1 : 1 程度であるから、演算器にデータを配る時間がそのまま、計算速度になってしまう。 計算速度を速くするには、同時に演算器にデータを送らなくてはならない。チップのなかにすっぽりデータが存在できれば、それは可能であるが、いまのところ実現不可能。 ハウスホルダー変換は、ベクトルにわけて、それぞれ別々に内積や引き算してもかまわないので、それぞれのベクトル計算を並列に計算出来るので、そこに注目して、演算器を増やしたのが今回の、Ver.2 の構成である。: チップ間の通信がおおいのは A_k+1 の計算で 4 N² /N_GS cycle、
次に多いのが P_k+1 を求めるもので N² /N_GS cycle; 全ての k についての通信は約 5 N³/(3 N_GS) cycle となる。
○上の説明のファイル読んでもわかるのは書いた人だけなので、データのフローを図に示す。: データのフローの簡略図
○データ量と演算量と計算速度の関係: ハウスホルダー変換に必要な計算はデータ量 N に対して N^3 に比例した演算が必要といわれる。計算速度をあげるには、演算速度をあげるか、演算器の数を増やすことになる。演算器の速度は、そんなに自由にならないが、数の方は比較的自由である。ここでどのようにメモリと演算器を構成すれば良いかを考えることになる。; ハウスホルダー変換に必要な計算はベクトルの内積とか、引き算がほとんどであるが、それ(内積・引き算)を速くするために、演算器の数を増やしても、通信速度が律速になってしまう。なぜなら、データ数/2 と演算回数の比は 1 : 1 程度であるから、演算器にデータを配る時間がそのまま、計算速度になってしまう。; 計算速度を速くするには、同時に演算器にデータを送らなくてはならない。チップのなかにすっぽりデータが存在できれば、それは可能であるが、いまのところ実現不可能。; ハウスホルダー変換は、ベクトルにわけて、それぞれ別々に内積や引き算してもかまわないので、それぞれのベクトル計算を並列に計算出来るので、そこに注目して、演算器を増やしたのが今回の、Ver.2 の構成である。

(注: グェン君風邪で欠席)

戻る

理論グループのミーティングの報告

メモリ,GL,GSの配置と ハウスホルダー変換の手順について

メモリ,GL,GSの配置とハウスホルダー変換の手順について