シミュレーション用高速計算機のしくみ

すでに述べたように、コンピュータを用いて自然現象のシミュレーションを行うには高速かつ記憶容量の大きな計算機が必要で、常にその時代の最先端の計算機が利用されてきた。いや、むしろ、このような計算を行いたいという要求があって、高速計算機が設計され、計算機技術を押し進めてきたといったほうがよい。これらの高速計算機はスーパーコンピュータともよばれる。計算を高速化するには、素子を高速化する以外に、(1)ひとつの演算が完了する前に次の演算を開始するようにするパイプライン方式、(2)多数の演算ユニットを並列に動作させる並列計算方式、(3)特定の問題に対応した専用演算回路を用いて計算を高速化する方式などがある。参考書としてはたとえば文献[6]がある。

フォンノイマン型計算機

それぞれの高速化方法の話に入る前に従来の計算機の原理を復習しておく。従来の電子計算機はフォンノイマンが提唱した原理に基づいて設計されてきた。その特徴をまとめると次のようになる。

プログラム内蔵
逐次制御
線形アドレスを持つメモリ
命令語とデータ語の区別がない
決定論理

たとえば、ふたつの数の和を求めるというプログラムは単純化した計算機では次のように計算機のメモリに格納されると考えてよい。ただし LD 命令は2進数の 0100、ADD 命令は 0010、ST 命令は 0111、EXIT は 0000 であらわされるものとした。また、番地は2進数4ビットで表現され、1語は8ビットとした。

 番地   命令またはデータ 
 0000   0100 0100        
 0001   0010 0101        
 0010   0111 0110        
 0011   0000 0000        
 0100   0000 0110        
 0101   0000 0010        
 0110   0000 1000

ここで、たとえば0番地の命令は LD 0100 ということで、4番地の内容をレジスタ(CPU内のメモリ)に読み込むことを意味する。このプログラムを 0000番地から実行すると、0100番地の記憶内容と 0101 番地の記憶内容の和が 0110 番地に保存される。その動作をもう少し細かく見ると、メモリから CPU内部の命令レジスタに命令がひとつづつ読み込まれ、解釈されて実行されるという動作が繰り返されている。このように1次元化されたメモリ空間にプログラムをよみこんで逐次的に命令を実行していくことが、フォンノイマン型計算機の特徴である。この方式は単純なので、電子回路の技術が十分でなかった時代でもコンピュータを作ることができた。しかしながら、同時にひとつの命令しか実行することができないということは、高速化という観点からは望ましくない。

パイプライン方式

ひとつの演算が完了するまで待たずに、次の演算を開始することによって高速化するという方法である。ちょうど、自動車をひとりの人が全部作るよりも多くの人を使って流れ作業にした方が単位時間あたりの生産量が上がるのと同じ原理である。あるいは、ひとり乗りのエレベータよりもエスカレータの方が単位時間に多くの人を運べるということとも通じるところがある。前の人が上がり切ってしまうのを待たずとも次の人が乗ることができるからたとえひとりの人が昇るのに30秒かかったとしても15段の階段にひとりずつ乗っていれば2秒にひとりずつ上の階に上げることができるわけである。

たとえば、小数点つきのふたつの数の和を求めるという演算を考えてみよう。科学技術計算では小数点つきの数は浮動小数点数として扱われる。浮動小数点数について十進数の 0.1 を例にして説明する。これを2進数に変換すると 0.00011001100... という無限循環小数になる。この数は 1.1001100... X 2^{-4} のように書くこともできる。このときの 1.1001100... を仮数、2の肩にのっている -4 を指数という。このように小数点つきの数は、仮数の符号仮数 X 2^a の形で表現できる。このような数どうしの和を求める手順は次の4段階からなる。

指数部の比較 (Compare)
仮数部の桁合わせ (Shift)
仮数部の加算 (Add)
加算後の正規化 (Normalize)

正規化というのは 1.***** X 2^a の形に揃えることである。浮動小数点数どうしの和という演算をこれら4つの部分(C,S,A,N)に分けて、従来のように N が終わるまで待たずにすぐ次の C をはじめることで高速化がはかれる。このような機能を持った演算装置のことをパイプライン式演算装置、この方式によるスーパーコンピュータのことをパイプライン式スーパーコンピュータあるいはベクトル計算機とよんでいる。これに対して、パイプライン式演算装置を持っていない計算機のことはスカラー計算機と呼ぶ。パイプライン式スーパーコンピュータの代表が CRAY-1,2, CRAY X-MP, CRAY Y-MP など CRAY 社のスーパーコンピュータである。

コンピュータの性能をはかるときに、よく MFLOPS (メガフロップス)という単位が用いられる。これは1秒間に100万回の浮動小数点演算を行うことができる能力のことである。最近のワークステーションの性能は約30MFLOPS、パイプライン式コンピュータでは CRAY EL92(2CPU) で 267MFLOPS、CRAY の C90 や富士通VPP500 で1CPUあたり 1.5GFLOPS (=1500MFLOPS) 程度である。このようにパイプライン式計算機を用いるとスカラー計算機にくらべて計算速度が10 -- 20 倍はやくなる。パイプライン方式を採用したコンピュータは 1980年頃に製品化され、大学の大型計算機センターなどでも、この方式によるスーパーコンピュータを利用できるようになった。従来のプログラムを少し手直しするだけで、計算速度が一挙に20倍になった感動を忘れることはできない。ただし、パイプライン方式のスーパーコンピュータには次のような限界があるため 1CPUで現在あるもの以上の性能を出すことは難しくなってきている。

計算要素の個数が少ないと最初にパイプラインに入ったデータが出てくるまでの時間がかかるのであまりはやくならない。数十個以上の要素があることが望ましい。
パイプラインの段数以上ははやくならない。スカラー計算機にくらべて 10 -- 20倍が限界である。
パイプライン中を流れるデータの間に相互依存関係があると、ある結果がパイプラインから出てこないと次の計算ができないのではやくならない。

並列処理方式

多数の処理ユニット(Processing Unit: PU と略する)を並列に動作させることによって高速化する方式である。発想的にはパイプライン方式よりもこちらの方が自然かもしれない。人間の脳における情報処理なども多数の神経細胞が協調して並列動作することによって行われているといわれている。技術的には、パイプライン方式よりもこちらの方が難しく、さまざまな実験、失敗を経てきた。有名なのが1970年頃にアメリカで開発されたILLIAC-IVである。当時はまだLSIのような素子技術が未熟であったことと、並列計算に特有な問題(演算ユニット間の通信がボトルネックになることなど)のために、このプロジェクトは成功したとはいえなかった。このあたりの話は参考文献[7]に詳しく書かれている。この教訓から、その後のスーパーコンピュータは当時の技術でも可能だったパイプライン方式を採用することになった。

ところが、上で述べたように、もはやパイプライン方式では性能向上が限界にきている。そこで再びさかんになってきたのが並列計算機の開発である。この背景としては、LSI技術の進歩によって、演算ユニットをLSI化して大量生産することが可能になったこと、LSI化にともなって演算ユニットの信頼性が向上したことがあげられる。初期の製品の例としては、コネクションマシン (参考文献[8])や日本で開発されたPAXなどがある。特に、後者は隣あう格子点間の通信を高速化することに焦点を絞った設計になっていて、流体や電磁流体の計算に適した並列計算機であった。PAX はその後、進化して素粒子理論の計算のための QCDPAX が作られた。これは1台あたり30MFLOPS のPUを480個2次元トーラス状に配置したもので 14GFLOPS の性能を持つ。メモリは 3GB である。PAX の開発については文献2,3、QCDPAX については文献5を参考にするとよい。現在、QCDPAX の次の世代の並列計算機として筑波大学計算物理学研究センターを中心として計算物理学研究のための超並列計算機 CP-PACS (300GFLOPS以上、メモリは 48GB以上)が開発された。並列化によってパイプライン型スーパーコンピュータの100倍の性能が実現されたわけである。現在、1TFLOPS マシンが利用可能になっている。2002年には40TFLOPSの性能を持つ地球シミュレータが完成する予定である。

並列計算機は処理方式によって SIMD (Single Instruction stream Multiple Data stream) と MIMD (Multiple Instruction stream Multiple Data stream) に分類される。

SIMD : 単一命令が複数のデータに対して同時並列処理を行う。
MIMD : 複数の独立した命令が複数の異るデータを処理する。

メモリの配置に関してもふたつの方式がある。

共有メモリ型 : すべてのPUでメモリを共有する方式である。従来のプログラムからの変更が少なくてすむという利点はあるが PU の個数が多くなるとメモリアクセスの競合のために性能が低下する。千葉大学教育用計算機システムの中では CS6400がこの方式を採用している。PU 数は 28個(最大64個)、メモリ-PU 間のバス速度は 1.2GB/sec、現在塔載されているメモリは1792MB (64MB*28) である。
分散メモリ型：各PUがローカルなメモリを持ち、データは PU間通信によって相互に送られる方式。メモリアクセスの競合の問題は回避できるが PU間通信がボトルネックになる。また、PU間通信の部分をプログラム中に記述する必要があるため、従来のプログラムを大幅に書きかえる必要がでてくる。たとえば流体計算で、あるPUが担当している領域の境界部分のデータを更新するためには、隣のPUからデータを送ってもらう必要があり、そのデータが届くまで計算を先に進められなくなる。

PUとPUの接続方法については以下のような方法がある。

2次元、3次元配列 : 基本的には隣どうしのPUだけを結ぶ。2次元配列の場合には上下、左右の4PU、3次元配列なら上下、左右、前後の PU である。ただし、PU を平面あるいは直方体に配置したときの端どうしの PU も結んでおく。こうしておけば、周期的な構造を持つシステムシのミュレーションで利用される周期境界条件を簡単に実現することができる。この方式の欠点は遠方にあるPUと通信しようとすると途中のPUを経由していかないといけないので時間がかかるということである。流体計算などでは隣の格子点の情報だけが必要なことが多いので、この方式で十分である。
nキューブ： n次元立方体の隣りあう頂点に位置するPUどうしを結ぶ方式である。各PUの番号を2進数であらわしたときに、各ビットの値を反転して得られる番号の n個のPUと接続する。たとえば 16個のPUがあるとき 0000 番の PU と 0001,0010,0100,1000 番(いずれも2進数)を結ぶ。PU 番号のハミング距離が1のPUどうしを結ぶという言いかたもできる。いずれの 2PU 間のハミング距離も n 以下である。平均距離は n/2 になる。
クロスバーネットワーク : PU と PU の節点を ON/OFF することによってどのPUとでも通信できるようにした方式である。富士通の VPP などで採用されている。

分散メモリ型の並列計算機では PU間通信がボトルネックになる。たとえば n個のPUにひとつづつ記憶されている n個のデータの和を求めたいとき、各 PUについてまず左隣のデータとの和を求め、次にふたつ左のPUとの和、4つ左のPUとの和.... というようにして求めていく方法がある。このときの加算回数は k=log_2 n 回となって逐次計算機を用いる場合の n 回にくらべて n が大きければ十分小さくなり並列計算機を使うときわめて高速に処理できるように見える。ところが、PUは隣どうししか結ばれていないとして左隣からデータを受信するのにかかる時間を a とすると、転送時間は全部で a + 2a + ... + 2^{k-1} a = (n-1) a であり、a が十分小さくないと並列計算の有効性が生かせなくなる。流体計算についても同様で PU間通信で境界のデータを集めてくる時間がPU内部の格子点の値を更新する時間より十分小さくないと並列計算機を用いてもスピードアップできない。