Intel Cluster machine (tube.phys.tohoku.ac.jp) の使用方法

tube.phys.tohoku.ac.jp は HIT の Xenon 2.8 24CPU cluster 機です。 正しく理解して、有効に利用しましょう。

  1. 機種の概要

    hpc01-e が Pentium 4 の 管理サーバ、file サーバーです。

    hpc02-e から hpc13-e までが Xenon 並列機 です。

    1 ボードあたり、2CPU、memory 2GB あります。並列の プログラムは したがって 1GB 以下の memory で動くことが必要です。

  2. account の作り方、初期設定

    管理者に申請し、また file の初期設定コマンドを実行してください。

  3. file の設定方法

    tube で実行する場合に、/home でなく、/home1 に 作業環境がありここで実行することが必要です。

  4. fortran compile 方法

    mpif77 を使います。

  5. 実行方法と、job の確認 (bw)

    MPI で実行する場合には、mpirun command を使います。

    memory の利用状況は、ssh で 実行した host にいって top で 確認下さい。1 ボード あたり 2GB 以上の memory を割り当てると、速度が非常に 遅くなりコンピュータへの負荷が問題になりますから、しないでください。

    /home/skel/bw で job の実行状況がわかります。ssh で w を 実行しているだけです。

    tube1:~% bw
    hpc01: 12:35pm up 12 days, 3:07, 3 users, load average: 0.00, 0.00, 0.00
    hpc02: 11:32am up 12 days, 2:40, 0 users, load average: 1.00, 0.99, 0.91
    hpc03: 11:34am up 12 days, 2:40, 0 users, load average: 1.99, 1.97, 1.91
    hpc04: 11:40am up 12 days, 2:40, 0 users, load average: 1.99, 1.97, 1.91
    hpc05: 12:21pm up 12 days, 2:40, 0 users, load average: 2.00, 1.99, 1.91
    hpc06: 11:37am up 12 days, 2:40, 0 users, load average: 2.07, 1.99, 1.91
    hpc07: 11:37am up 12 days, 2:40, 0 users, load average: 2.00, 2.00, 1.92
    hpc08: 11:44am up 12 days, 2:40, 0 users, load average: 2.15, 2.00, 1.92
    hpc09: 11:41am up 12 days, 2:40, 0 users, load average: 2.00, 2.00, 1.92
    hpc10: 11:47am up 12 days, 2:41, 0 users, load average: 1.99, 1.97, 1.91
    hpc11: 11:42am up 12 days, 2:40, 0 users, load average: 1.99, 1.97, 1.91
    hpc12: 11:47am up 12 days, 2:41, 0 users, load average: 2.00, 1.99, 1.91
    hpc13: 11:47am up 12 days, 2:40, 0 users, load average: 1.99, 1.97, 1.91
    

    hpc01 は tube 自体です。P4 ですので、ここで job を流しては行けません。 管理サーバの機能が損なわれます。

    hpc02-13 が 24CPU のボードになります。一つのボー ドに 2CPU があるのでload average が、2.00 までは job が重ならずに動いていることを示しています。 2.00 以上の場合には、あとから入った job を停止し、 job を待つようにしてください。

    複数の人が同時に使う場合には、調整して job を 投入するcluster をわけてください。または、job キューで 実行が終るのを待ってください。

  6. プログラムの並列化と 適切な多重度