Google Cloud Platform Japan Blog

最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。

Slurm で GCP 上に HPC クラスタを構築

2018年4月23日月曜日

今回のインテグレーションにより、Compute Engine 上では、自動スケーリングされた Slurm クラスタを簡単に起動できるようになりました。Slurm クラスタはジョブの要件やキューの深さに応じて自動的にスケーリングします。

Slurm クラウド クラスタをセットアップすると、オンプレミス クラスタのジョブは、フェデレーションによって Compute Engine 上の Slurm クラスタを利用できるようになります。HPC クラスタをクラウド環境に用意しておけば、個々の研究者、チーム、またはジョブは、適切に調整されて弾力性もある専用のリソースを確保して、キューの順番待ちに煩わされず問題解決に集中できます。



ユーザー
Slurm でスケジューリングされるジョブのソースです。研究者、アナリスト、データ生成機器、管理者などが該当します。ここではジョブが準備され、サブミットされます。

ログイン ノード
クラスタの操作、ジョブのサブミット、リソースの利用状況の監視、管理タスクの実行、そのほか必要なメンテナンス作業のためにユーザーが使用するノードです。

コントローラ ノード
Slurm コントローラとデータベースを実行するノードです。Slurm クラスタのリソースとジョブ スケジューリングを管理します。また、/home と /apps の共通ストレージを提供する NFS サーバーを実行します。

計算ノード(複数可)
Slurm コントローラによって割り当てられたタスクを実行する専用の “計算” ノードです。ノードの数が数百に上ることもあります。需要に応えるため、ジョブの要件とキューの深さに基づいてスケーリングされます。

ここからは、Compute Engine 上で Slurm クラスタを起動する手順をたどってみましょう。

ステップ 1 : SchedMD の GitHub リポジトリから Cloud Deployment Manager スクリプトを入手します。詳細は同梱の README.md を参照してください。必要に応じて Deployment Manager スクリプトをカスタマイズすることがあります。クラスタ パラメータの多くは同梱の slurm-cluster.yaml ファイルで設定できます。

slurm-cluster.yaml では、少なくとも munge_key の内容をペーストし、GCP ユーザー名を default_users に指定し、使いたい Slurm のバージョン(たとえば 17.11.5)を指定するといったカスタマイズが必要になります。

ステップ 2 : Cloud Shell か、gcloud コマンドがインストールされたローカル端末で以下のコマンドを実行します。

gcloud deployment-manager deployments create slurm --config 
slurm-cluster.yaml

次に、Developers Console の Deployment Manager セクションに移動し、デプロイが成功していることを確かめます。



ステップ 3 : Developers Console の Compute Engine セクションに移動すると、Deployment Manager がいくつかの VM インスタンスを作成しており、その中に Slurm ログイン ノードが含まれていることがわかります。VM がプロビジョニングされ、VM 上に Slurm がインストールされて設定が行われたら、Console の SSH ボタンをクリックするか、gcloud compute ssh login1 --zone=us-west1-a を実行すれば、SSH でログイン ノードに入れます(slurm-cluster.yaml ファイルでゾーンを書き換えた場合は、ゾーンを変更しなければならないことがあります)。

ログインすると、いつもと同じように sbatch を使って Slurm とやり取りを行い、ジョブをサブミットできます。たとえば、slurm-sample1.sh という新しいファイルに以下のサンプル スクリプトをコピーします。

#!/bin/bash
#
#SBATCH --job-name=hostname_sleep_sample
#SBATCH --output=out_%j.txt
#
#SBATCH --nodes=2

srun hostname
sleep 60

そして、以下のようにサブミットします。

sbatch slurm-sample1.sh

次に sinfo と squeue コマンドを使用すれば、ジョブが計算ノードで分散処理されていることを確認できます。

サブミットされたジョブにおいて、最初にデプロイされたときよりも多くのリソースが必要になった場合は、slurm-cluster.yaml で指定された上限に達するまで新しいインスタンスが自動的に作成されることに注意してください。これは、#SBATCH --nodes=4 を指定してジョブを再度サブミットすれば試せます。一時的な計算インスタンスは、指定された時間アイドル状態が続くと、デプロビジョニングされます。

なお、Deployment Manager スクリプトは、デプロイの一環として NFS をセットアップすることに注意してください。

詳細は同梱の README をご覧ください。また、Slurm の導入にあたって支援が必要な場合は、クイックスタート ガイドを参照するか、SchedMD にお問い合わせください。

* この投稿は米国時間 3 月 23 日、Product Manager の Michael Basilyan、HPC Specialists の Wyatt Gorman と Keith Binder、Partner Manager の Annie Ma-Weaver によって投稿されたもの(投稿はこちら)の抄訳です。

- By Michael Basilyan, Product Manager; Wyatt Gorman and Keith Binder, HPC Specialists; and Annie Ma-Weaver, Partner Manager
Share on Twitter Share on Facebook

Google
ラベル: Compute Engine , Slurm
  

12 か月間のトライアル

12 か月間のトライアル
300 ドル相当が無料になるトライアルで、あらゆる GCP プロダクトをお試しいただけます。

Labels


  • .NET
  • .NET Core
  • .NET Core ランタイム
  • .NET Foundation
  • #gc_inside
  • #gc-inside
  • #GoogleCloudSummit
  • #GoogleNext18
  • #GoogleNext19
  • #inevitableja
  • Access Management
  • Access Transparency
  • Advanced Solutions Lab
  • AI
  • AI Hub
  • AlphaGo
  • Ansible
  • Anthos
  • Anvato
  • Apache Beam
  • Apache Maven
  • Apache Spark
  • API
  • Apigee
  • APIs Explore
  • App Engine
  • App Engine Flex
  • App Engine flexible
  • AppArmor
  • AppEngine
  • AppScale
  • AprilFool
  • AR
  • Artifactory
  • ASL
  • ASP.NET
  • ASP.NET Core
  • Attunity
  • AutoML Vision
  • AWS
  • Big Data
  • Big Data NoSQL
  • BigQuery
  • BigQuery Data Transfer Service
  • BigQuery GIS
  • Billing Alerts
  • Bime by Zendesk
  • Bitbucket
  • Borg
  • BOSH Google CPI
  • Bower
  • bq_sushi
  • BreezoMeter
  • BYOSL
  • Capacitor
  • Chromium OS
  • Client Libraries
  • Cloud API
  • Cloud Armor
  • Cloud Audit Logging
  • Cloud AutoML
  • Cloud Bigtable
  • Cloud Billing Catalog API
  • Cloud Billing reports
  • Cloud CDN
  • Cloud Client Libraries
  • Cloud Console
  • Cloud Consoleアプリ
  • Cloud Container Builder
  • Cloud Dataflow
  • Cloud Dataflow SDK
  • Cloud Datalab
  • Cloud Dataprep
  • Cloud Dataproc
  • Cloud Datastore
  • Cloud Debugger
  • Cloud Deployment Manager
  • Cloud Endpoints
  • Cloud Firestore
  • Cloud Foundry
  • Cloud Foundry Foundation
  • Cloud Functions
  • Cloud Healthcare API
  • Cloud HSM
  • Cloud IAM
  • Cloud IAP
  • Cloud Identity
  • Cloud IoT Core
  • Cloud Jobs API
  • Cloud KMS
  • Cloud Launcher
  • Cloud Load Balancing
  • Cloud Machine Learning
  • Cloud Memorystore
  • Cloud Memorystore for Redis
  • Cloud monitoring
  • Cloud NAT
  • Cloud Natural Language API
  • Cloud Networking
  • Cloud OnAir
  • Cloud OnBoard
  • cloud Pub/Sub
  • Cloud Resource Manager
  • Cloud Resource Manager API
  • Cloud SCC
  • Cloud SDK
  • Cloud SDK for Windows
  • Cloud Security Command Center
  • Cloud Services Platform
  • Cloud Source Repositories
  • Cloud Spanner
  • Cloud Speech API
  • Cloud Speech-to-Text
  • Cloud SQL
  • Cloud Storage
  • Cloud Storage FUSE
  • Cloud Tools for PowerShell
  • Cloud Tools PowerShell
  • Cloud TPU
  • Cloud Translation
  • Cloud Translation API
  • Cloud Virtual Network
  • Cloud Vision
  • Cloud VPC
  • CloudBerry Backup
  • CloudBerry Lab
  • CloudConnect
  • CloudEndure
  • Cloudflare
  • Cloudian
  • CloudML
  • Cluster Federation
  • Codefresh
  • Codelabs
  • Cohesity
  • Coldline
  • Colossus
  • Compute Engine
  • Compute user Accounts
  • Container Engine
  • Container Registry
  • Container-Optimized OS
  • Container-VM Image
  • Couchbase
  • Coursera
  • CRE
  • CSEK
  • Customer Reliability Engineering
  • Data Studio
  • Databases
  • Dbvisit
  • DDoS
  • Debugger
  • Dedicated Interconnect
  • deep learning
  • Deployment Manager
  • Developer Console
  • Developers
  • DevOps
  • Dialogflow
  • Disney
  • DLP API
  • Docker
  • Dockerfile
  • Drain
  • Dreamel
  • Eclipse
  • Eclipse Orion
  • Education Grants
  • Elasticsearch
  • Elastifile
  • Energy Sciences Network
  • Error Reporting
  • ESNet
  • Evernote
  • FASTER
  • Fastly
  • Firebase
  • Firebase Analytics
  • Firebase Authentication
  • Flexible Environment
  • Forseti Security
  • G Suite
  • Gartner
  • gcloud
  • GCP
  • GCP Census
  • GCP 移行ガイド
  • GCP 認定資格チャレンジ
  • GCPUG
  • GCP導入事例
  • gcsfuse
  • GEO
  • GitHub
  • GitLab
  • GKE
  • Go
  • Go 言語
  • Google App Engine
  • Google Apps
  • Google Certified Professional - Data Engineer
  • Google Cloud
  • Google Cloud Certification Program
  • Google Cloud Client Libraries
  • Google Cloud Console
  • Google Cloud Dataflow
  • Google Cloud Datalab
  • Google Cloud Datastore
  • Google Cloud Endpoints
  • Google Cloud Explorer
  • Google Cloud Identity and Access Management
  • Google Cloud INSIDE
  • Google Cloud INSIDE Digital
  • Google Cloud INSIDE FinTech
  • Google Cloud Interconnect
  • Google Cloud Launcher
  • Google Cloud Logging
  • Google Cloud Next '18 in Tokyo
  • Google Cloud Next '19 in Tokyo
  • Google Cloud Platform
  • Google Cloud Resource Manager
  • Google Cloud Security Scanner
  • Google Cloud Shell
  • Google Cloud SQL
  • Google Cloud Storage
  • Google Cloud Storage Nearline
  • Google Cloud Summit '18
  • Google Cloud Summit ’18
  • Google Cloud Tools for IntelliJ
  • Google Code
  • Google Compute Engine
  • Google Container Engine
  • Google Data Analytics
  • Google Data Studio
  • Google Date Studio
  • Google Deployment Manager
  • Google Drive
  • Google Earth Engine
  • Google Genomics
  • Google Kubernetes Engine
  • Google maps
  • google maps api
  • Google Maps APIs
  • Google Maps Platform
  • Google SafeSearch
  • Google Service Control
  • Google Sheets
  • Google Slides
  • Google Translate
  • Google Trust Services
  • Google VPC
  • Google マップ
  • Google 公認プロフェッショナル
  • GoogleNext18
  • GPU
  • Gradle
  • Grafeas
  • GroupBy
  • gRPC
  • HA / DR
  • Haskell
  • HEPCloud
  • HIPAA
  • Horizon
  • HTCondor
  • IaaS
  • IAM
  • IBM
  • IBM POWER9
  • icon
  • IERS
  • Improbable
  • INEVITABLE ja night
  • inevitableja
  • InShorts
  • Intel
  • IntelliJ
  • Internal Load Balancing
  • Internet2
  • IoT
  • Issue Tracker
  • Java
  • Jenkins
  • JFrog
  • JFrog Artifactory SaaS
  • Jupiter
  • Jupyter
  • Kaggle
  • Kayenta
  • Khan Academy
  • Knative
  • Komprise
  • kubefed
  • Kubeflow Pipelines
  • Kubernetes
  • KVM
  • Landsat
  • load shedding
  • Local SSD
  • Logging
  • Looker
  • Machine Learning
  • Magenta
  • Managed Instance Group
  • Managed Instance Group Updater
  • Maps API
  • Maps-sensei
  • Mapsコーナー
  • Maven
  • Maxon Cinema 4D
  • MightyTV
  • Mission Control
  • MongoDB
  • MQTT
  • Multiplay
  • MySQL
  • Nearline
  • Network Time Protocol
  • Networking
  • neural networks
  • Next
  • Node
  • NoSQL
  • NTP
  • NuGet パッケージ
  • OCP
  • OLDISM
  • Open Compute Project
  • OpenCAPI
  • OpenCAPI Consortium
  • OpenShift Dedicated
  • Orbitera
  • Organization
  • Orion
  • Osaka
  • Paas
  • Panda
  • Particle
  • Partner Interconnect
  • Percona
  • Pete's Dragon
  • Pivotal
  • Pivotal Cloud Foundry
  • PLCN
  • Podcast
  • Pokemon GO
  • Pokémon GO
  • Poseidon
  • Postgre
  • PowerPoint
  • PowerShell
  • Professional Cloud Network Engineer
  • Protocol Buffers
  • Puppet
  • Pythian
  • Python
  • Qwiklabs
  • Rails
  • Raspberry Pi
  • Red Hat
  • Redis
  • Regional Managed Instance Groups
  • Ruby
  • Rust
  • SAP
  • SAP Cloud Platform
  • SC16
  • ScaleArc
  • Secure LDAP
  • Security & Identity
  • Sentinel-2
  • Service Broker
  • Serving Websites
  • Shared VPC
  • SideFX Houdini
  • SIGOPS Hall of Fame Award
  • Sinatra
  • Site Reliability Engineering
  • Skaffold
  • SLA
  • Slack
  • SLI
  • SLO
  • Slurm
  • Snap
  • Spaceknow
  • SpatialOS
  • Spinnaker
  • Spring
  • SQL Server
  • SRE
  • SSL policies
  • Stack Overflow
  • Stackdriver
  • Stackdriver Agent
  • Stackdriver APM
  • Stackdriver Debugger
  • Stackdriver Diagnostics
  • Stackdriver Error Reporting
  • Stackdriver Logging
  • Stackdriver Monitoring
  • Stackdriver Trace
  • Stanford
  • Startups
  • StatefulSets
  • Storage & Databases
  • StorReduce
  • Streak
  • Sureline
  • Sysbench
  • Tableau
  • Talend
  • Tensor Flow
  • Tensor Processing Unit
  • TensorFlow
  • Terraform
  • The Carousel
  • TPU
  • Trace
  • Transfer Appliance
  • Transfer Service
  • Translate API
  • Uber
  • Velostrata
  • Veritas
  • Video Intelligence API
  • Vision API
  • Visual Studio
  • Visualization
  • Vitess
  • VM
  • VM Image
  • VPC Flow Logs
  • VR
  • VSS
  • Waze
  • Weave Cloud
  • Web Risk AP
  • Webyog
  • Wide and Deep
  • Windows Server
  • Windows ワークロード
  • Wix
  • Worlds Adrift
  • Xplenty
  • Yellowfin
  • YouTube
  • Zaius
  • Zaius P9 Server
  • Zipkin
  • ZYNC Render
  • アーキテクチャ図
  • イベント
  • エラーバジェット
  • エンティティ
  • オンライン教育
  • クラウド アーキテクト
  • クラウド移行
  • グローバル ネットワーク
  • ゲーム
  • コードラボ
  • コミュニティ
  • コンテスト
  • コンピューティング
  • サーバーレス
  • サービス アカウント
  • サポート
  • ジッター
  • ショート動画シリーズ
  • スタートガイド
  • ストレージ
  • セキュリティ
  • セミナー
  • ソリューション ガイド
  • ソリューション: メディア
  • データ エンジニア
  • データセンター
  • デベロッパー
  • パートナーシップ
  • ビッグデータ
  • ファジング
  • プリエンプティブル GPU
  • プリエンプティブル VM
  • フルマネージド
  • ヘルスケア
  • ホワイトペーパー
  • マイクロサービス
  • まっぷす先生
  • マルチクラウド
  • リージョン
  • ロード シェディング
  • 運用管理
  • 可用性
  • 海底ケーブル
  • 機械学習
  • 金融
  • 継続的デリバリ
  • 月刊ニュース
  • 資格、認定
  • 新機能、アップデート
  • 深層学習
  • 深層強化学習
  • 人気記事ランキング
  • 内部負荷分散
  • 認定試験
  • 認定資格
  • 料金


Archive


  •     2019
    • 8月
    • 7月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月
    • 1月
  •     2018
    • 12月
    • 11月
    • 10月
    • 9月
    • 8月
    • 7月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月
    • 1月
  •     2017
    • 12月
    • 11月
    • 10月
    • 9月
    • 8月
    • 7月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月
    • 1月
  •     2016
    • 12月
    • 11月
    • 10月
    • 9月
    • 8月
    • 7月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月
    • 1月
  •     2015
    • 12月
    • 11月
    • 10月
    • 9月
    • 8月
    • 7月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月
    • 1月
  •     2014
    • 12月
    • 11月
    • 10月
    • 9月
    • 8月
    • 6月
    • 5月
    • 4月
    • 3月
    • 2月

Feed

月刊ニュースレターに登録
新着ポストをメールで受け取る

Company-wide

  • Google 公式ブログ 日本版
  • Google 公式ブログ 英語版

製品・サービス

  • Google Cloud Japan 公式ブログ
  • Google AdWords 日本版 公式ブログ
  • Google Webmaster Central 日本版 公式ブログ

デベロッパー

  • Google Developer Relations 日本版 公式ブログ
  • Google
  • Privacy
  • Terms