create-job

説明

学習のジョブを作成します。

概要

$ abeja training create-job [--help]
Usage: abeja training create-job [OPTIONS]

  Create training job

Options:
  -j, --job_definition_name, --job-definition-name TEXT
                                  Training job definition name
  -v, --version TEXT              Job definition version. By default, latest
                                  version is used
  -e, --environment ENVIRONMENTSTRING
                                  Environment variables, ex. BATCH_SIZE:32
  -p, --params USERPARAMSTRING    [DEPRECATED] User parameters, ex.
                                  BATCH_SIZE:32. If environment is specified,
                                  this will be ignored. Please use
                                  `--environment` option.
  --instance-type TEXT            Instance Type of the machine where training
                                  job is executed. By default, cpu-1 and gpu-1
                                  is used for all-cpu and all-gpu images
                                  respectively.
  -d, --description TEXT          Description for the training job, which must
                                  be less than or equal to 256 characters.
  --dataset, --datasets DATASETPARAMSTRING
                                  Datasets name
  --export-log                    Include the log in the model file. This
                                  feature is only available with 19.04 or
                                  later images.
  --help                          Show this message and exit.

引数

学習設定ファイル (training.yaml) からパラメータを取得します。

オプション

-j, --job_definition_name, --job-definition-name

学習ジョブ定義名

training.yaml が存在すれば、 training.yamlname の値が使用されます。
このオプションで training.yamlname に定義されている値を上書きすることが出来ます。

-v, --version

トレーニングのバージョンを指定します。

-e, --environment

環境変数を指定します。登録された環境変数はコードから参照できるようになります。 例)IMAGE_WIDTH:100
ユーザーの指定可能な環境変数についての詳細は、こちらを参照ください。

( バージョン 0.14.0 以降 ) training.yaml が存在すれば、 training.yamlenvironment ( params ) の値が使用されます。
このオプションで training.yamlenvironment に定義されている環境変数を上書きすることができます。

-p, --params

[DEPRECATED] ユーザパラメータ。フォーマットは Key:value。複数のパラメータを入力することができます。 例: --params key1:val1 --params key2:val2
--environment が指定されている時には、 --params で指定したパラメータは無視されます。
このオプションは廃止予定のため、 --environment を使用してください。

--instance-type

トレーニングを行うマシンのインスタンスタイプを指定します。

-d, --description

学習ジョブに説明を入力することができます。

--dataset, --datasets

使用するデータセットを次のフォーマットにて指定します。
{dataset_name}:{dataset_id} 登録されたデータセットは学習コードの引数として与えられるコンテキストから参照できるようになります。

( バージョン 0.14.0 以降 ) training.yaml が存在すれば、 training.yamldatasets の値が使用されます。
このオプションで training.yamldatasets に定義されている値を上書きすることができます。

-d オプションはバージョン 1.1.0 以降からは --description の省略形に変更されました

--export-log

学習のログを .abeja_train.log という名前のファイルとしてモデルファイル内に含めます。

この機能は 19.04 以降のイメージでのみ利用可能です。

トレーニングのジョブを作成

この例でトレーニングのジョブを作成します

設定ファイル

name: training1
handler: train:handler
image: abeja-inc/all-gpu:19.04
datasets:
  "mnist": "1111111111111"

コマンド:

$ abeja training create-job --version 1

出力:

{
  "created_at": "2018-02-13T10:14:10.956198Z",
  "job_definition_version": 1,
  "modified_at": ""2018-02-13T10:13:10.956198Z"",
  "status": {
    "active": null,
    "completion_time": null,
    "conditions": null,
    "failed": null,
    "start_time": null,
    "succeeded": null
  },
  "training_job_id": "job-e45bc2647ab74427",
  "enviornment": {}
}