データセット

モデルの学習には、入力となるデータに加えてアノテーションされたメタデータ(教師あり学習の場合は、「正解」を与えるラベル)も用意します。これらを一般的に「データセット」と言いますが、ABEJA Platform ではこれらを簡単に扱うために データセットデータセット・アイテム というリソースを用意しています。

データセット

ABEJA Platform に、モデルの学習に使うデータおよびアノテーションされたメタデータを登録するには、いずれかのオーガニゼーションにデータセットを作成します。その後、データセットにアイテムをいくつでも登録できます。

データセットでは名前や推論の種類などを管理していますが、もっとも重要なのは、教師データとなるラベルの管理です。典型的にはラベルの ID と名前を JSON で記録しています。

{
  "categories": [
    {
      "labels": [
        {
          "label_id": 1,
          "label": "dog"
        },
        {
          "label_id": 2,
          "label": "cat"
        },
        {
          "label_id": 3,
          "label": "others"
        }
      ],
      "category_id": 1,
      "name": "cats_dogs"
    }
  ]
}

データセット・アイテム

データセットにはモデル学習の入力となるデータ(画像ファイルなど)への参照と教師データとなるラベルを組み合わせたデータセット・アイテムをいくつでも登録できます。

{
  "source_data": [{
    "data_uri": "datalake://130985764897/20170704T062222-cb6750bf-e679-48a6-ab96-0f4292e09f76",
    "data_type": "image/jpeg"
  }],
  "attributes": {
    "classification": {
      "category_id": 1,
      "label_id": 2
    }
  }
}

モデル学習時には ABEJA Platform の提供する SDK を使って、データの実体とラベルを取得することができます。