データ取得・データセット作成

はじめに

このページではJupyter Notebookを使い、学習に使うデータを取得・DataLakeにデータアップロード・データセットを作成する方法について、解説します。

ステップ1

Jupyter Notebookを起動

こちらのチュートリアルでは、Notebookを利用します。Notebookは「ジョブ定義」を作成することで、ご利用いただけます。

「ジョブ定義」を作成し、「Notebook」を起動します。

ステップ2

Jupyter NotebookでTerminalの起動

起動したNotebookからTerminalを開き、チュートリアル用のNotebookファイルを格納する準備をします。

「Notebook」を開き、Terminalを開きます。

ステップ3

Terminalでチュートリアル用のデータを取得します。

起動したTerminalでコマンドを実施し、Notebookファイルをダウンロードします。

チュートリアル用のNotebookファイルをGitHubよりダウンロードします。

$ git clone https://github.com/abeja-inc/Platform_handson.git

これで、Jupyter Notebookからデータ格納・データセットを作成するための準備ができました。

ステップ4

Jupyter Nootbookで、利用するデータのダウンロード・解凍・チェック

このステップでは、学習に利用するデータのダウンロード・解凍・チェックを実施します。

チュートリアル用のフォルダ「bording」の中にある、Notebookファイル「01_collect_data.ipynb」を選択し開きます。

Notebook内の操作については、「データのダウンロード」・「データの解凍」・「ファイルのチェック」を実施しています。

  • データのダウンロード:Google Driveより学習に利用するため花の画像を取得
  • データの解凍:圧縮ファイルを解凍
  • ファイルのチェック:データ数やフォルダ名をチェック

ステップ5

Datalakeのチャンネル作成

取得したデータをDatalakeに格納するため、チャンネルを作成します。
※Datalakeチャンネルは、すでに作成されているチャンネル名は利用できません。(アーカイブされていても同様です。)

ステップ6

Datalakeへデータアップロード

Datalakeチャンネルが作成できたので、データをアップロードをしていきます。 まずは、アップロードに必要な認証情報を設定します。認証情報の確認方法は こちら を参考ください。

以下の認証情報をNotebookに入力し、実行します。 - User ID - Personal Access Token - Organization ID

その後、先程作成したDataLakeのチャネルIDの情報が必要になるので、チャンネルIDを入力し、実行。 すると、DataLakeチャンネルにデータアップロードが始まります。 100%になった後、DataLakeチャンネルを確認し、正常にファイルが格納されているか確認してください。

ステップ7

データセットの作成

次にデータセットを作成します。

まずは、Notebookを実行し、データセットに紐付ける情報をJSON形式で取得します。

その後、左メニューよりデータセット作成を実施、今回はClassificationを実施するため、「データセットのタイプ」を「Classfication」に指定します。

「プロパティ」の値に先程、出力したJSON情報を貼付け、「データセット作成」を実施します。

サンプルでは、以下のようなJSONを利用しています。

{
  "categories": [
    {
      "category_id": 0,
      "labels": [
        {
          "label": "daisy",
          "label_id": 0
        },
        {
          "label": "dandelion",
          "label_id": 1
        },
        {
          "label": "rose",
          "label_id": 2
        },
        {
          "label": "sunflower",
          "label_id": 3
        },
        {
          "label": "tulip",
          "label_id": 4
        }
      ],
      "name": "flower-classificaiton"
    }
  ]
}

最後に、データにラベルを付与し、データセットを作成していきます。先程作成したデータセットIDを参照し「dataset_id」に入力します。
※こちらの例では、アップロード時に拡張子を確認し、不要なデータを排除してデータセットを作成しています。

お疲れさまでした。Notebookからデータ取得・データアップロード・データセット作成を実施できました。

次はテンプレート機能を利用し、「学習・モデル作成」を解説します。