3.2. データ確認/説明変数・目的変数の設定

3.2. データ確認/説明変数・目的変数の設定 #

3.2.1. データカードの利用目的と概要 #

データカードには以下の2つの目的があります。

  1. 分析方針を決定するために、データを確認する
  2. 説明変数と目的変数を決定する

3.2.2. データカードの使い方 #

3.2.2.1. キャンバス上に配置する #

データツールから、カードをキャンバスにドラッグアンドドロップし、キャンバス上に配置できます。

3.2.2.2. カードを開く #

キャンバスに置いたカードをクリックすると、テーブルタブが選択された状態でカードが開きます。
データカードには、以下の3種類のタブがあります。

タブ種別 説明
テーブル データを表形式で表示します
統計 データの統計量を表示します
グラフ データをグラフ表示します

3.2.2.3. テーブルタブを選択した状態 #

3.2.3. データを確認する #

3.2.3.1. 表形式でデータを確認する #

  • 時系列データが時刻インデックスと値として確認できます。
  • データは 100 件ずつ表示され、ボタンを押すことにより、前後のページ、先頭ページ、最終ページに移動することが可能です。
  • ページ下部に表示されているページ数/全ページ数が表示されます。
  • テーブル上部にはタグ名、変数型が表示されます。
    • 文字列(String 型)が処理対象に含まれている場合は、前処理等により文字列を排除してください。

3.2.3.2. データの統計量を確認する #

統計タブを開きます。

確認可能な統計量

タブ種別 説明
平均 平均値
標準偏差 標準偏差
最小値 最小値
25% この値以下に全体の 25%のデータが含まれます
50% この値以下に全体の 50%のデータが含まれます
75% この値以下に全体の 75%のデータが含まれます
最大値 最大値
2シグマ外れ値数 平均値 - 2×標準偏差から平均値 + 2×標準偏差の間に含まれないデータ(外れ値)の個数
2シグマ外れ値率 平均値 - 2×標準偏差から平均値 + 2×標準偏差の間に含まれないデータ(外れ値)の割合
3シグマ外れ値数 平均値 - 3×標準偏差から平均値 + 3×標準偏差の間に含まれないデータ(外れ値)の個数
3シグマ外れ値率 平均値 - 3×標準偏差から平均値 + 3×標準偏差の間に含まれないデータ(外れ値)の割合
欠損値数 欠損値の数
欠損値率 欠損値の割合
  • 統計量を踏まえた対応例
    • 文字列型のカラムが存在する場合は、文字列を数値型に変更することを検討します。
    • 標準偏差がゼロの場合は、学習対象から除くことを検討します。
    • 外れ値が多い場合は、前処理で外れ値を除去することを検討します。
    • 欠損値が存在する場合は、前処理で欠損値を除去することを検討します。

3.2.4. グラフを確認する #

3.2.4.1. グラフタブを選択した状態 #

  • カラム選択エリアで、表示対象カラムを選択してください。
  • 選択されたカラムは俯瞰グラフエリアに表示されます。

3.2.4.2. 俯瞰グラフの操作 #

  • 俯瞰グラフエリアにカーソルを合わせると、カーソルが「+」「⇔」に変化します。
  • 「+」カーソルのままドラッグすることで詳細グラフの表示データ範囲を新しく選択できます。
  • 選択されたデータ範囲の上部で「⇔」をドラッグすることで表示データ範囲を並行移動できます。
  • 選択されたデータ範囲の左右で「⇔」をドラッグすることで表示データ範囲を拡張できます。
  • 詳細グラフ内でマウスホイールを操作することでも表示データ範囲を操作できます。

3.2.5. 説明変数、目的変数を設定する #

3.2.5.1. 説明変数を設定する #

A. 説明変数として用いるカラムをチェックしてください。

B. 「説明変数」横のカラムを押すことにより、全選択/全解除が可能です。

3.2.5.2. 目的変数を設定する #

A. 目的変数として用いるカラムをチェックしてください。

B. 「目的変数」横のカラムを押すことにより、全選択/全解除が可能です。

  • 目的変数/説明変数の設定については以下の通りです。
目的 説明変数 目的変数
回帰分析(数値予測) 1 個以上 1 個
教師なし(異常検知) 2 個以上(目的変数と同じ) 2 個以上(説明変数と同じ)

現在は、上記の組み合わせ以外は、設定保存時にエラーになります

3.2.5.3. 目的変数と説明変数の設定を保存する #

  • “実行” ボタンを押して、設定を保存してください。
  • エラーが表示された場合は、目的変数と説明変数の組み合わせに誤りがあります。上記の表を参考に設定してください。
  • 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。

3.2.5.4. 目的変数と説明変数の設定を確認する #

目的変数、説明変数の設定を保存した後、“Selected Data"ボタンを押すと、目的変数、説明変数のいずれかに指定されたカラムのみ確認可能です。