【G検定対策】機械学習の概要|― 教師あり学習・分類と回帰・代表的手法を整理する ―

G検定における「機械学習」の出題は、
アルゴリズムの数式理解や実装力ではなく、概念理解が中心です。

  • 機械学習とは何か
  • 教師あり学習では何をしているのか
  • 分類と回帰はどう違うのか
  • 各アルゴリズムは「何ができる手法」なのか

これらを言葉で説明できるかが問われます。

本記事では、G検定の出題範囲に沿って、
機械学習の全体像を整理します。


1. 機械学習とは何か(G検定的な定義)

機械学習とは、

データから規則性やパターンを学習し、未知のデータに対して予測や分類を行う技術

です。

重要なのは、

  • 人間がすべてのルールを書くのではない
  • データをもとに「判断基準」を学習する

という点です。

この考え方は、
ルールベースAI(if文中心)との対比で理解すると整理しやすくなります。


2. 教師あり学習の考え方

教師あり学習とは

教師あり学習とは、

  • 入力データ(特徴量)
  • 正解データ(教師データ)

のペアを使って学習する方法です。

用語の整理(ここは頻出)

  • 特徴量
    → 予測に使う入力情報
    (例:気温、年齢、購入回数など)
  • 教師データ
    → 予測したい対象
    (例:売上、需要、クラス)

教師あり学習では、
特徴量と教師データの関係を学習する
という理解で十分です。


3. 分類と回帰の違い(最重要)

G検定では、分類と回帰の区別は必ず押さえておく必要があります。

分類(Classification)

分類とは、

データをあらかじめ決められたカテゴリに分ける問題

です。

例:

  • スパムメールかどうか
  • 合格か不合格か
  • 商品カテゴリの判定

クラスが2つの場合を 2クラス分類
3つ以上の場合を 多クラス分類 と呼びます。


回帰(Regression)

回帰とは、

連続した数値を予測する問題

です。

例:

  • 売上予測
  • 気温予測
  • 需要予測

分類と回帰の整理

観点分類回帰
出力カテゴリ数値
代表例スパム判定売上予測
代表手法ロジスティック回帰線形回帰

4. 線形回帰と正則化(考え方だけ)

線形回帰とは

線形回帰は、

説明変数と目的変数の関係を直線で表す回帰手法

です。

G検定では、

  • 数式
  • 最小二乗法の導出

などは不要で、
「回帰の基本的な考え方」 を理解していれば十分です。


正則化とは何か

正則化とは、

モデルが複雑になりすぎるのを防ぐための仕組み

です。

G検定で押さえるべきポイントは以下だけです。

  • ラッソ回帰(L1正則化)
    → 一部の特徴量の影響を0にする
    → 特徴選択の効果がある
  • リッジ回帰(L2正則化)
    → 回帰係数を全体的に小さくする
    → 安定したモデルになる

「過学習を防ぐための工夫」という理解でOKです。


5. ロジスティック回帰

ロジスティック回帰は、

分類問題に用いられる代表的な手法

です。

  • 名前に「回帰」とあるが 分類手法
  • 出力は「確率」
  • 一定の閾値でクラスを決定

G検定では、

  • 線形回帰との違い
  • 分類に使われる

この2点を押さえておけば十分です。


6. 決定木とランダムフォレスト

決定木

決定木は、

条件分岐を繰り返して予測を行う手法

です。

  • 直感的でわかりやすい
  • 単体では過学習しやすい

ランダムフォレスト

ランダムフォレストは、

多数の決定木を組み合わせる手法(アンサンブル学習)

です。

G検定での理解ポイント:

  • 決定木を複数使う
  • 予測を平均・多数決で統合
  • 単体の決定木より精度が高い

7. アンサンブル学習とブースティング

アンサンブル学習とは

アンサンブル学習とは、

複数のモデルを組み合わせて性能を高める考え方

です。


バギングとブースティング

  • バギング
    → 並列に学習
    → ランダムフォレストが代表例
  • ブースティング
    → 逐次的に学習
    → 前の誤りを次で補正
    → AdaBoost、XGBoost など

G検定では
「違いを言葉で説明できる」 レベルでOKです。


8. サポートベクターマシン(SVM)

SVMは、

クラス間の境界からの距離(マージン)を最大化する分類手法

です。

押さえるポイント:

  • 境界に近い重要なデータを使う
  • マージン最大化
  • カーネルを使うと非線形にも対応できる

数式や最適化理論は不要です。


9. 時系列モデル(自己回帰)

自己回帰モデルは、

過去のデータを使って将来を予測する手法

です。

  • 時系列データを扱う
  • 単一系列:自己回帰モデル(AR)
  • 複数系列:ベクトル自己回帰モデル(VAR)

G検定では
「用途の違い」 を理解していれば十分です。


10. 前処理:正規化・標準化・特徴抽出

正規化と標準化

  • 正規化
    → 値を0〜1の範囲にそろえる
  • 標準化
    → 平均0、分散1にそろえる

「特徴量のスケールをそろえる処理」という理解でOKです。


特徴量と特徴抽出

  • 特徴量
    → モデルが扱う数値化された情報
  • 特徴抽出
    → 生データを扱いやすい形に変換する処理

G検定では、
「機械学習では特徴量が重要」
という点を押さえておきましょう。

上部へスクロール