【G検定対策】機械学習の概要｜― 教師あり学習・分類と回帰・代表的手法を整理する ―

G検定における「機械学習」の出題は、
アルゴリズムの数式理解や実装力ではなく、概念理解が中心です。

機械学習とは何か
教師あり学習では何をしているのか
分類と回帰はどう違うのか
各アルゴリズムは「何ができる手法」なのか

これらを言葉で説明できるかが問われます。

本記事では、G検定の出題範囲に沿って、
機械学習の全体像を整理します。

1. 機械学習とは何か（G検定的な定義）
2. 教師あり学習の考え方
3. 分類と回帰の違い（最重要）
4. 線形回帰と正則化（考え方だけ）
5. ロジスティック回帰
6. 決定木とランダムフォレスト
7. アンサンブル学習とブースティング
8. サポートベクターマシン（SVM）
9. 時系列モデル（自己回帰）
10. 前処理：正規化・標準化・特徴抽出

1. 機械学習とは何か（G検定的な定義）

機械学習とは、

データから規則性やパターンを学習し、未知のデータに対して予測や分類を行う技術

です。

重要なのは、

人間がすべてのルールを書くのではない
データをもとに「判断基準」を学習する

という点です。

この考え方は、
ルールベースAI（if文中心）との対比で理解すると整理しやすくなります。

2. 教師あり学習の考え方

教師あり学習とは

教師あり学習とは、

入力データ（特徴量）
正解データ（教師データ）

のペアを使って学習する方法です。

用語の整理（ここは頻出）

特徴量
→ 予測に使う入力情報
（例：気温、年齢、購入回数など）
教師データ
→ 予測したい対象
（例：売上、需要、クラス）

教師あり学習では、
特徴量と教師データの関係を学習する
という理解で十分です。

3. 分類と回帰の違い（最重要）

G検定では、分類と回帰の区別は必ず押さえておく必要があります。

分類（Classification）

分類とは、

データをあらかじめ決められたカテゴリに分ける問題

です。

例：

スパムメールかどうか
合格か不合格か
商品カテゴリの判定

クラスが2つの場合を 2クラス分類、
3つ以上の場合を 多クラス分類 と呼びます。

回帰（Regression）

回帰とは、

連続した数値を予測する問題

です。

例：

売上予測
気温予測
需要予測

分類と回帰の整理

観点	分類	回帰
出力	カテゴリ	数値
代表例	スパム判定	売上予測
代表手法	ロジスティック回帰	線形回帰

4. 線形回帰と正則化（考え方だけ）

線形回帰とは

線形回帰は、

説明変数と目的変数の関係を直線で表す回帰手法

です。

G検定では、

数式
最小二乗法の導出

などは不要で、
「回帰の基本的な考え方」 を理解していれば十分です。

正則化とは何か

正則化とは、

モデルが複雑になりすぎるのを防ぐための仕組み

です。

G検定で押さえるべきポイントは以下だけです。

ラッソ回帰（L1正則化）
→ 一部の特徴量の影響を0にする
→ 特徴選択の効果がある
リッジ回帰（L2正則化）
→ 回帰係数を全体的に小さくする
→ 安定したモデルになる

「過学習を防ぐための工夫」という理解でOKです。

5. ロジスティック回帰

ロジスティック回帰は、

分類問題に用いられる代表的な手法

です。

名前に「回帰」とあるが 分類手法
出力は「確率」
一定の閾値でクラスを決定

G検定では、

線形回帰との違い
分類に使われる

この2点を押さえておけば十分です。

6. 決定木とランダムフォレスト

決定木

決定木は、

条件分岐を繰り返して予測を行う手法

です。

直感的でわかりやすい
単体では過学習しやすい

ランダムフォレスト

ランダムフォレストは、

多数の決定木を組み合わせる手法（アンサンブル学習）

です。

G検定での理解ポイント：

決定木を複数使う
予測を平均・多数決で統合
単体の決定木より精度が高い

7. アンサンブル学習とブースティング

アンサンブル学習とは

アンサンブル学習とは、

複数のモデルを組み合わせて性能を高める考え方

です。

バギングとブースティング

バギング
→ 並列に学習
→ ランダムフォレストが代表例
ブースティング
→ 逐次的に学習
→ 前の誤りを次で補正
→ AdaBoost、XGBoost など

G検定では
「違いを言葉で説明できる」 レベルでOKです。

8. サポートベクターマシン（SVM）

SVMは、

クラス間の境界からの距離（マージン）を最大化する分類手法

です。

押さえるポイント：

境界に近い重要なデータを使う
マージン最大化
カーネルを使うと非線形にも対応できる

数式や最適化理論は不要です。

9. 時系列モデル（自己回帰）

自己回帰モデルは、

過去のデータを使って将来を予測する手法

です。

時系列データを扱う
単一系列：自己回帰モデル（AR）
複数系列：ベクトル自己回帰モデル（VAR）

G検定では
「用途の違い」 を理解していれば十分です。

10. 前処理：正規化・標準化・特徴抽出

正規化と標準化

正規化
→ 値を0〜1の範囲にそろえる
標準化
→ 平均0、分散1にそろえる

「特徴量のスケールをそろえる処理」という理解でOKです。

特徴量と特徴抽出

特徴量
→ モデルが扱う数値化された情報
特徴抽出
→ 生データを扱いやすい形に変換する処理

G検定では、
「機械学習では特徴量が重要」
という点を押さえておきましょう。