G検定における「機械学習」の出題は、
アルゴリズムの数式理解や実装力ではなく、概念理解が中心です。
- 機械学習とは何か
- 教師あり学習では何をしているのか
- 分類と回帰はどう違うのか
- 各アルゴリズムは「何ができる手法」なのか
これらを言葉で説明できるかが問われます。
本記事では、G検定の出題範囲に沿って、
機械学習の全体像を整理します。
目次
1. 機械学習とは何か(G検定的な定義)
機械学習とは、
データから規則性やパターンを学習し、未知のデータに対して予測や分類を行う技術
です。
重要なのは、
- 人間がすべてのルールを書くのではない
- データをもとに「判断基準」を学習する
という点です。
この考え方は、
ルールベースAI(if文中心)との対比で理解すると整理しやすくなります。
2. 教師あり学習の考え方
教師あり学習とは
教師あり学習とは、
- 入力データ(特徴量)
- 正解データ(教師データ)
のペアを使って学習する方法です。
用語の整理(ここは頻出)
- 特徴量
→ 予測に使う入力情報
(例:気温、年齢、購入回数など) - 教師データ
→ 予測したい対象
(例:売上、需要、クラス)
教師あり学習では、
特徴量と教師データの関係を学習する
という理解で十分です。
3. 分類と回帰の違い(最重要)
G検定では、分類と回帰の区別は必ず押さえておく必要があります。
分類(Classification)
分類とは、
データをあらかじめ決められたカテゴリに分ける問題
です。
例:
- スパムメールかどうか
- 合格か不合格か
- 商品カテゴリの判定
クラスが2つの場合を 2クラス分類、
3つ以上の場合を 多クラス分類 と呼びます。
回帰(Regression)
回帰とは、
連続した数値を予測する問題
です。
例:
- 売上予測
- 気温予測
- 需要予測
分類と回帰の整理
| 観点 | 分類 | 回帰 |
|---|---|---|
| 出力 | カテゴリ | 数値 |
| 代表例 | スパム判定 | 売上予測 |
| 代表手法 | ロジスティック回帰 | 線形回帰 |
4. 線形回帰と正則化(考え方だけ)
線形回帰とは
線形回帰は、
説明変数と目的変数の関係を直線で表す回帰手法
です。
G検定では、
- 数式
- 最小二乗法の導出
などは不要で、
「回帰の基本的な考え方」 を理解していれば十分です。
正則化とは何か
正則化とは、
モデルが複雑になりすぎるのを防ぐための仕組み
です。
G検定で押さえるべきポイントは以下だけです。
- ラッソ回帰(L1正則化)
→ 一部の特徴量の影響を0にする
→ 特徴選択の効果がある - リッジ回帰(L2正則化)
→ 回帰係数を全体的に小さくする
→ 安定したモデルになる
「過学習を防ぐための工夫」という理解でOKです。
5. ロジスティック回帰
ロジスティック回帰は、
分類問題に用いられる代表的な手法
です。
- 名前に「回帰」とあるが 分類手法
- 出力は「確率」
- 一定の閾値でクラスを決定
G検定では、
- 線形回帰との違い
- 分類に使われる
この2点を押さえておけば十分です。
6. 決定木とランダムフォレスト
決定木
決定木は、
条件分岐を繰り返して予測を行う手法
です。
- 直感的でわかりやすい
- 単体では過学習しやすい
ランダムフォレスト
ランダムフォレストは、
多数の決定木を組み合わせる手法(アンサンブル学習)
です。
G検定での理解ポイント:
- 決定木を複数使う
- 予測を平均・多数決で統合
- 単体の決定木より精度が高い
7. アンサンブル学習とブースティング
アンサンブル学習とは
アンサンブル学習とは、
複数のモデルを組み合わせて性能を高める考え方
です。
バギングとブースティング
- バギング
→ 並列に学習
→ ランダムフォレストが代表例 - ブースティング
→ 逐次的に学習
→ 前の誤りを次で補正
→ AdaBoost、XGBoost など
G検定では
「違いを言葉で説明できる」 レベルでOKです。
8. サポートベクターマシン(SVM)
SVMは、
クラス間の境界からの距離(マージン)を最大化する分類手法
です。
押さえるポイント:
- 境界に近い重要なデータを使う
- マージン最大化
- カーネルを使うと非線形にも対応できる
数式や最適化理論は不要です。
9. 時系列モデル(自己回帰)
自己回帰モデルは、
過去のデータを使って将来を予測する手法
です。
- 時系列データを扱う
- 単一系列:自己回帰モデル(AR)
- 複数系列:ベクトル自己回帰モデル(VAR)
G検定では
「用途の違い」 を理解していれば十分です。
10. 前処理:正規化・標準化・特徴抽出
正規化と標準化
- 正規化
→ 値を0〜1の範囲にそろえる - 標準化
→ 平均0、分散1にそろえる
「特徴量のスケールをそろえる処理」という理解でOKです。
特徴量と特徴抽出
- 特徴量
→ モデルが扱う数値化された情報 - 特徴抽出
→ 生データを扱いやすい形に変換する処理
G検定では、
「機械学習では特徴量が重要」
という点を押さえておきましょう。

