データサイエンティスト検定™ リテラシーレベル｜教師あり・教師なし学習／過学習／次元の呪い／アノテーション／説明可能性（Global・Local）をまとめて理解する

本記事では、データサイエンティスト検定で頻出の「機械学習の基本概念」を、試験で問われやすい切り口（定義→違い→典型例→注意点→対策）で一気に整理します。数式暗記よりも、「いつ・なぜ・どのリスクが出て・どう手当てするか」を説明できる状態をゴールにします。

1. 教師あり学習と教師なし学習の違い
2. 過学習（オーバーフィッティング）とは何か、何が問題か
3. 次元の呪い：特徴量が増えるとなぜ困るのか
4. 教師あり学習におけるアノテーション（ラベル付け）の必要性
5. 説明可能性：大域的（Global）と局所的（Local）の違い
試験で点を落としにくくするチェックリスト（口頭説明できる状態へ）

1. 教師あり学習と教師なし学習の違い

教師あり学習（Supervised Learning）

入力（特徴量）と正解（ラベル／目的変数）がセットになったデータで学習し、未知データに対して予測を行う枠組みです。

代表タスク
- 回帰：売上、価格、需要などの「連続値」を予測
- 分類：購入/非購入、解約/継続、不正/正常などの「クラス」を予測
本質
- 「正解を当てにいく」ため、正解データの品質・量が性能の上限を決めがち

教師あり学習の要点は、**“学習データで当たる”より“未知データで当たる”こと（汎化）**です。ここで次の「過学習」が重要になります。

教師なし学習（Unsupervised Learning）

正解（ラベル）がない状態で、データの構造（似ている／まとまり／低次元表現／関係性）を見つけます。

代表タスク
- クラスタリング：顧客セグメント、行動パターンの自動分割
- 次元圧縮：特徴量を合成して低次元にし、可視化・ノイズ除去・学習効率化
- ルール発見（アソシエーション）：併売・共起の関係性
本質
- 「唯一の正解」がないので、業務的な妥当性と解釈が重要
- 特徴量選択や前処理次第で結果が変わるため、探索的に扱う

教師あり・なしの区別は、「ラベルの有無」という形式面だけでなく、評価の仕方が根本的に違う点まで押さえるのがポイントです（教師あり＝予測誤差、教師なし＝構造の解釈・安定性・業務妥当性）。

（定義整理の参考：半教師ありの説明も含めた整理は scikit-learn/IBM の解説が分かりやすいです。）

2. 過学習（オーバーフィッティング）とは何か、何が問題か

過学習の定義（試験での言い回し）

学習を進めるほど 訓練データへの誤差（training error）は下がるのに、未知データへの誤差（test error／汎化誤差）が増える状態です。
つまり「覚えすぎて応用できない」状態。

なぜ起きる？

典型はこの3つです。

モデルが複雑すぎる（自由度が高い）

変数が多すぎる、木が深すぎる、ニューラルネットが過度に大きい…など

データ数が不足している

学習材料が少ないと、たまたまのノイズにも“法則”を見出してしまう

リーク（情報漏洩）や前処理の不備

本来未来でしか分からない情報が学習に混ざると、訓練精度だけ異常に良くなる（実務で多い事故）

代表的な対策（暗記より「分類」で覚える）

データを増やす（追加収集、データ拡張）
モデルを単純化（説明変数削減、木の深さ制限など）
正則化（複雑さにペナルティを課す：L1/L2 など）
交差検証（分割を変えて安定性を確認）
早期終了（early stopping）（学習を早めに止める）

ここで大事なのは、過学習は「精度が低い」ではなく、**“評価の場（未知データ）で崩れる”**ことが本質、という点です。

3. 次元の呪い：特徴量が増えるとなぜ困るのか

次元の呪い（Curse of Dimensionality）の直観

特徴量（次元）が増えるほど、データ空間は急激に広がり、必要なデータ量や計算量が指数関数的に増えやすい。結果として、

学習が不安定になる（過学習しやすい）
距離が意味を持ちにくくなる（クラスタリングや近傍法が難しくなる）
計算コストが爆増する

この「空間がスカスカになる」「距離が区別しにくくなる」という直観が、試験でも実務でも効きます。

対策は2系統

特徴量選択（Feature Selection）
必要な特徴量だけ残す（フィルタ法・ラッパー法・組込み法など）
次元圧縮（Dimensionality Reduction）
情報を保ちながら低次元に写像（例：主成分分析など）

教師あり学習では正則化などで“呪い”を緩和できますが、教師なし学習（特に距離ベース）では そもそも次元を増やしすぎない設計が重要、という整理が頻出です。

4. 教師あり学習におけるアノテーション（ラベル付け）の必要性

教師あり学習は「正解つきデータ」が必要です。ところが実務では、正解（ラベル）が未整備なことが普通です。そこで必要になるのが アノテーション（ラベル付け）です。

何をやる？

テキスト：意図ラベル、感情ラベル、重要語タグ付け
画像：物体ラベル、属性ラベル、バウンディングボックス（矩形で位置指定）など

なぜ難しい？

コストが高い（人手が必要）
品質が揺れる（人によって判断がズレる）
設計が要る（ラベル定義が曖昧だとデータが崩壊する）

現場でよく使われる効率化の方向性

人手で品質重視（ルールを決め、複数人で整合）
半教師あり学習：少量ラベル＋大量未ラベルを組み合わせる（枠組みとして重要）
アクティブラーニング：モデルに「どれにラベルを付けるべきか」を選ばせ、人手を“効く所”に集中させる

試験的には、アノテーションは「必要」「コスト」「工夫（半教師あり／アクティブ）」まで言えると強いです。

5. 説明可能性：大域的（Global）と局所的（Local）の違い

近年は「精度が出ればOK」ではなく、なぜそう予測したか説明できることが重視されます。規制・ガイドライン・社会的受容（信頼）の観点からも、透明性／説明可能性は重要論点です。

ここで押さえるのが Global と Local の切り分けです。

Global（大域的）説明：モデル全体の理解

「このモデルは全体として何を重視しているか」
例：線形回帰なら係数で「気温が1度上がると売上がどれだけ増える」のように説明できる
ただし高精度モデル（アンサンブルや深層学習など）は、モデル構造が複雑で そのまま読めないことが多い

Local（局所的）説明：個別レコードの判断根拠

「この顧客を解約と予測したのは、どの特徴量が効いたからか」
個別の予測について根拠を提示し、現場説明・デバッグ・バイアス検知に役立つ

まとめると：

Global＝モデル単位の理解（全体のルール／寄与）
Local＝予測単位の理解（この1件の判断理由）

解釈可能性の体系的な整理としては、Molnar の “Interpretable Machine Learning” が定番です（日本語版もあります）。

試験で点を落としにくくするチェックリスト（口頭説明できる状態へ）

教師あり学習：ラベルあり。回帰・分類。必要なのは「教師データ（正解）」。
教師なし学習：ラベルなし。クラスタリング・次元圧縮。評価は解釈・妥当性が中心。
過学習：training error ↓、test error ↑。原因＝複雑すぎ／データ不足／不備。対策＝正則化・CV・単純化・早期終了など。
次元の呪い：次元↑でデータ空間がスカスカ、計算量・必要データ量↑、距離が効きにくい。対策＝特徴量選択／次元圧縮。
アノテーション：教師ありに必須。コストと品質が課題。半教師あり／アクティブで効率化。
説明可能性：Global（モデル全体）と Local（個別予測）。目的は信頼・検証・改善。