本記事では、データサイエンティスト検定で頻出の「機械学習の基本概念」を、試験で問われやすい切り口(定義→違い→典型例→注意点→対策)で一気に整理します。数式暗記よりも、「いつ・なぜ・どのリスクが出て・どう手当てするか」を説明できる状態をゴールにします。
目次
1. 教師あり学習と教師なし学習の違い
教師あり学習(Supervised Learning)
入力(特徴量)と正解(ラベル/目的変数)がセットになったデータで学習し、未知データに対して 予測 を行う枠組みです。
- 代表タスク
- 回帰:売上、価格、需要などの「連続値」を予測
- 分類:購入/非購入、解約/継続、不正/正常などの「クラス」を予測
- 本質
- 「正解を当てにいく」ため、正解データの品質・量が性能の上限を決めがち
教師あり学習の要点は、**“学習データで当たる”より“未知データで当たる”こと(汎化)**です。ここで次の「過学習」が重要になります。
教師なし学習(Unsupervised Learning)
正解(ラベル)がない状態で、データの構造(似ている/まとまり/低次元表現/関係性)を見つけます。
- 代表タスク
- クラスタリング:顧客セグメント、行動パターンの自動分割
- 次元圧縮:特徴量を合成して低次元にし、可視化・ノイズ除去・学習効率化
- ルール発見(アソシエーション):併売・共起の関係性
- 本質
- 「唯一の正解」がないので、業務的な妥当性と解釈が重要
- 特徴量選択や前処理次第で結果が変わるため、探索的に扱う
教師あり・なしの区別は、「ラベルの有無」という形式面だけでなく、評価の仕方が根本的に違う点まで押さえるのがポイントです(教師あり=予測誤差、教師なし=構造の解釈・安定性・業務妥当性)。
(定義整理の参考:半教師ありの説明も含めた整理は scikit-learn/IBM の解説が分かりやすいです。)
2. 過学習(オーバーフィッティング)とは何か、何が問題か
過学習の定義(試験での言い回し)
学習を進めるほど 訓練データへの誤差(training error)は下がるのに、未知データへの誤差(test error/汎化誤差)が増える状態です。
つまり「覚えすぎて応用できない」状態。
なぜ起きる?
典型はこの3つです。
- モデルが複雑すぎる(自由度が高い)
- 変数が多すぎる、木が深すぎる、ニューラルネットが過度に大きい…など
- データ数が不足している
- 学習材料が少ないと、たまたまのノイズにも“法則”を見出してしまう
- リーク(情報漏洩)や前処理の不備
- 本来未来でしか分からない情報が学習に混ざると、訓練精度だけ異常に良くなる(実務で多い事故)
代表的な対策(暗記より「分類」で覚える)
- データを増やす(追加収集、データ拡張)
- モデルを単純化(説明変数削減、木の深さ制限など)
- 正則化(複雑さにペナルティを課す:L1/L2 など)
- 交差検証(分割を変えて安定性を確認)
- 早期終了(early stopping)(学習を早めに止める)
ここで大事なのは、過学習は「精度が低い」ではなく、**“評価の場(未知データ)で崩れる”**ことが本質、という点です。
3. 次元の呪い:特徴量が増えるとなぜ困るのか
次元の呪い(Curse of Dimensionality)の直観
特徴量(次元)が増えるほど、データ空間は急激に広がり、必要なデータ量や計算量が指数関数的に増えやすい。結果として、
- 学習が不安定になる(過学習しやすい)
- 距離が意味を持ちにくくなる(クラスタリングや近傍法が難しくなる)
- 計算コストが爆増する
この「空間がスカスカになる」「距離が区別しにくくなる」という直観が、試験でも実務でも効きます。
対策は2系統
- 特徴量選択(Feature Selection)
必要な特徴量だけ残す(フィルタ法・ラッパー法・組込み法など) - 次元圧縮(Dimensionality Reduction)
情報を保ちながら低次元に写像(例:主成分分析など)
教師あり学習では正則化などで“呪い”を緩和できますが、教師なし学習(特に距離ベース)では そもそも次元を増やしすぎない設計が重要、という整理が頻出です。
4. 教師あり学習におけるアノテーション(ラベル付け)の必要性
教師あり学習は「正解つきデータ」が必要です。ところが実務では、正解(ラベル)が未整備なことが普通です。そこで必要になるのが アノテーション(ラベル付け)です。
何をやる?
- テキスト:意図ラベル、感情ラベル、重要語タグ付け
- 画像:物体ラベル、属性ラベル、バウンディングボックス(矩形で位置指定)など
なぜ難しい?
- コストが高い(人手が必要)
- 品質が揺れる(人によって判断がズレる)
- 設計が要る(ラベル定義が曖昧だとデータが崩壊する)
現場でよく使われる効率化の方向性
- 人手で品質重視(ルールを決め、複数人で整合)
- 半教師あり学習:少量ラベル+大量未ラベルを組み合わせる(枠組みとして重要)
- アクティブラーニング:モデルに「どれにラベルを付けるべきか」を選ばせ、人手を“効く所”に集中させる
試験的には、アノテーションは「必要」「コスト」「工夫(半教師あり/アクティブ)」まで言えると強いです。
5. 説明可能性:大域的(Global)と局所的(Local)の違い
近年は「精度が出ればOK」ではなく、なぜそう予測したか説明できることが重視されます。規制・ガイドライン・社会的受容(信頼)の観点からも、透明性/説明可能性は重要論点です。
ここで押さえるのが Global と Local の切り分けです。
Global(大域的)説明:モデル全体の理解
- 「このモデルは全体として何を重視しているか」
- 例:線形回帰なら係数で「気温が1度上がると売上がどれだけ増える」のように説明できる
- ただし高精度モデル(アンサンブルや深層学習など)は、モデル構造が複雑で そのまま読めないことが多い
Local(局所的)説明:個別レコードの判断根拠
- 「この顧客を解約と予測したのは、どの特徴量が効いたからか」
- 個別の予測について根拠を提示し、現場説明・デバッグ・バイアス検知に役立つ
まとめると:
- Global=モデル単位の理解(全体のルール/寄与)
- Local=予測単位の理解(この1件の判断理由)
解釈可能性の体系的な整理としては、Molnar の “Interpretable Machine Learning” が定番です(日本語版もあります)。
試験で点を落としにくくするチェックリスト(口頭説明できる状態へ)
- 教師あり学習:ラベルあり。回帰・分類。必要なのは「教師データ(正解)」。
- 教師なし学習:ラベルなし。クラスタリング・次元圧縮。評価は解釈・妥当性が中心。
- 過学習:training error ↓、test error ↑。原因=複雑すぎ/データ不足/不備。対策=正則化・CV・単純化・早期終了など。
- 次元の呪い:次元↑でデータ空間がスカスカ、計算量・必要データ量↑、距離が効きにくい。対策=特徴量選択/次元圧縮。
- アノテーション:教師ありに必須。コストと品質が課題。半教師あり/アクティブで効率化。
- 説明可能性:Global(モデル全体)と Local(個別予測)。目的は信頼・検証・改善。


