はじめに
この記事は、G検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 第一弾の「AIの歴史と法律・倫理編」に続き、今回は、G検定の試験範囲の中核をなす「機械学習の基礎と、その主要な手法」に関する20問です。
この分野の理解度が、合否を、直接左右すると言っても、過言ではありません。 それでは、始めましょう。
関連記事
-
-
G検定
1. 試験結果の概要 受験者数: 7,927名 合格者数: 6,051名 合格率: 約76.3% SNS上では「過去一番で難化した」との声が多数見られたが、合格率は過去の試験とほぼ同水準で推移した。こ ...
-
-
G検定
はじめに この記事は、G検定合格を目指すための実践的な問題集「100本ノック」の第一弾です。 以前の【G検定完全攻略】記事で解説した通り、合格の鍵は、自らの「苦手分野」を特定し、そこを徹底的に潰すこと ...
-
-
G検定
はじめに この記事は、G検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 第一弾の「AIの歴史と法律・倫理編」に続き、今回は、G検定の試験範囲の中核をなす「機械学習の基礎と、その主 ...
-
-
G検定
はじめに この記事はG検定合格を目指すための実践的な問題集「100本ノック」の第三弾です。 第二弾の「機械学習の基礎と主要な手法編」に続き、今回は第三次AIブームの中核技術である「ディープラーニングの ...
-
-
G検定
はじめに この記事はG検定合格を目指すための実践的な問題集「100本ノック」の第四弾です。 第三弾の「ディープラーニングの基礎と主要な手法編」に続き、今回は、AI技術が、現実社会で、どのように活用され ...
-
-
G検定
はじめに この記事はG検定合格を目指すための実践的な問題集「100本ノック」の最終回です。 今回はこれまでの分野を横断する「総合問題」として、あなたの知識が本当に定着しているかを確認するための20問で ...
問題1
機械学習の学習方法のうち、入力データと、それに対応する「正解ラベル」を、セットで与え、モデルにその関係性を、学習させる手法を、何と呼ぶか。
A. 教師なし学習
B. 強化学習
C. 教師あり学習
D. 半教師あり学習
クリックして下さい
正解: C
解説: 「教師あり学習」は、問題(入力データ)と、その答え(正解ラベル)を、ペアで与えて、AIに、そのパターンを、学ばせる方法です。例えば、犬の画像(入力データ)に「犬」というラベル(正解)をつけて、学習させるのが、これに当たります。
問題2
機械学習の学習方法のうち、正解ラベルが、与えられていない、大量のデータから、そのデータに、潜む、構造や、パターンを、モデル自身が、見つけ出す手法を、何と呼ぶか。
A. 教師あり学習
B. 強化学習
C. 教師なし学習
D. 転移学習
クリックして下さい
正解: C
解説: 「教師なし学習」は、答えが、与えられていないデータを、AIが、自ら、分類したり(クラスタリング)、その特徴を、要約したりする(次元削減)手法です。顧客データを、購買傾向の似た、グループに分ける、といった、用途で使われます。
問題3
あるエージェントが、ある「環境」の中で、試行錯誤しながら、自らの「行動」を選択し、その結果として、得られる「報酬」を、最大化するように、学習していく手法を、何と呼ぶか。
A. 教師あり学習
B. 強化学習
C. 教師なし学習
D. 表現学習
クリックして下さい
正解: B
解説: 「強化学習」は、明確な「正解」を、与えるのではなく、「報酬」という、フィードバックを通じて、AIが、自律的に、最適な行動戦略を、学んでいく手法です。将棋や、囲碁のAI、あるいは、ロボットの、歩行制御などに、用いられます。
問題4
教師あり学習の、代表的なタスクの一つで、データを、あらかじめ、定義された、二つ以上の、クラス(カテゴリ)に、分類する問題を、何と呼ぶか。
A. 回帰
B. 分類
C. クラスタリング
D. 次元削減
クリックして下さい
正解: B
解説: 「分類(Classification)」は、例えば、メールが「迷惑メール」か「通常メール」かを、判別したり、画像に写っている動物が「犬」か「猫」かを、分類したりする、問題のことです。
問題5
教師あり学習の、代表的なタスクの一つで、入力データから、連続的な「数値」を、予測する問題を、何と呼ぶか。
A. 回帰
B. 分類
C. クラスタリング
D. 異常検知
クリックして下さい
正解: A
解説: 「回帰(Regression)」は、例えば、家の広さや、築年数といったデータから、その「家の価格」という、連続的な数値を、予測するような、問題のことです。
問題6
学習用のデータに、過剰に、適合してしまい、未知のデータに対して、うまく、予測ができなくなってしまう、現象のことを、何と呼ぶか。
A. 過学習(オーバーフィッティング)
B. 未学習(アンダーフィッティング)
C. 勾配消失問題
D. 敵対的サンプル
クリックして下さい
正解: A
解説: 「過学習」は、モデルが、学習データの、細かすぎる特徴や、ノイズまで、学習してしまい、汎用性を、失ってしまった状態です。これを、防ぐために、正則化などの、テクニックが、用いられます。
問題7
学習データと、検証データ、テストデータへの、分割に関する記述として、最も、適切なものを一つ選べ。
A. 学習データは、モデルの、最終的な性能を、評価するために、使う。
B. 検証データは、ハイパーパラメータの、調整のために、使う。
C. テストデータは、モデルの、学習そのものに、使う。
D. すべてのデータを、学習に使うのが、最も、性能が高くなる。
クリックして下さい
正解: B
解説: データは、通常「学習用」「検証用」「テスト用」の三つに分割されます。
- 学習データ: モデルの、重みを、学習するために使います。
- 検証データ: 学習の途中で、モデルの性能を、確認し、ハイパーパラメータ(学習率など)を、調整するために使います。
- テストデータ: 学習が、すべて、完了した後に、モデルの、未知のデータに対する、最終的な性能(汎化性能)を、評価するために、一度だけ、使います。
問題8
モデルの、複雑さが増し、過学習が、起きるのを、防ぐために、損失関数に、ペナルティ項を、加える手法の総称を、何と呼ぶか。
A. 交差検証
B. 正則化
C. アンサンブル学習
D. データ拡張
クリックして下さい
正解: B
解説: 「正則化」は、モデルの、重みが、大きくなりすぎることを、防ぐことで、モデルの、過学習を、抑制する手法です。代表的なものに、L1正則化(ラッソ回帰)や、L2正則化(リッジ回帰)があります。
問題9
複数の、異なるモデルを、組み合わせることで、単一のモデルよりも、高い性能を、目指す手法の総称を、何と呼ぶか。
A. 転移学習
B. アンサンブル学習
C. 表現学習
D. ファインチューニング
クリックして下さい
正解: B
解説: 「アンサンブル学習」は、「三人寄れば文殊の知恵」のように、複数の、学習器の、予測結果を、統合することで、より、頑健で、精度の高いモデルを、構築する手法です。代表的なものに、バギング(ランダムフォレストなど)や、ブースティング(勾配ブースティングなど)があります。
問題10
ある、タスクで、学習させた、学習済みのモデルを、別の、関連するタスクに、応用・再利用する手法を、何と呼ぶか。
A. 転移学習
B. 強化学習
C. 教師なし学習
D. 未学習
クリックして下さい
正解: A
解説: 「転移学習(Transfer Learning)」は、大量のデータで、学習済みの、強力なモデルを、基礎として、少量の、独自のデータで、追加学習(ファインチューニング)させることで、効率的に、高い性能のモデルを、作る手法です。
問題11
教師なし学習の、代表的な手法の一つで、データを、似た者同士の、グループ(クラスタ)に、自動的に、分ける手法を、何と呼ぶか。
A. 主成分分析
B. k-means法(k平均法)
C. 線形回帰
D. 決定木
クリックして下さい
正解: B
解説: 「k-means法」は、最も、代表的な、クラスタリングのアルゴリズムの一つです。あらかじめ、指定したクラスタ数(k個)に、データを、分割します。
問題12
データの、次元(特徴量の数)を、できるだけ、情報の損失を、抑えながら、より少ない、次元に、圧縮する手法の総称を、何と呼ぶか。
A. クラスタリング
B. 次元削減
C. 分類
D. 回帰
クリックして下さい
正解: B
解説: 「次元削減」は、データの、可視化や、計算コストの削減、ノイズの除去などを、目的として、行われます。代表的な手法に「主成分分析(PCA)」があります。
問題13
決定木学習において、木の、深さが、深くなりすぎ、学習データに、過剰に、適合してしまう、過学習を、防ぐための、操作を、何と呼ぶか。
A. 枝刈り
B. 節の分割
C. 情報利得の計算
D. 特徴量の選択
クリックして下さい
正解: A
解説: 「枝刈り(Pruning)」は、決定木の、モデルの、複雑さを、減らすことで、過学習を、防ぎ、汎化性能を、高めるための、重要な、操作です。
問題14
多数の、決定木を、組み合わせた、アンサンブル学習の手法で、分類と、回帰の、両方に、用いられ、高い性能を、示すことで知られる、アルゴリズムは何か。
A. k-NN法
B. サポートベクターマシン
C. ランダムフォレスト
D. ロジスティック回帰
クリックして下さい
正解: C
解説: 「ランダムフォレスト」は、バギングという、アンサンブル学習の手法と、決定木を、組み合わせたアルゴリズムです。その、高い精度と、使いやすさから、様々な、データ分析の場面で、広く、利用されています。
問題15
入力された、データ点との、距離が、最も近い「k個」の、学習データを、見つけ、その、多数決によって、クラスを、予測する、分類の手法を、何と呼ぶか。
A. k-means法
B. k-NN法(k近傍法)
C. 決定木
D. ナイーブベイズ
クリックして下さい
正解: B
解説: 「k-NN法」は、非常に、シンプルで、直感的な、分類アルゴリズムです。「朱に交われば赤くなる」のように、近くにある、データ点の、ラベルに基づいて、予測を、行います。
問題16
学習データを「サポートベクター」と呼ばれる、境界線上の、データ点のみを、用いて、クラス間の、マージン(余白)が、最大になるように、分類境界を、決定する、機械学習の手法は何か。
A. ロジスティック回帰
B. サポートベクターマシン(SVM)
C. 主成分分析(PCA)
D. 決定木
クリックして下さい
正解: B
解説: 「サポートベクターマシン(SVM)」は、特に、分類問題において、高い性能を、発揮することで知られる、強力なアルゴリズムです。
問題17
学習データの、評価方法の一つで、データを、複数のグループに、分割し、そのうちの一つを、テストデータ、残りを、学習データとして、モデルの評価を、繰り返し、その平均で、性能を、測る手法を、何と呼ぶか。
A. ホールドアウト法
B. 交差検証法(クロスバリデーション)
C. ブートストラップ法
D. グリッドサーチ
クリックして下さい
正解: B
解説: 「交差検証法」は、データ量が、少ない場合に、特に有効な、モデルの、汎化性能を、より、頑健に、評価するための、手法です。
問題18
モデルの、性能評価指標の一つで、すべての、予測のうち、正しく、予測できたものの、割合を、示す指標は何か。
A. 正解率(Accuracy)
B. 適合率(Precision)
C. 再現率(Recall)
D. F値(F-measure)
クリックして下さい
正解: A
解説: 「正解率」は、最も、直感的で、分かりやすい、モデルの性能評価指標です。しかし、データの、クラスが、不均衡な場合(例:陽性例が、極端に少ない)には、注意が、必要です。
問題19
モデルの、性能評価指標の一つで、「陽性」と予測したもののうち、実際に「陽性」であったものの、割合を示す指標は何か。
A. 正解率(Accuracy)
B. 適合率(Precision)
C. 再現率(Recall)
D. F値(F-measure)
クリックして下さい
正解: B
解説: 「適合率」は、モデルの「予測の、正確さ」を、示す指標です。例えば、迷惑メールフィルタにおいて、適合率が低いと、重要なメールまで、迷惑メールと、誤判定してしまう、ことになります。
問題20
モデルの、性能評価指標の一つで、実際に「陽性」であるもののうち、モデルが「陽性」と予測できたものの、割合を示す指標は何か。
A. 正解率(Accuracy)
B. 適合率(Precision)
C. 再現率(Recall)
D. F値(F-measure)
クリックして下さい
正解: C
解説: 「再現率」は、モデルの「網羅性」や「見逃しの、少なさ」を、示す指標です。例えば、がんの診断モデルにおいて、再現率が低いと、がん患者を、見逃してしまう、という、深刻な問題が、発生します。