はじめに
この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 今回は「データサイエンス力」の中でも特に差がつきやすい、統計的仮説検定や回帰分析、そして機械学習モデルの評価といった応用的な概念を問う20問です。
用語の正確な理解だけでなくその「意味」を問う問題に焦点を当てています。 それでは始めましょう。
関連記事
-
-
DS(データサイエンティスト)検定
はじめに:この記事の“立ち位置” 筆者のスペック: 30代・文系出身・非エンジニア 試験結果: 2024年3月試験、不合格(合格基準点に対し、8点不足) この記事の目的: 成功体験記では語られない、「 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第一弾です。 データサイエンティストに求められる三つの力「ビジネス力」「データサイエンス力」「データエンジニアリング力」 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 今回は「データサイエンス力」の中でも特に差がつきやすい、統計的仮説検定や回帰分析、そして機械学習モデルの評 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第三弾です。 今回はデータサイエンスのプロジェクトを成功に導く上で不可欠な「ビジネス力」と、それを支える「データエンジニ ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第四弾です。 今回は「ビジネス力」の中でも、より実践的なフレームワークや法律知識、そして、AIが社会に与える影響と、それ ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の最終回です。 今回はこれまでの分野を横断する「総合問題」として、あなたの知識が本当に定着しているかを確認するための20問 ...
問題1
統計的仮説検定において「帰無仮説が正しい」という仮定のもとで、観測された事象よりもさらに極端な事象が起こる確率のことを何と呼ぶか。
A. 有意水準 (α)
B. 検出力 (1-β)
C. p値
D. 信頼区間
クリックして下さい
正解: C
解説: p値は、観測された結果が偶然に起こったものなのかどうかを判断するための指標です。一般的に、このp値が、あらかじめ設定した有意水準(通常5%)よりも小さい場合に帰無仮説を棄却し「統計的に有意な差がある」と判断します。
問題2
ある学習モデルの性能を評価する際に、本来は「陽性」であるものを「陰性」と誤って予測してしまった件数を表す指標は何か。
A. 真陽性 (True Positive)
B. 偽陽性 (False Positive)
C. 真陰性 (True Negative)
D. 偽陰性 (False Negative)
クリックして下さい
正解: D
解説: 偽陰性は「見逃し」を意味します。例えばがん検診のAIモデルにおいて、がん患者を「健康」と誤判定するケースがこれに当たります。この偽陰性の数を減らすこと、つまり再現率(Recall)を高めることが医療分野などでは極めて重要になります。
問題3
ある学習モデルの性能を評価する際に、本来は「陰性」であるものを「陽性」と誤って予測してしまった件数を表す指標は何か。
A. 真陽性 (True Positive)
B. 偽陽性 (False Positive)
C. 真陰性 (True Negative)
D. 偽陰性 (False Negative)
クリックして下さい
正解: B
解説: 偽陽性は「空振り」を意味します。例えば迷惑メールフィルターにおいて、重要なメールを「迷惑メール」と誤判定するケースがこれに当たります。この偽陽性の数を減らすこと、つまり適合率(Precision)を高めることが重要になる場面も多いです。
問題4
回帰モデルの性能を評価する指標の一つで、実際の値と予測値の差(残差)の二乗の平均を計算し、その平方根をとったものを何と呼ぶか。値が小さいほど予測精度が高いことを示す。
A. RMSE (Root Mean Square Error)
B. MAE (Mean Absolute Error)
C. 決定係数 (R-squared)
D. AIC (Akaike's Information Criterion)
クリックして下さい
正解: A
解説: RMSE(平均二乗誤差平方根)は、回帰モデルの最も一般的な評価指標の一つです。予測誤差の大きさを直感的に把握することができます。
問題5
ロジスティック回帰分析に関する記述として最も適切なものを一つ選べ。
A. 顧客の年齢から購買金額のような連続的な数値を予測するために用いられる。
B. アウトプットを0から1の間の確率として出力するため、主に分類問題に用いられる。
C. データを指定した数のグループに自動的に分ける教師なし学習の手法である。
D. 複数のモデルを組み合わせて予測精度を高めるアンサンブル学習の一種である。
クリックして下さい
正解: B
解説: ロジスティック回帰は、その名に「回帰」とありますが、実際には「分類」のための手法です。シグモイド関数を用いて、ある事象が起こる確率を予測します。例えば、顧客の属性から「購入する/しない」の二値分類を行う場合などに利用されます。
問題6
決定木モデルにおいて、どの特徴量でデータを分割すれば、最も情報が整理されるか(不純度が下がるか)を測るための指標として適切でないものを一つ選べ。
A. 情報利得
B. ジニ不純度
C. 平均二乗誤差
D. エントロピー
クリックして下さい
正解: C
解説: 平均二乗誤差(MSE)は主に回帰問題で用いられる損失関数であり、決定木の分割基準としては使われません。情報利得、ジニ不純度、エントロピーは、いずれも分類の純度を測る指標であり、決定木のノードを分割する際に利用されます。
問題7
A/Bテストに関する記述として最も適切なものを一つ選べ。
A. 二つの選択肢AとBを同時に実施し、どちらが良い結果をもたらすかを統計的に検証する手法である。
B. AIモデルのハイパーパラメータを調整するために、全ての組み合わせを試す手法である。
C. 二つの変数の相関関係の有無を検定するための手法である。
D. ある施策の実施前と実施後で、結果に有意な差があるかを検証する手法である。
クリックして下さい
正解: A
解説: A/Bテストは、Webサイトのデザインや広告のキャッチコピーなど、二つのパターンをランダムにユーザーに提示し、クリック率などの指標を比較することで、より効果の高い施策を客観的に判断するための手法です。
問題8
時系列データの分析手法に関する記述として最も適切なものを一つ選べ。
A. 移動平均は、データの長期的なトレンドを把握するために用いられる。
B. 自己相関は、ある時点のデータと、別の時点のデータとの間の相関関係を示す。
C. 時系列データを定常的にするためには、分散を時間と共に変化させる必要がある。
D. ARIMAモデルは、教師なし学習に分類される。
クリックして下さい
正解: B
解説: 自己相関は、時系列データが持つ周期性やパターンを分析するために重要な指標です。例えば、12ヶ月前のデータと強い正の相関があれば、そのデータには1年周期の季節性があると考えられます。
問題9
ビッグデータの特徴を表す「3つのV」として数えられる要素の組み合わせとして正しいものを一つ選べ。
A. Volume (量), Velocity (速度), Value (価値)
B. Volume (量), Velocity (速度), Variety (多様性)
C. Volume (量), Variety (多様性), Veracity (真実性)
D. Velocity (速度), Variety (多様性), Value (価値)
クリックして下さい
正解: B
解説: ビッグデータは元来、Volume(データの量)、Velocity(データ生成の速度と頻度)、Variety(データの多様性)の3つのVで特徴づけられました。近年ではこれにVeracity(データの真実性)やValue(データの価値)などを加えた「4V」や「5V」で語られることもあります。
問題10
機械学習モデルの解釈性を高める手法である「SHAP」に関する記述として最も適切なものを一つ選べ。
A. ある一つの予測結果に対して、各特徴量がどの程度貢献したかを可視化する手法である。
B. モデルの予測精度そのものを向上させるためのアンサンブル学習の手法である。
C. モデルの過学習を抑制するための正則化の手法である。
D. 決定木の構造を可視化するためのライブラリである。
クリックして下さい
正解: A
解説: SHAP (SHapley Additive exPlanations) は、ゲーム理論のシャープレイ値を応用し、複雑な機械学習モデルの予測結果の根拠を説明するための手法です。AIのブラックボックス問題を解消し、説明可能性を高めるために利用されます。
問題11
「ベイズの定理」を応用した確率的な推論に基づく機械学習アルゴリズムは何か。迷惑メールフィルタなどで古くから利用されている。
A. 決定木
B. サポートベクターマシン
C. ナイーブベイズ分類器
D. k-NN法
クリックして下さい
正解: C
解説: ナイーブベイズ分類器は、各特徴量が互いに独立である(ナイーブな)という仮定のもと、ベイズの定理を用いて、あるデータが特定のクラスに属する確率を計算します。非常にシンプルで高速ながら、多くの場面で高い性能を発揮します。
問題12
ある集団(母集団)から無作為に抽出した標本を分析し、その結果から母集団全体の性質を推測する統計学の分野を何と呼ぶか。
A. 記述統計学
B. 推測統計学
C. ベイズ統計学
D. 時系列分析
クリックして下さい
正解: B
解説: 推測統計学は、限られた標本データから、より大きな母集団に関する知見を得るための学問です。仮説検定や区間推定などがその主要な手法です。一方、記述統計学は、手元にあるデータの特徴を要約し、記述するための学問です。
問題13
実験計画法において、複数の要因の効果を効率的に評価するために、要因の全ての水準の組み合わせを試す実験計画を何と呼ぶか。
A. 一元配置実験
B. 乱塊法
C. 要因計画
D. ラテン方格法
クリックして下さい
正解: C
解説: 要因計画(Factorial Design)は、複数の要因(例:温度、圧力)が結果に与える影響と、それらの要因間の交互作用を同時に検証できる強力な実験計画法です。
問題14
多数の量的変数の中に存在する、共通の潜在的な因子を見つけ出す多変量解析の手法は何か。例えば、複数のアンケート項目から「顧客満足度」や「価格への敏感さ」といった因子を抽出するのに用いられる。
A. 主成分分析
B. 因子分析
C. クラスター分析
D. 判別分析
クリックして下さい
正解: B
解説: 因子分析は、観測された変数群の背後にある、直接観測できない共通因子を探るための手法です。マーケティングリサーチなどにおいて、消費者の深層心理を探るために利用されます。主成分分析が情報の要約を目的とするのに対し、因子分析は背後にある構造の解釈を目的とします。
問題15
ある目的変数(例:売上)を、複数の説明変数(例:広告費、店舗面積)を用いて予測する回帰分析の手法を何と呼ぶか。
A. 単回帰分析
B. 重回帰分析
C. ロジスティック回帰分析
D. 主成分回帰
クリックして下さい
正解: B
解説: 重回帰分析は、一つの目的変数に対して、複数の説明変数がどの程度影響を与えているかを分析し、予測モデルを構築する手法です。ビジネスにおける需要予測などで広く用いられます。
問題16
顧客の生涯にわたる価値を測る指標である「LTV(Life Time Value)」を算出する際に、考慮する必要がない要素を一つ選べ。
A. 顧客の平均購入単価
B. 顧客の平均購入頻度
C. 顧客の継続購入期間
D. 顧客の初回購入時の広告チャネル
クリックして下さい
正解: D
解説: LTVは「顧客生涯価値」と訳され、一人の顧客が取引期間を通じて企業にどれだけの利益をもたらすかを示す指標です。一般的に「平均購入単価 × 平均購入頻度 × 継続購入期間」などの式で算出されます。初回購入時の広告チャネルは、顧客獲得コスト(CAC)の計算には関係しますが、LTVの直接的な計算要素ではありません。
問題17
Webサイトの改善などにおいて、ユーザーの行動を分析するために、サイト訪問から商品購入までの一連の流れを図式化し、各段階でどの程度のユーザーが離脱しているかを可視化する分析手法を何と呼ぶか。
A. RFM分析
B. アソシエーション分析
C. ファネル分析
D. バスケット分析
クリックして下さい
正解: C
解説: ファネル分析は、その形状が漏斗(ファネル)に似ていることから名付けられました。ユーザーが目標(コンバージョン)に至るまでのプロセスで、どこにボトルネックがあるのかを特定し、改善策を講じるために用いられます。
問題18
機械学習モデルの予測精度を評価する際に用いる「混同行列(Confusion Matrix)」に関する記述として正しいものを一つ選べ。
A. 回帰モデルの性能を評価するために用いられる。
B. モデルが正しく予測した件数と、誤って予測した件数を、クラスごとにまとめた表である。
C. モデルの計算時間とメモリ使用量を評価するための指標である。
D. 教師なし学習のクラスタリング結果を評価するために用いられる。
クリックして下さい
正解: B
解説: 混同行列は、分類モデルの性能を詳細に評価するための基本的なツールです。この行列の数値(TP, FP, TN, FN)を基に、正解率、適合率、再現率、F値といった様々な評価指標が計算されます。
問題19
二つのグループの平均値に、統計的に有意な差があるかどうかを検定する際に用いられる手法として最も代表的なものを一つ選べ。
A. カイ二乗検定
B. t検定
C. 分散分析 (ANOVA)
D. 相関分析
クリックして下さい
正解: B
解説: t検定は、二つの標本群の平均値の差を評価するための仮説検定手法です。例えば、新薬の投薬グループとプラセボ(偽薬)グループの血圧の平均値に差があるかを検証する場合などに用いられます。
問題20
三つ以上のグループの平均値に、統計的に有意な差があるかどうかを検定する際に用いられる手法として最も代表的なものを一つ選べ。
A. カイ二乗検定
B. t検定
C. 分散分析 (ANOVA)
D. 回帰分析
クリックして下さい
正解: C
解説: 分散分析(Analysis of Variance)は、t検定を三つ以上のグループに拡張した手法です。例えば、A、B、Cという三つの異なる教育方法を受けた生徒たちの、テストの平均点に差があるかを検証する場合などに用いられます。