はじめに
この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 今回は「データサイエンス力」の中でも特に差がつきやすい、統計的仮説検定や回帰分析、そして機械学習モデルの評価といった応用的な概念を問う20問です。
用語の正確な理解だけでなくその「意味」を問う問題に焦点を当てています。 それでは始めましょう。
問題1
統計的仮説検定において「帰無仮説が正しい」という仮定のもとで、観測された事象よりもさらに極端な事象が起こる確率のことを何と呼ぶか。
A. 有意水準 (α)
B. 検出力 (1-β)
C. p値
D. 信頼区間
問題2
ある学習モデルの性能を評価する際に、本来は「陽性」であるものを「陰性」と誤って予測してしまった件数を表す指標は何か。
A. 真陽性 (True Positive)
B. 偽陽性 (False Positive)
C. 真陰性 (True Negative)
D. 偽陰性 (False Negative)
問題3
ある学習モデルの性能を評価する際に、本来は「陰性」であるものを「陽性」と誤って予測してしまった件数を表す指標は何か。
A. 真陽性 (True Positive)
B. 偽陽性 (False Positive)
C. 真陰性 (True Negative)
D. 偽陰性 (False Negative)
問題4
回帰モデルの性能を評価する指標の一つで、実際の値と予測値の差(残差)の二乗の平均を計算し、その平方根をとったものを何と呼ぶか。値が小さいほど予測精度が高いことを示す。
A. RMSE (Root Mean Square Error)
B. MAE (Mean Absolute Error)
C. 決定係数 (R-squared)
D. AIC (Akaike's Information Criterion)
問題5
ロジスティック回帰分析に関する記述として最も適切なものを一つ選べ。
A. 顧客の年齢から購買金額のような連続的な数値を予測するために用いられる。
B. アウトプットを0から1の間の確率として出力するため、主に分類問題に用いられる。
C. データを指定した数のグループに自動的に分ける教師なし学習の手法である。
D. 複数のモデルを組み合わせて予測精度を高めるアンサンブル学習の一種である。
問題6
決定木モデルにおいて、どの特徴量でデータを分割すれば、最も情報が整理されるか(不純度が下がるか)を測るための指標として適切でないものを一つ選べ。
A. 情報利得
B. ジニ不純度
C. 平均二乗誤差
D. エントロピー
問題7
A/Bテストに関する記述として最も適切なものを一つ選べ。
A. 二つの選択肢AとBを同時に実施し、どちらが良い結果をもたらすかを統計的に検証する手法である。
B. AIモデルのハイパーパラメータを調整するために、全ての組み合わせを試す手法である。
C. 二つの変数の相関関係の有無を検定するための手法である。
D. ある施策の実施前と実施後で、結果に有意な差があるかを検証する手法である。
問題8
時系列データの分析手法に関する記述として最も適切なものを一つ選べ。
A. 移動平均は、データの長期的なトレンドを把握するために用いられる。
B. 自己相関は、ある時点のデータと、別の時点のデータとの間の相関関係を示す。
C. 時系列データを定常的にするためには、分散を時間と共に変化させる必要がある。
D. ARIMAモデルは、教師なし学習に分類される。
問題9
ビッグデータの特徴を表す「3つのV」として数えられる要素の組み合わせとして正しいものを一つ選べ。
A. Volume (量), Velocity (速度), Value (価値)
B. Volume (量), Velocity (速度), Variety (多様性)
C. Volume (量), Variety (多様性), Veracity (真実性)
D. Velocity (速度), Variety (多様性), Value (価値)
問題10
機械学習モデルの解釈性を高める手法である「SHAP」に関する記述として最も適切なものを一つ選べ。
A. ある一つの予測結果に対して、各特徴量がどの程度貢献したかを可視化する手法である。
B. モデルの予測精度そのものを向上させるためのアンサンブル学習の手法である。
C. モデルの過学習を抑制するための正則化の手法である。
D. 決定木の構造を可視化するためのライブラリである。
問題11
「ベイズの定理」を応用した確率的な推論に基づく機械学習アルゴリズムは何か。迷惑メールフィルタなどで古くから利用されている。
A. 決定木
B. サポートベクターマシン
C. ナイーブベイズ分類器
D. k-NN法
問題12
ある集団(母集団)から無作為に抽出した標本を分析し、その結果から母集団全体の性質を推測する統計学の分野を何と呼ぶか。
A. 記述統計学
B. 推測統計学
C. ベイズ統計学
D. 時系列分析
問題13
実験計画法において、複数の要因の効果を効率的に評価するために、要因の全ての水準の組み合わせを試す実験計画を何と呼ぶか。
A. 一元配置実験
B. 乱塊法
C. 要因計画
D. ラテン方格法
問題14
多数の量的変数の中に存在する、共通の潜在的な因子を見つけ出す多変量解析の手法は何か。例えば、複数のアンケート項目から「顧客満足度」や「価格への敏感さ」といった因子を抽出するのに用いられる。
A. 主成分分析
B. 因子分析
C. クラスター分析
D. 判別分析
問題15
ある目的変数(例:売上)を、複数の説明変数(例:広告費、店舗面積)を用いて予測する回帰分析の手法を何と呼ぶか。
A. 単回帰分析
B. 重回帰分析
C. ロジスティック回帰分析
D. 主成分回帰
問題16
顧客の生涯にわたる価値を測る指標である「LTV(Life Time Value)」を算出する際に、考慮する必要がない要素を一つ選べ。
A. 顧客の平均購入単価
B. 顧客の平均購入頻度
C. 顧客の継続購入期間
D. 顧客の初回購入時の広告チャネル
問題17
Webサイトの改善などにおいて、ユーザーの行動を分析するために、サイト訪問から商品購入までの一連の流れを図式化し、各段階でどの程度のユーザーが離脱しているかを可視化する分析手法を何と呼ぶか。
A. RFM分析
B. アソシエーション分析
C. ファネル分析
D. バスケット分析
問題18
機械学習モデルの予測精度を評価する際に用いる「混同行列(Confusion Matrix)」に関する記述として正しいものを一つ選べ。
A. 回帰モデルの性能を評価するために用いられる。
B. モデルが正しく予測した件数と、誤って予測した件数を、クラスごとにまとめた表である。
C. モデルの計算時間とメモリ使用量を評価するための指標である。
D. 教師なし学習のクラスタリング結果を評価するために用いられる。
問題19
二つのグループの平均値に、統計的に有意な差があるかどうかを検定する際に用いられる手法として最も代表的なものを一つ選べ。
A. カイ二乗検定
B. t検定
C. 分散分析 (ANOVA)
D. 相関分析
問題20
三つ以上のグループの平均値に、統計的に有意な差があるかどうかを検定する際に用いられる手法として最も代表的なものを一つ選べ。
A. カイ二乗検定
B. t検定
C. 分散分析 (ANOVA)
D. 回帰分析