はじめに
この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の最終回です。 今回はこれまでの分野を横断する「総合問題」として、あなたの知識が本当に定着しているかを確認するための20問です。
最後の腕試しとして、本番の気持ちで挑戦してみてください。 それでは始めましょう。
関連記事
-
-
DS(データサイエンティスト)検定
はじめに:この記事の“立ち位置” 筆者のスペック: 30代・文系出身・非エンジニア 試験結果: 2024年3月試験、不合格(合格基準点に対し、8点不足) この記事の目的: 成功体験記では語られない、「 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第一弾です。 データサイエンティストに求められる三つの力「ビジネス力」「データサイエンス力」「データエンジニアリング力」 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 今回は「データサイエンス力」の中でも特に差がつきやすい、統計的仮説検定や回帰分析、そして機械学習モデルの評 ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第三弾です。 今回はデータサイエンスのプロジェクトを成功に導く上で不可欠な「ビジネス力」と、それを支える「データエンジニ ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第四弾です。 今回は「ビジネス力」の中でも、より実践的なフレームワークや法律知識、そして、AIが社会に与える影響と、それ ...
-
-
DS(データサイエンティスト)検定
はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の最終回です。 今回はこれまでの分野を横断する「総合問題」として、あなたの知識が本当に定着しているかを確認するための20問 ...
問題1
データ分析プロジェクトの標準的なプロセスモデルであるCRISP-DMにおいて、「モデリング」フェーズの次に実施されるフェーズは何か。
A. データの準備
B. 評価
C. 展開
D. ビジネスの理解
クリックして下さい
正解: B
解説: CRISP-DMのプロセスは「ビジネスの理解」「データの理解」「データの準備」「モデリング」「評価」「展開」の順に進みます。モデリングで作成したモデルが、ビジネス上の課題解決に本当に役立つかを検証する「評価」フェーズが次に来ます。
問題2
ある学習済みモデルが、未知のデータに対してはうまく予測できるが、学習に用いたデータに対しては予測精度が低い状態を何と呼ぶか。
A. 過学習(オーバーフィッティング)
B. 未学習(アンダーフィッティング)
C. 汎化
D. 正則化
クリックして下さい
正解: B
解説: 未学習は、モデルが単純すぎて、学習データの特徴を十分に捉えきれていない状態です。この場合、モデルをより複雑にする、あるいは特徴量を追加するなどの対策が必要になります。
問題3
二つの変数の関係性について「相関関係は因果関係を意味しない」と言われる。その具体例として最も適切なものを一つ選べ。
A. 気温が高い日ほど、アイスクリームの売上が増える。
B. 広告費を増やした結果、商品の売上が増えた。
C. ある都市で、アイスクリームの売上が多い日ほど、水難事故の発生件数も多い。
D. 勉強時間を増やした結果、テストの点数が上がった。
クリックして下さい
正解: C
解説: アイスクリームの売上と水難事故の件数には、おそらく正の相関が見られます。しかし、これは「アイスクリームを食べると水難事故に遭う」という因果関係を意味しません。実際には「気温が高い」という第三の要因(交絡因子)が、両方の事象を引き起こしていると考えられます。これを「疑似相関」と呼びます。
問題4
企業の基幹システムなどに蓄積されたデータを、BIツールなどを通じて分析し、経営上の意思決定に役立てるアプローチを何と呼ぶか。
A. データドリブン
B. トップダウン
C. ボトムアップ
D. アウトソーシング
クリックして下さい
正解: A
解説: データドリブンは、経験や勘だけでなく、客観的なデータに基づいて意思決定を行う経営スタイルを指します。現代のビジネスにおいて、その重要性はますます高まっています。
問題5
PythonのライブラリであるPandasにおいて、中心的な役割を果たす、行と列からなる二次元の表形式のデータ構造を何と呼ぶか。
A. Array
B. List
C. DataFrame
D. Dictionary
クリックして下さい
正解: C
解説: DataFrameは、データ分析を行う上で非常に便利な機能を提供する、Pandasの基本となるデータ構造です。Excelのスプレッドシートのようなものを想像すると分かりやすいでしょう。
問題6
あるECサイトで、商品Aを購入した顧客は、商品Bも同時に購入する傾向が強い、といった商品間の関連性を分析する手法を何と呼ぶか。
A. クラスター分析
B. 回帰分析
C. アソシエーション分析
D. 因子分析
クリックして下さい
正解: C
解説: アソシエーション分析は「バスケット分析」とも呼ばれ、顧客の購買データから「もしこれを買ったら、次にあれも買うだろう」というルールを見つけ出す手法です。スーパーのレジのデータ分析などが典型例です。
問題7
あるサービスにおいて、無料の基本機能を提供して多くのユーザーを集め、その中の一部に、より高機能な有料版へのアップグレードを促すビジネスモデルを何と呼ぶか。
A. サブスクリプションモデル
B. フリーミアムモデル
C. 広告モデル
D. 従量課金モデル
クリックして下さい
正解: B
解説: フリーミアムは「Free(無料)」と「Premium(割増)」を組み合わせた造語です。多くのWebサービスやスマートフォンアプリで採用されている、現代の代表的なビジネスモデルの一つです。
問題8
ある機械学習モデルの予測精度を評価する指標のうち、モデルが「陽性」と予測したものの中で、実際に「陽性」であったものの割合を示す指標は何か。
A. 正解率 (Accuracy)
B. 適合率 (Precision)
C. 再現率 (Recall)
D. 特異度 (Specificity)
クリックして下さい
正解: B
解説: 適合率は、予測の「正確性」を示します。例えば、迷惑メールフィルタの適合率が低いと、重要なメールまで迷惑メールフォルダに入ってしまうという問題が発生します。
問題9
クラウド上に構築されたデータベースサービスを、インターネット経由で利用する形態を何と呼ぶか。
A. オンプレミス
B. DaaS (Desktop as a Service)
C. DBaaS (Database as a Service)
D. ハウジング
クリックして下さい
正解: C
解説: DBaaS(Database as a Service)は、PaaSの一種と見なされます。データベースの構築や運用・管理をクラウド事業者に任せることができるため、開発者はアプリケーション開発に集中できます。Amazon RDSやGoogle Cloud SQLが代表例です。
問題10
あるWebサイトを訪問したユーザーが、最初に訪れたページから、他のページに移動することなく、サイトを離れてしまったセッションの割合を示す指標は何か。
A. 直帰率
B. 離脱率
C. 回遊率
D. コンバージョン率
クリックして下さい
正解: A
解説: 直帰率は、そのランディングページがユーザーの期待に応えられているかを測る重要な指標です。直帰率が高い場合、ページのコンテンツやデザイン、あるいはサイトの表示速度などに問題がある可能性が考えられます。
問題11
AIの倫理原則に関する議論において、AIの判断によって不利益を被った個人が、その決定に対して異議を申し立て、人間による再審査を要求できる権利を保障すべきである、という考え方は、主にどの原則に含まれるか。
A. 公平性の原則
B. プライバシーの原則
C. アカウンタビリティ(説明責任)の原則
D. 安全性の原則
クリックして下さい
正解: C
解説: アカウンタビリティには、AIの決定プロセスを説明できることだけでなく、その決定に対して人間が介入し、修正できる仕組みを確保することも含まれます。これは、AIの暴走を防ぎ、人間の尊厳を守るために重要な考え方です。
問題12
SQLにおいて、テーブルから特定の条件を満たすレコード(行)を抽出するために使用される句は何か。
A. SELECT
B. FROM
C. WHERE
D. GROUP BY
クリックして下さい
正解: C
解説: WHERE句は、SQLの最も基本的な構文の一つです。例えば「WHERE 年齢 > 20」のように記述することで、20歳より年上の顧客データのみを抽出することができます。
問題13
データ分析プロジェクトにおいて、分析結果をビジネスの現場に導入し、実際に業務プロセスを改善したり、新しいサービスを開発したりするフェーズを、CRISP-DMでは何と呼ぶか。
A. モデリング
B. 評価
C. 展開
D. データの準備
クリックして下さい
正解: C
解説: 展開(Deployment)は、データ分析の成果を実際のビジネス価値に転換するための、最終的かつ最も重要なフェーズです。分析して終わりではなく、現場で使われて初めて、そのプロジェクトは成功したと言えます。
問題14
ビッグデータの分散処理基盤であるHadoopにおいて、データを複数のサーバに分散して格納するためのファイルシステムを何と呼ぶか。
A. MapReduce
B. HDFS
C. YARN
D. Hive
クリックして下さい
正解: B
解説: HDFS(Hadoop Distributed File System)は、巨大なファイルをブロック単位に分割し、複数のサーバに複製して保存することで、耐障害性と高いスループットを実現しています。
問題15
ある製品やサービスを構成する要素を「価値(Value)」「希少性(Rarity)」「模倣困難性(Imitability)」「組織(Organization)」の四つの観点から分析し、その競争優位性を評価するフレームワークは何か。
A. VRIO分析
B. PEST分析
C. SWOT分析
D. 3C分析
クリックして下さい
正解: A
解説: VRIO分析は、企業の経営資源が、持続的な競争優位性の源泉となり得るかを評価するためのツールです。データや、データ分析チームそのものを、このフレームワークで分析することも有効です。
問題16
情報セキュリティの三つの要素(CIA)に含まれないものを一つ選べ。
A. 機密性 (Confidentiality)
B. 完全性 (Integrity)
C. 可用性 (Availability)
D. 信頼性 (Reliability)
クリックして下さい
正解: D
解説: 情報セキュリティのCIAとは、機密性(許可された者だけがアクセスできる)、完全性(データが改ざんされていない)、可用性(必要な時にいつでもアクセスできる)の三つの要素を指します。
問題17
顧客を「Recency(最新購買日)」「Frequency(購買頻度)」「Monetary(累計購買金額)」という三つの指標でランク付けし、優良顧客を特定する顧客分析の手法を何と呼ぶか。
A. デシル分析
B. RFM分析
C. バスケット分析
D. セグメンテーション分析
クリックして下さい
正解: B
解説: RFM分析は、顧客の購買行動に基づいて、それぞれの顧客が企業にとってどれだけ重要かを評価するための、古典的かつ強力な手法です。
問題18
あるモデルの性能を評価する際、適合率(Precision)と再現率(Recall)がトレードオフの関係にある場合に、両者をバランス良く評価するために用いられる指標は何か。
A. 正解率 (Accuracy)
B. ROC曲線
C. AUC (Area Under the Curve)
D. F値 (F-measure)
クリックして下さい
正解: D
解説: F値は、適合率と再現率の調和平均をとったものです。どちらか一方の指標だけが高くても良いスコアにはならず、両方のバランスが取れているかを評価するのに役立ちます。
問題19
データの分布を視覚化するグラフの一つで、データを複数の階級に区切り、各階級に属するデータの度数(個数)を棒グラフで表したものを何と呼ぶか。
A. 散布図
B. 箱ひげ図
C. ヒストグラム
D. 折れ線グラフ
クリックして下さい
正解: C
解説: ヒストグラムは、データがどのような値に集中し、どのようにばらついているか、その分布の形状を直感的に把握するために用いられます。
問題20
データ分析の最終的な目的として最も重要なものは何か。
A. 精度の高い予測モデルを構築すること。
B. 美しいグラフやレポートを作成すること。
C. データからインサイト(洞察)を発見し、ビジネス上の具体的なアクションに繋げること。
D. 最新のAI技術や分析手法を導入すること。
クリックして下さい
正解: C
解説: データ分析は、それ自体が目的ではありません。分析を通じて得られた知見を基に、ビジネス上の課題を解決し、具体的な価値を生み出すことこそが、データサイエンティストに求められる最も重要な役割です。