広告 DS(データサイエンティスト)検定

【DS検定100本ノック①】データサイエンス力・データエンジニアリング力編 - 頻出問題20選

2025年9月30日

はじめに

この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第一弾です。 データサイエンティストに求められる三つの力「ビジネス力」「データサイエンス力」「データエンジニアリング力」のうち、今回は**「データサイエンス力」と「データエンジニアリング力」**の基礎的な概念を問う20問です。

この分野は、用語の正確な理解が、合否を分けます。 それでは始めましょう。

関連記事

DS(データサイエンティスト)検定

“統計学が分からない”文系のためのDS(データサイエンティスト)検定・一点突破戦略

2025/10/1  

はじめに:この記事の“立ち位置” 筆者のスペック: 30代・文系出身・非エンジニア 試験結果: 2024年3月試験、不合格(合格基準点に対し、8点不足) この記事の目的: 成功体験記では語られない、「 ...

DS(データサイエンティスト)検定

【DS検定100本ノック①】データサイエンス力・データエンジニアリング力編 - 頻出問題20選

2025/10/1  

はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第一弾です。 データサイエンティストに求められる三つの力「ビジネス力」「データサイエンス力」「データエンジニアリング力」 ...

DS(データサイエンティスト)検定

【DS検定100本ノック②】データサイエンス力応用編 - 頻出問題20選

2025/10/1  

はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第二弾です。 今回は「データサイエンス力」の中でも特に差がつきやすい、統計的仮説検定や回帰分析、そして機械学習モデルの評 ...

DS(データサイエンティスト)検定

【DS検定100本ノック③】ビジネス力・データエンジニアリング力応用編 - 頻出問題20選

2025/10/1  

はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第三弾です。 今回はデータサイエンスのプロジェクトを成功に導く上で不可欠な「ビジネス力」と、それを支える「データエンジニ ...

DS(データサイエンティスト)検定

【DS検定100本ノック④】ビジネス力応用・AI社会と倫理編 - 頻出問題20選

2025/10/1  

はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の第四弾です。 今回は「ビジネス力」の中でも、より実践的なフレームワークや法律知識、そして、AIが社会に与える影響と、それ ...

DS(データサイエンティスト)検定

【DS検定100本ノック⑤】最終確認・総合問題編 - 頻出問題20選

2025/10/1  

はじめに この記事はDS検定合格を目指すための実践的な問題集「100本ノック」の最終回です。 今回はこれまでの分野を横断する「総合問題」として、あなたの知識が本当に定着しているかを確認するための20問 ...

問題1

データ分析プロジェクトのプロセスモデルとして広く知られ、「ビジネスの理解」から始まり「データの理解」「データの準備」「モデリング」「評価」「展開」という6つのフェーズを定義しているモデルは何か。

A. KDD (Knowledge Discovery in Databases)

B. CRISP-DM (Cross-Industry Standard Process for Data Mining)

C. PPDAC (Problem, Plan, Data, Analysis, Conclusion)

D. SEMMA (Sample, Explore, Modify, Model, Assess)

問題2

集団を代表する値(代表値)に関する記述として適切でないものを一つ選べ。

A. 平均値は、外れ値(極端に大きい、または小さい値)の影響を受けやすい。

B. 中央値は、データを大きさの順に並べたときに、ちょうど中央に位置する値である。

C. 最頻値は、データの中で最も出現回数が多い値であり、質的データに対しても使用できる。

D. 平均値は、中央値や最頻値よりも、常にデータ全体の特徴を最もよく表している。

問題3

二つの量的変数の関係性の強さと向きを示す指標として最も適切なものを一つ選べ。-1から+1までの値をとり、+1に近いほど強い正の相関、-1に近いほど強い負の相関があることを示す。

A. 標準偏差

B. 分散

C. 相関係数

D. 決定係数

問題4

統計的仮説検定において、本来は真である帰無仮説を、誤って棄却してしまう誤りのことを何と呼ぶか。

A. 第一種の過誤(αエラー)

B. 第二種の過誤(βエラー)

C. 確証バイアス

D. 標準誤差

問題5

統計的仮説検定において、本来は偽である帰無仮説を、誤って採択してしまう誤りのことを何と呼ぶか。

A. 第一種の過誤(αエラー)

B. 第二種の過誤(βエラー)

C. 生存バイアス

D. p値

問題6

ある事象Aが起こったという条件のもとで、別の事象Bが起こる確率。これを数式でP(B|A)と表すこの確率を何と呼ぶか。

A. 同時確率

B. 周辺確率

C. 条件付き確率

D. 事前確率

問題7

リレーショナルデータベースにおいて、テーブル(表)の「行」に相当し、一件のデータを表すものを何と呼ぶか。

A. カラム

B. レコード

C. フィールド

D. スキーマ

問題8

リレーショナルデータベースを操作するための、国際標準化された言語は何か。データの検索(SELECT)、追加(INSERT)、更新(UPDATE)、削除(DELETE)などを行うことができる。

A. Python

B. R

C. Java

D. SQL

問題9

企業の様々なシステムから、データを抽出し(Extract)、利用しやすい形式に変換し(Transform)、データウェアハウスなどに格納する(Load)一連のプロセスのことを何と呼ぶか。

A. API連携

B. ETL処理

C. Webスクレイピング

D. バッチ処理

問題10

企業の意思決定を支援するために、基幹システムなどから収集した膨大なデータを、時系列に沿って整理・保管しておくためのデータベースを何と呼ぶか。

A. データマート

B. データレイク

C. データウェアハウス(DWH)

D. トランザクションデータベース

問題11

構造化データ(例:RDBのテーブル)だけでなく、非構造化データ(例:画像、動画、テキスト、ログファイル)も、加工せずに、そのままの形式で一元的に蓄積しておくためのリポジトリを何と呼ぶか。

A. データマート

B. データレイク

C. データウェアハウス(DWH)

D. NoSQLデータベース

問題12

SQLにおいて、二つ以上のテーブルを、特定の共通する列(キー)を基に、横方向に連結するための操作を何と呼ぶか。

A. UNION

B. JOIN

C. GROUP BY

D. WHERE

問題13

ビッグデータを高速に処理するための、分散処理フレームワークとして、最も代表的なオープンソースソフトウェアは何か。MapReduceとHDFSという二つの主要なコンポーネントを持つ。

A. Apache Hadoop

B. Apache Spark

C. Docker

D. Kubernetes

問題14

HadoopのMapReduceよりも、高速なインメモリ処理を得意とし、現在、ビッグデータの分散処理フレームワークの主流となっているオープンソースソフトウェアは何か。

A. Apache Hadoop

B. Apache Spark

C. TensorFlow

D. PyTorch

問題15

クラウドコンピューティングのサービスモデルの一つで、CPU、メモリ、ストレージ、ネットワークといった、ハードウェア資源(インフラ)を、インターネット経由で、オンデマンドで提供するサービスを何と呼ぶか。

A. SaaS (Software as a Service)

B. PaaS (Platform as a Service)

C. IaaS (Infrastructure as a Service)

D. DaaS (Data as a Service)

問題16

クラウドコンピューティングのサービスモデルの一つで、アプリケーションを実行するためのプラットフォーム(OS、ミドルウェア、データベースなど)を、インターネット経由で提供するサービスを何と呼ぶか。

A. SaaS (Software as a Service)

B. PaaS (Platform as a Service)

C. IaaS (Infrastructure as a Service)

D. FaaS (Function as a Service)

問題17

クラウドコンピューティングのサービスモデルの一つで、ソフトウェア(アプリケーション)を、インターネット経由で、ユーザーに提供するサービスを何と呼ぶか。

A. SaaS (Software as a Service)

B. PaaS (Platform as a Service)

C. IaaS (Infrastructure as a Service)

D. XaaS (X as a Service)

問題18

Pythonのライブラリに関する記述として、最も適切でないものを一つ選べ。

A. NumPyは、高速な多次元配列の計算を行うための、数値計算ライブラリである。

B. Pandasは、DataFrameという、表形式のデータを、効率的に操作・分析するためのライブラリである。

C. MatplotlibやSeabornは、データの可視化(グラフ作成)を行うためのライブラリである。

D. TensorFlowやPyTorchは、主にWebアプリケーションの開発に用いられるフレームワークである。

問題19

データの品質を担保するための「データクレンジング」の作業として、適切でないものを一つ選べ。

A. 欠損値(データが抜けている箇所)を、平均値や中央値などで補完する。

B. 外れ値(極端に異常な値)を、検出して、除去、または修正する。

C. 表記の揺れ(例:「株式会社〇〇」と「(株)〇〇」)を、統一する。

D. モデルの精度を上げるために、意図的に、データを改ざんする。

問題20

データのプライバシー保護の観点から、個人を特定できる情報を削除したり、データを一般化したりすることで、個人が特定できないようにする処理を何と呼ぶか。

A. データ匿名化

B. データ正規化

C. データ標準化

D. データ暗号化

-DS(データサイエンティスト)検定