【DX検定】ビッグデータとデータサイエンス分野まとめ｜キーワード解説＋出題ポイント

DX検定の「ビッグデータとデータサイエンス分野（J）」は、ビッグデータとデータサイエンスを基礎・応用・開発の観点で整理し、データ活用の全体像を理解することが求められる領域です。しかし、似た用語が多く、言葉だけで覚えると“何が違うのか”が曖昧になりやすいのが実情です。

本記事は、J1（ビッグデータ）とJ2（データサイエンス）で、実際の試験の問題文や選択肢での頻出キーワードを出題頻度（★〜★★★）つきで整理した「合格用まとめ」です。

それぞれ「基礎→応用→開発」の流れで整理でき、最後に「混同しやすいワードキーワードまとめ」で用語の取り違えをまとめて潰せる構成なので、出題のひっかけに強い形で理解を固めたい方におすすめです。

出題範囲の全体像はこちらのページをご覧ください。

J1_ビッグデータ
J2_データサイエンス
混同しやすいキーワードまとめ

J1_ビッグデータ

ビッグデータの基礎知識

ビッグデータ（★★）

定義：量・種類・生成速度などが大きく、従来手法では扱いにくいデータ群。
ポイント：

代表的な整理は「3V（Volume/Variety/Velocity）」で覚える
価値は“蓄積”ではなく“意思決定・業務・商品”に落とすことで出る

間違えやすいポイント：ビッグデータ＝大量の表データ、と決めつけない（ログ・画像・音声も含む）。

構造化データ vs 非構造化データ（★）

定義：構造化は表形式で扱いやすいデータ、非構造化は文章・画像・音声など形式が定まらないデータ。
ポイント：AI/自然言語/画像解析の登場で非構造化が価値の源泉になりやすい。
間違えやすいポイント：非構造化＝分析できない、ではない（AIで扱える）。

データレイク

定義：生データも含め多様なデータを、そのまま大量に格納する領域（保存の柔軟性が高い）。
ポイント：後から用途が広がるデータ（ログ等）を溜める発想で登場しやすい。
間違えやすいポイント：データウェアハウス（整理して格納）と混同しない。

データウェアハウス（DWH）

定義：分析しやすい形に整理・統合したデータを格納する仕組み。
ポイント：経営指標やKPIの集計など“分析前提”で語られやすい。
間違えやすいポイント：DWH＝生データ置き場、ではない。

ETL / ELT

定義：データを抽出（Extract）し、変換（Transform）して、格納（Load）する一連の処理（ELTはLoad→Transform）。
ポイント：クラウドDWHではELT（先に溜めて後で変換）も出やすい。
間違えやすいポイント：ETL＝データ可視化、ではない（前処理/連携の話）。

DaaS（Data as a Service）（★）

定義：データを“サービス”として提供する形（取得・整形・更新・提供までを含む）。
ポイント：

API提供や継続更新（鮮度）まで含めて価値になる
データ品質（正確性・欠損・更新頻度）が評価軸

間違えやすいポイント：SaaS（ソフト提供）と混同しない（主語がデータ）。

代表サービス/事例

DaaS（★）：データそのものをサービスとして提供（継続更新・API提供）

ビッグデータの応用知識

NoSQL（★）

定義：RDB（表・SQL）以外のデータベースの総称（キー値/カラム/ドキュメントなど）。
ポイント：

大規模・高スループット・柔軟なスキーマで採用されやすい
“何を優先するか”で設計が変わる

間違えやすいポイント：NoSQL＝SQLが使えない、とは限らない（製品による）。

Amazon DynamoDB（★）

定義：マネージドなNoSQLデータベースの代表例として登場する名称。
ポイント：運用（スケール/可用性）をサービス側に寄せられる文脈で出やすい。
間違えやすいポイント：RDBとして扱わない（設計思想が違う）。

Cloud Bigtable（★）

定義：大規模データ向けのデータストアとして登場する名称（Google系）。
ポイント：大規模・高スループットの用途に寄せて覚える。
間違えやすいポイント：BigQuery（分析DWH）など別製品名と混同しない。

分散処理（Hadoop / Spark）（★）

定義：複数台の計算機で並列に処理する方式（ビッグデータ処理で頻出）。
ポイント：「大規模データを速く処理する」ための基盤として名前が出やすい。Hadoop/Sparkは“代表名”として暗記枠。
間違えやすいポイント：分散処理＝データベース、ではない（処理エンジン側）。

Hadoop（★）

定義：分散処理基盤の代表的名称。
ポイント：ビッグデータの歴史的文脈でも出やすい。
間違えやすいポイント：クラウドDWHと混同しない。

Apache Spark（★）

定義：分散処理基盤の代表的名称（Hadoopと並びやすい）。
ポイント：高速処理の文脈で出やすい。
間違えやすいポイント：単なるストレージ、と誤解しない。

代表サービス/事例

NoSQL：DynamoDB（★）、Cloud Bigtable（★）
分散処理：Hadoop（★）、Apache Spark（★）

ビッグデータの開発知識

データモデリング

定義：データをどう構造化し、関係をどう持たせるかを設計すること。
ポイント：設計が悪いと集計・分析が破綻しやすい（後工程ほど高コスト）。
間違えやすいポイント：モデリング＝機械学習モデル作成、と混同しない。

データ品質（Data Quality）

定義：正確性・完全性・一貫性・最新性など、データが使える状態である度合い。
ポイント：DaaSやBI導入で必ず論点になる。
間違えやすいポイント：量が多ければ品質が高い、ではない。

代表サービス/事例

データ品質：更新頻度・欠損・定義のブレが実務の地雷になりやすい

J2_データサイエンス

データサイエンスの基礎知識

データサイエンス（★★）

定義：データから価値を抽出し、意思決定や改善につなげるための学際領域（統計×計算×ドメイン）。
ポイント：

“分析”ではなく“意思決定につなぐ”のが主語
統計・機械学習・可視化がセットで出やすい

間違えやすいポイント：データサイエンス＝AI開発、だけに縮めない。

統計解析（★）

定義：データの傾向や関係を、確率・分布・推定などで定量的に捉える方法。
ポイント：平均・分散・相関・検定などが基礎。
間違えやすいポイント：相関＝因果、と断定しない（因果推論とは別）。

特徴量（Feature）

定義：モデルや分析で使う説明変数（入力変数）。
ポイント：特徴量設計で精度が大きく変わることが多い。
間違えやすいポイント：特徴量＝正解ラベル、ではない。

前処理（データ前加工）

定義：欠損補完、外れ値処理、形式統一、正規化など、分析前にデータを整える工程。
ポイント：実務では成果の多くが前処理で決まる。
間違えやすいポイント：前処理＝可視化、ではない。

アノテーション（★）

定義：学習用データに正解ラベルを付ける作業。
ポイント：AIの品質を左右する（工数も大きい）。
間違えやすいポイント：アノテーション＝自動分類、ではない。

代表サービス/事例

アノテーション（★）：画像/音声/テキストに正解ラベルを付ける工程

データサイエンスの応用知識

BI（Business Intelligence）（★★）

定義：データを可視化・共有し、意思決定を支援する仕組み・考え方。
ポイント：

KPIダッシュボード化（見える化）で現場の判断を速くする
“誰が見ても同じ解釈になる”定義設計が重要

間違えやすいポイント：BI＝機械学習、ではない（可視化・共有が主）。

Tableau（★）

定義：BI/可視化ツールの代表例として登場する名称。
ポイント：ダッシュボード・可視化の“道具名”として暗記。
間違えやすいポイント：Tableau＝データベース、と誤解しない。

ダッシュボード（★）

定義：KPIなどを可視化し、状況把握を容易にする画面。
ポイント：定義（KPI計算式）と更新頻度が価値を左右する。
間違えやすいポイント：ダッシュボード＝1回作って終わり、ではない（運用が主）。

A/Bテスト

定義：施策をAとBに分けて比較し、効果を検証する方法。
ポイント：ランダム割付と評価指標の設計が鍵。
間違えやすいポイント：A/Bテスト＝相関分析、と混同しない。

データガバナンス

定義：データの品質・権限・利用ルールを組織として管理する枠組み。
ポイント：権限管理・定義統一・監査が論点になりやすい。
間違えやすいポイント：ガバナンス＝禁止、ではない（使える状態を作る）。

代表サービス/事例

BI：Tableau（★）を代表例として押さえる

データサイエンスの開発知識

分析環境（クラウド/オンプレ）

定義：データ処理・分析・学習を行うための実行環境（計算資源と運用）。
ポイント：ビッグデータ処理は分散処理/クラウド活用が前提になりやすい。
間違えやすいポイント：環境＝ツール名、と混同しない。

MLOps（★）

定義：機械学習モデルを継続運用（デプロイ・監視・再学習）するための基盤/プロセス。
ポイント：データの変化（ドリフト）に対応して“継続改善”する文脈で出やすい。
間違えやすいポイント：MLOps＝単発のモデル開発、ではない。

代表サービス/事例

継続運用：MLOps（★）

混同しやすいキーワードまとめ

データレイク vs データウェアハウス（DWH）

ポイント：

データレイク：生データも含めて“とにかく溜める”（柔軟）
DWH：分析しやすい形に“整理して溜める”（集計に強い）

間違えやすいポイント：DWHを“生データ置き場”として扱わない。

ETL vs ELT

ポイント：

ETL：変換してから格納
ELT：格納してから変換（クラウドDWHで出やすい）

間違えやすいポイント：ETLを可視化ツールと混同しない。

RDB vs NoSQL

ポイント：

RDB：表（スキーマ）＋SQL、整合性重視
NoSQL：スキーマ柔軟・スケール重視など（用途で選ぶ）

間違えやすいポイント：NoSQL＝SQL禁止、ではない（製品により異なる）。

DynamoDB（★） vs Cloud Bigtable（★）

ポイント：

どちらも大規模データ向けのデータストアとして“名前暗記”が重要
提供主体（AWS/Google）を取り違えない

間違えやすいポイント：BigtableとBigQueryなど似た名称を混同しない。

Hadoop（★） vs Apache Spark（★）

ポイント：どちらも分散処理の代表名（大規模データ処理で登場）
間違えやすいポイント：データベース名だと思い込まない（処理基盤側）。

BI（★★） vs 機械学習

ポイント：

BI：可視化・共有・意思決定支援
機械学習：予測・分類などモデル化

間違えやすいポイント：BIツール導入＝AI導入、と混ぜない。

Tableau（★） vs ダッシュボード（★）

ポイント：

Tableau：道具（ツール名）
ダッシュボード：成果物（画面・可視化の形）

間違えやすいポイント：ツール名と成果物の呼称を混同しない。

アノテーション（★） vs 前処理

ポイント：

アノテーション：正解ラベル付け（教師データ作成）
前処理：欠損補完、外れ値処理、形式統一などデータ整形

間違えやすいポイント：どちらも“準備”だが目的が違う。

J1_ビッグデータ

ビッグデータの基礎知識

ビッグデータ（★★）

構造化データ vs 非構造化データ（★）

データレイク

データウェアハウス（DWH）

ETL / ELT

DaaS（Data as a Service）（★）

ビッグデータの応用知識

NoSQL（★）

Amazon DynamoDB（★）

Cloud Bigtable（★）

分散処理（Hadoop / Spark）（★）

Hadoop（★）

Apache Spark（★）

ビッグデータの開発知識

データモデリング

データ品質（Data Quality）

J2_データサイエンス

データサイエンスの基礎知識

データサイエンス（★★）

統計解析（★）

特徴量（Feature）

前処理（データ前加工）

アノテーション（★）

データサイエンスの応用知識

BI（Business Intelligence）（★★）

Tableau（★）

ダッシュボード（★）

A/Bテスト

データガバナンス

データサイエンスの開発知識

分析環境（クラウド/オンプレ）

MLOps（★）

混同しやすいキーワードまとめ

データレイク vs データウェアハウス（DWH）

ETL vs ELT

RDB vs NoSQL

DynamoDB（★） vs Cloud Bigtable（★）

Hadoop（★） vs Apache Spark（★）

BI（★★） vs 機械学習

Tableau（★） vs ダッシュボード（★）

アノテーション（★） vs 前処理

この記事を読んだ人がよく見ています

【DX検定】IT機器・サービス（道具としてのIT）分野まとめ｜キーワード解説＋出題ポイント

【DX検定】業務（仕組みとしてのIT）分野まとめ｜キーワード解説＋出題ポイント

【DX検定】クラウドとIT開発/運用分野まとめ｜キーワード解説＋出題ポイント

【DX検定】AI×ソフトウェア分野まとめ｜キーワード解説＋出題ポイント

【DX検定】商品（商品としてのIT）分野まとめ｜キーワード解説＋出題ポイント

【DX検定】戦略・理論（経営革新としてのIT）分野まとめ｜キーワード解説＋出題ポイント

【DX検定】次世代ビジネストレンド分野まとめ｜キーワード解説＋出題ポイント

【DX検定】サービス（サービスとしてのIT）分野まとめ｜キーワード解説＋出題ポイント

【DX検定】ロボットとスマートマシーン分野まとめ｜キーワード解説＋出題ポイント

【DX検定】全分野一覧｜ビジネス/技術の頻出ポイント完全整理