DX検定の 「ビッグデータとデータサイエンス分野(J)」 は、ビッグデータとデータサイエンスを基礎・応用・開発の観点で整理し、データ活用の全体像を理解することが求められる領域です。しかし、似た用語が多く、言葉だけで覚えると“何が違うのか”が曖昧になりやすいのが実情です。
本記事は、J1(ビッグデータ)とJ2(データサイエンス)で、実際の試験の問題文や選択肢での頻出キーワードを出題頻度(★〜★★★)つきで整理した「合格用まとめ」です。
それぞれ「基礎→応用→開発」の流れで整理でき、最後に「混同しやすいワードキーワードまとめ」で用語の取り違えをまとめて潰せる構成なので、出題のひっかけに強い形で理解を固めたい方におすすめです。
出題範囲の全体像はこちらのページをご覧ください。
J1_ビッグデータ
ビッグデータの基礎知識
ビッグデータ(★★)
定義:量・種類・生成速度などが大きく、従来手法では扱いにくいデータ群。
ポイント:
- 代表的な整理は「3V(Volume/Variety/Velocity)」で覚える
- 価値は“蓄積”ではなく“意思決定・業務・商品”に落とすことで出る
間違えやすいポイント:ビッグデータ=大量の表データ、と決めつけない(ログ・画像・音声も含む)。
構造化データ vs 非構造化データ(★)
定義:構造化は表形式で扱いやすいデータ、非構造化は文章・画像・音声など形式が定まらないデータ。
ポイント:AI/自然言語/画像解析の登場で非構造化が価値の源泉になりやすい。
間違えやすいポイント:非構造化=分析できない、ではない(AIで扱える)。
データレイク
定義:生データも含め多様なデータを、そのまま大量に格納する領域(保存の柔軟性が高い)。
ポイント:後から用途が広がるデータ(ログ等)を溜める発想で登場しやすい。
間違えやすいポイント:データウェアハウス(整理して格納)と混同しない。
データウェアハウス(DWH)
定義:分析しやすい形に整理・統合したデータを格納する仕組み。
ポイント:経営指標やKPIの集計など“分析前提”で語られやすい。
間違えやすいポイント:DWH=生データ置き場、ではない。
ETL / ELT
定義:データを抽出(Extract)し、変換(Transform)して、格納(Load)する一連の処理(ELTはLoad→Transform)。
ポイント:クラウドDWHではELT(先に溜めて後で変換)も出やすい。
間違えやすいポイント:ETL=データ可視化、ではない(前処理/連携の話)。
DaaS(Data as a Service)(★)
定義:データを“サービス”として提供する形(取得・整形・更新・提供までを含む)。
ポイント:
- API提供や継続更新(鮮度)まで含めて価値になる
- データ品質(正確性・欠損・更新頻度)が評価軸
間違えやすいポイント:SaaS(ソフト提供)と混同しない(主語がデータ)。
代表サービス/事例
- DaaS(★):データそのものをサービスとして提供(継続更新・API提供)
ビッグデータの応用知識
NoSQL(★)
定義:RDB(表・SQL)以外のデータベースの総称(キー値/カラム/ドキュメントなど)。
ポイント:
- 大規模・高スループット・柔軟なスキーマで採用されやすい
- “何を優先するか”で設計が変わる
間違えやすいポイント:NoSQL=SQLが使えない、とは限らない(製品による)。
Amazon DynamoDB(★)
定義:マネージドなNoSQLデータベースの代表例として登場する名称。
ポイント:運用(スケール/可用性)をサービス側に寄せられる文脈で出やすい。
間違えやすいポイント:RDBとして扱わない(設計思想が違う)。
Cloud Bigtable(★)
定義:大規模データ向けのデータストアとして登場する名称(Google系)。
ポイント:大規模・高スループットの用途に寄せて覚える。
間違えやすいポイント:BigQuery(分析DWH)など別製品名と混同しない。
分散処理(Hadoop / Spark)(★)
定義:複数台の計算機で並列に処理する方式(ビッグデータ処理で頻出)。
ポイント:「大規模データを速く処理する」ための基盤として名前が出やすい。Hadoop/Sparkは“代表名”として暗記枠。
間違えやすいポイント:分散処理=データベース、ではない(処理エンジン側)。
Hadoop(★)
定義:分散処理基盤の代表的名称。
ポイント:ビッグデータの歴史的文脈でも出やすい。
間違えやすいポイント:クラウドDWHと混同しない。
Apache Spark(★)
定義:分散処理基盤の代表的名称(Hadoopと並びやすい)。
ポイント:高速処理の文脈で出やすい。
間違えやすいポイント:単なるストレージ、と誤解しない。
代表サービス/事例
- NoSQL:DynamoDB(★)、Cloud Bigtable(★)
- 分散処理:Hadoop(★)、Apache Spark(★)
ビッグデータの開発知識
データモデリング
定義:データをどう構造化し、関係をどう持たせるかを設計すること。
ポイント:設計が悪いと集計・分析が破綻しやすい(後工程ほど高コスト)。
間違えやすいポイント:モデリング=機械学習モデル作成、と混同しない。
データ品質(Data Quality)
定義:正確性・完全性・一貫性・最新性など、データが使える状態である度合い。
ポイント:DaaSやBI導入で必ず論点になる。
間違えやすいポイント:量が多ければ品質が高い、ではない。
代表サービス/事例
- データ品質:更新頻度・欠損・定義のブレが実務の地雷になりやすい
J2_データサイエンス
データサイエンスの基礎知識
データサイエンス(★★)
定義:データから価値を抽出し、意思決定や改善につなげるための学際領域(統計×計算×ドメイン)。
ポイント:
- “分析”ではなく“意思決定につなぐ”のが主語
- 統計・機械学習・可視化がセットで出やすい
間違えやすいポイント:データサイエンス=AI開発、だけに縮めない。
統計解析(★)
定義:データの傾向や関係を、確率・分布・推定などで定量的に捉える方法。
ポイント:平均・分散・相関・検定などが基礎。
間違えやすいポイント:相関=因果、と断定しない(因果推論とは別)。
特徴量(Feature)
定義:モデルや分析で使う説明変数(入力変数)。
ポイント:特徴量設計で精度が大きく変わることが多い。
間違えやすいポイント:特徴量=正解ラベル、ではない。
前処理(データ前加工)
定義:欠損補完、外れ値処理、形式統一、正規化など、分析前にデータを整える工程。
ポイント:実務では成果の多くが前処理で決まる。
間違えやすいポイント:前処理=可視化、ではない。
アノテーション(★)
定義:学習用データに正解ラベルを付ける作業。
ポイント:AIの品質を左右する(工数も大きい)。
間違えやすいポイント:アノテーション=自動分類、ではない。
代表サービス/事例
- アノテーション(★):画像/音声/テキストに正解ラベルを付ける工程
データサイエンスの応用知識
BI(Business Intelligence)(★★)
定義:データを可視化・共有し、意思決定を支援する仕組み・考え方。
ポイント:
- KPIダッシュボード化(見える化)で現場の判断を速くする
- “誰が見ても同じ解釈になる”定義設計が重要
間違えやすいポイント:BI=機械学習、ではない(可視化・共有が主)。
Tableau(★)
定義:BI/可視化ツールの代表例として登場する名称。
ポイント:ダッシュボード・可視化の“道具名”として暗記。
間違えやすいポイント:Tableau=データベース、と誤解しない。
ダッシュボード(★)
定義:KPIなどを可視化し、状況把握を容易にする画面。
ポイント:定義(KPI計算式)と更新頻度が価値を左右する。
間違えやすいポイント:ダッシュボード=1回作って終わり、ではない(運用が主)。
A/Bテスト
定義:施策をAとBに分けて比較し、効果を検証する方法。
ポイント:ランダム割付と評価指標の設計が鍵。
間違えやすいポイント:A/Bテスト=相関分析、と混同しない。
データガバナンス
定義:データの品質・権限・利用ルールを組織として管理する枠組み。
ポイント:権限管理・定義統一・監査が論点になりやすい。
間違えやすいポイント:ガバナンス=禁止、ではない(使える状態を作る)。
代表サービス/事例
- BI:Tableau(★)を代表例として押さえる
データサイエンスの開発知識
分析環境(クラウド/オンプレ)
定義:データ処理・分析・学習を行うための実行環境(計算資源と運用)。
ポイント:ビッグデータ処理は分散処理/クラウド活用が前提になりやすい。
間違えやすいポイント:環境=ツール名、と混同しない。
MLOps(★)
定義:機械学習モデルを継続運用(デプロイ・監視・再学習)するための基盤/プロセス。
ポイント:データの変化(ドリフト)に対応して“継続改善”する文脈で出やすい。
間違えやすいポイント:MLOps=単発のモデル開発、ではない。
代表サービス/事例
- 継続運用:MLOps(★)
混同しやすいキーワードまとめ
データレイク vs データウェアハウス(DWH)
ポイント:
- データレイク:生データも含めて“とにかく溜める”(柔軟)
- DWH:分析しやすい形に“整理して溜める”(集計に強い)
間違えやすいポイント:DWHを“生データ置き場”として扱わない。
ETL vs ELT
ポイント:
- ETL:変換してから格納
- ELT:格納してから変換(クラウドDWHで出やすい)
間違えやすいポイント:ETLを可視化ツールと混同しない。
RDB vs NoSQL
ポイント:
- RDB:表(スキーマ)+SQL、整合性重視
- NoSQL:スキーマ柔軟・スケール重視など(用途で選ぶ)
間違えやすいポイント:NoSQL=SQL禁止、ではない(製品により異なる)。
DynamoDB(★) vs Cloud Bigtable(★)
ポイント:
- どちらも大規模データ向けのデータストアとして“名前暗記”が重要
- 提供主体(AWS/Google)を取り違えない
間違えやすいポイント:BigtableとBigQueryなど似た名称を混同しない。
Hadoop(★) vs Apache Spark(★)
ポイント:どちらも分散処理の代表名(大規模データ処理で登場)
間違えやすいポイント:データベース名だと思い込まない(処理基盤側)。
BI(★★) vs 機械学習
ポイント:
- BI:可視化・共有・意思決定支援
- 機械学習:予測・分類などモデル化
間違えやすいポイント:BIツール導入=AI導入、と混ぜない。
Tableau(★) vs ダッシュボード(★)
ポイント:
- Tableau:道具(ツール名)
- ダッシュボード:成果物(画面・可視化の形)
間違えやすいポイント:ツール名と成果物の呼称を混同しない。
アノテーション(★) vs 前処理
ポイント:
- アノテーション:正解ラベル付け(教師データ作成)
- 前処理:欠損補完、外れ値処理、形式統一などデータ整形
間違えやすいポイント:どちらも“準備”だが目的が違う。


