【DS検定カンペ】5分野の頻出用語・公式を暗記リストで総まとめ

DS検定カンペ|5分野の頻出用語・公式を暗記リストで総まとめ

DS検定(データサイエンティスト検定リテラシーレベル)の試験対策で、「暗記すべき項目が多すぎて何から手をつければいいかわからない」と悩んでいませんか。試験は持ち込み不可のため、事前に重要な用語や公式を効率的に暗記することが合格への近道です。

この記事では、統計・機械学習・データエンジニアリング・ビジネス・倫理の5分野について、試験頻出の用語・公式を暗記リスト形式で総まとめしました。試験直前の最終確認や、効率的な暗記戦略の立案にぜひお役立てください。

目次

DS検定にカンペは持ち込める?試験形式と合格ラインを確認

DS検定にカンペは持ち込める?試験形式と合格ラインを確認

DS検定の受験を検討している方が最初に気になるのが、「試験にカンペを持ち込めるのか」という点です。

DS検定はテストセンターでの監視下試験のため、カンペや参考資料の持ち込みは一切禁止されています。

同じデータサイエンス系資格のG検定が自宅受験でカンペ参照が可能なのに対し、DS検定は厳格な試験環境で実施されるため、事前の暗記が合否を大きく左右します。

試験は持ち込み不可!事前暗記が合否を分ける

DS検定は全国のテストセンターで実施される90分間のCBT(Computer Based Testing)形式の試験です。

試験会場では監視カメラや試験監督による厳重な監視が行われており、スマートフォン、メモ、参考書などあらゆる資料の持ち込みが禁止されています。

合格ラインは正答率約8割とされており、90問前後の出題のうち約72問以上の正解が必要です。

この高い合格基準をクリアするには、頻出用語や公式を確実に暗記しておくことが不可欠です。

参考:DS検定公式サイト

本記事の「カンペ」の定義と使い方

本記事で紹介する「カンペ」とは、試験会場に持ち込むものではなく、試験前に効率的に暗記するための要点整理リストを指します。

具体的には、DS検定の5分野(データサイエンス力・データエンジニアリング力・ビジネス力・機械学習・倫理)から頻出の用語・公式・概念を抽出し、暗記しやすい形式でまとめたものです。

このカンペは以下のような使い方を想定しています。

  • 試験1週間前からの集中暗記期間に繰り返し確認する
  • 通勤・通学時間などスキマ時間での復習に活用する
  • 試験当日の朝、会場に入る直前の最終確認に使う
  • 自分専用の暗記ノートやフラッシュカードを作成する際のベースにする

あくまで学習補助ツールとして、理解を深めながら暗記を進める姿勢が欠かせません。

5分野の出題比率と暗記の優先順位

DS検定では5つの分野から幅広く出題されますが、分野ごとに出題比率が異なるため、効率的な暗記には優先順位の設定が大切です。

公式に発表されているスキルチェックリストに基づくと、出題比率の目安は以下の通りです。

分野 出題比率目安 暗記優先度
データサイエンス力(統計・数理) 約30-35% 最優先
機械学習 約25-30% 最優先
データエンジニアリング力 約20-25%
ビジネス力 約10-15%
倫理・法規制 約5-10%

最も出題比率が高いのはデータサイエンス力(統計・確率・数理)と機械学習の2分野で、合わせて全体の約6割を占めます。

この2分野を重点的に暗記することで、効率的に合格ラインに到達できるでしょう。

一方、ビジネス力や倫理分野は出題数は少ないものの、用語の暗記だけで得点しやすい分野のため、試験直前の追い込みで確実に押さえておきましょう。

【データサイエンス力】統計・数理の暗記カンペ

【データサイエンス力】統計・数理の暗記カンペ

データサイエンス力は試験全体の約3割を占める中核分野です。

統計学の基礎から応用まで幅広く出題されるため、公式の正確な暗記と適用場面の理解が合否を分けます。

ここでは、確率・統計の基本公式、検定と推定の頻出ポイント、相関分析と回帰分析の整理事項をまとめます。

確率・統計の必須公式一覧

DS検定で頻出する確率・統計の公式を暗記しておくことで、計算問題や概念問題に素早く対応できます。

【記述統計の基本】

  • 平均(mean):Σx / n(全データの合計をデータ数で割る)
  • 中央値(median):データを昇順に並べた際の中央の値
  • 最頻値(mode):最も出現頻度が高い値
  • 分散(variance):Σ(x – μ)² / n(偏差の2乗の平均)
  • 標準偏差(standard deviation):√分散(データのばらつきを示す)
  • 変動係数(coefficient of variation):標準偏差 / 平均 × 100%(単位の異なるデータの比較)

【確率分布】

  • 正規分布:μ ± 1σ に約68%、μ ± 2σ に約95%、μ ± 3σ に約99.7%のデータが含まれる
  • 標準正規分布:平均0、標準偏差1の正規分布(Z値への変換:Z = (x – μ) / σ)
  • 二項分布:n回の試行でk回成功する確率(成功確率p)
  • ポアソン分布:単位時間あたりの事象発生回数(λが平均かつ分散)

【推定と信頼区間】

  • 母平均の95%信頼区間:標本平均 ± 1.96 × (標準偏差 / √n)
  • 標準誤差(standard error):標準偏差 / √n(標本平均のばらつき)

これらは単なる暗記ではなく、適用場面と結び付けて理解しておくことが欠かせません。

検定・推定の頻出パターンと解釈のコツ

統計的仮説検定は概念理解が問われる頻出テーマです。

試験では検定手法の選択や、p値・有意水準の解釈が繰り返し出題されます。

【仮説検定の基本用語】

  • 帰無仮説(H0):否定したい仮説、効果がないという仮説
  • 対立仮説(H1):証明したい仮説、効果があるという仮説
  • 有意水準(α):通常5%(0.05)に設定、帰無仮説を誤って棄却する確率
  • p値(p-value):帰無仮説が正しいと仮定した場合に観測データが得られる確率
  • 判定ルール:p値 < 有意水準 → 帰無仮説を棄却(有意差あり)

【主要な検定手法の使い分け】

検定手法 用途 前提条件
t検定 2群の平均値の差を検定 正規分布、標本サイズ小
Z検定 2群の平均値の差を検定 正規分布、標本サイズ大
カイ二乗検定 カテゴリデータの独立性検定 質的データ
F検定 2群の分散の差を検定 正規分布
Mann-WhitneyのU検定 2群の分布の差(ノンパラメトリック) 正規分布の仮定不要

【第一種・第二種の過誤】

  • 第一種の過誤(α error):帰無仮説が真なのに棄却してしまう誤り(偽陽性)
  • 第二種の過誤(β error):帰無仮説が偽なのに棄却できない誤り(偽陰性)
  • 検出力(1-β):対立仮説が真のときに正しく帰無仮説を棄却できる確率

試験では「有意水準5%でp値が0.03だった場合の解釈」といった実践的な問題が出題されます。

相関・回帰分析の要点整理

相関分析と回帰分析は混同しやすいテーマですが、試験では両者の違いを正確に理解しているかが問われます。

【相関分析】

  • 相関係数(r):-1 ≤ r ≤ 1の範囲で2変数間の線形関係の強さを示す
  • r = 1:完全な正の相関、r = -1:完全な負の相関、r = 0:無相関
  • 解釈の目安:|r| > 0.7で強い相関、0.4 < |r| < 0.7で中程度の相関
  • 重要:相関関係は因果関係を意味しない(疑似相関に注意)
  • ピアソンの相関係数:量的変数間の線形相関(正規分布前提)
  • スピアマンの順位相関係数:順序データや非線形関係にも対応

【回帰分析】

  • 単回帰分析:y = ax + bの直線モデルで1つの説明変数から目的変数を予測
  • 重回帰分析:y = a₁x₁ + a₂x₂ + … + b で複数の説明変数を使用
  • 決定係数(R²):0 ≤ R² ≤ 1の範囲でモデルの説明力を示す(1に近いほど良い)
  • 最小二乗法:実測値と予測値の残差の二乗和を最小化する係数を求める手法
  • 多重共線性:説明変数同士に強い相関があり推定が不安定になる問題

【混同注意ポイント】

  • 相関分析は「関係の強さ」を調べる、回帰分析は「予測モデル」を作る
  • 相関係数が高くても因果関係があるとは限らない
  • 決定係数R²は相関係数rの2乗(単回帰の場合)

試験では相関と因果の違いを問う問題が頻出するため、具体例とセットで暗記しましょう。

【機械学習】アルゴリズム・評価指標の暗記カンペ

【機械学習】アルゴリズム・評価指標の暗記カンペ

機械学習分野は統計分野と並んで出題割合が高く、全体の約25〜30%を占めます。

アルゴリズムの特徴比較、評価指標の選択基準、過学習への対処法などが頻出テーマとなります。

教師あり学習と教師なし学習の基本概念から、実務に近い評価指標までを整理して覚えておきましょう。

教師あり学習の主要アルゴリズム比較

教師あり学習は正解ラベル付きデータで学習し、予測や分類を行う手法です。

試験では各アルゴリズムの特徴や適用場面を問う問題が繰り返し出題されます。

【分類アルゴリズム】

アルゴリズム 特徴 メリット デメリット
ロジスティック回帰 線形境界で2クラス分類 解釈性が高い、高速 非線形データに弱い
決定木 if-then ルールで分類 直感的、非線形対応 過学習しやすい
ランダムフォレスト 複数の決定木をアンサンブル 高精度、過学習抑制 解釈性が低い
SVM(サポートベクターマシン) マージン最大化で分類 高次元データに強い 大規模データで遅い
k-NN(k近傍法) 近傍k個の多数決で分類 シンプル、学習不要 予測が遅い、次元の呪い
ナイーブベイズ ベイズの定理を利用 高速、少量データOK 特徴量の独立性仮定

【回帰アルゴリズム】

  • 線形回帰:y = ax + b の線形関係を学習(最もシンプル)
  • Ridge回帰:L2正則化で過学習を抑制(係数を小さくする)
  • Lasso回帰:L1正則化で特徴選択も実行(不要な係数を0にする)
  • ElasticNet:RidgeとLassoの組み合わせ

【アンサンブル学習】

  • バギング(Bagging):ブートストラップサンプリングで複数モデルを作成し平均化(例:ランダムフォレスト)
  • ブースティング(Boosting):弱学習器を順次学習させ誤差を修正(例:AdaBoost、XGBoost、LightGBM)
  • スタッキング(Stacking):複数モデルの予測結果を別のモデルで学習

試験では「非線形データに適したアルゴリズムは?」「解釈性を重視する場合は?」といった選択問題が出題されます。

教師なし学習・次元削減の要点

教師なし学習は正解ラベルなしでデータの構造やパターンを発見する手法です。

【クラスタリング】

  • k-means法:k個の重心を設定しデータを最も近い重心のクラスタに割り当て(階層的でない)
  • 階層的クラスタリング:データ間の距離に基づき階層的にグループ化(デンドログラム作成)
  • DBSCAN:密度ベースでクラスタリング(任意形状対応、外れ値検出可能)
  • 混合ガウスモデル(GMM):複数のガウス分布の混合でクラスタ表現

【次元削減】

  • 主成分分析(PCA):データの分散が最大になる軸(主成分)を見つけ次元削減(線形変換)
  • t-SNE:高次元データを2-3次元に可視化(非線形、主に可視化用)
  • 因子分析:観測変数の背後にある潜在因子を抽出
  • 特異値分解(SVD):行列を3つの行列の積に分解(推薦システムなどで利用)

【その他の教師なし学習】

  • 異常検知:正常データから学習し異常を検出(Isolation Forest、One-class SVMなど)
  • アソシエーション分析:頻出パターンやルールを発見(マーケットバスケット分析)

試験では「PCAの目的は?」「k-meansのkの決め方は?」といった基礎概念が問われます。

モデル評価指標の使い分け早見表

機械学習モデルの性能評価には複数の指標があり、問題の性質に応じて適切な指標を選択する必要があります。

試験では各指標の定義と使い分けが頻出します。

【分類問題の評価指標】

指標 定義 使い分けのポイント
正解率(Accuracy) (TP + TN) / 全データ クラスバランスが取れている場合
適合率(Precision) TP / (TP + FP) 誤検知のコストが高い場合(スパム検出など)
再現率(Recall) TP / (TP + FN) 見逃しのコストが高い場合(疾病診断など)
F1スコア 2 × (Precision × Recall) / (Precision + Recall) 適合率と再現率のバランス重視
AUC-ROC ROC曲線下の面積 閾値に依存しない総合評価

【混同行列の用語】

  • TP(True Positive):正例を正例と予測(真陽性)
  • TN(True Negative):負例を負例と予測(真陰性)
  • FP(False Positive):負例を正例と予測(偽陽性)
  • FN(False Negative):正例を負例と予測(偽陰性)

【回帰問題の評価指標】

  • 平均絶対誤差(MAE):|予測値 – 実測値|の平均(外れ値の影響小)
  • 平均二乗誤差(MSE):(予測値 – 実測値)²の平均(外れ値の影響大)
  • 平均二乗平方根誤差(RMSE):√MSE(元の単位で解釈可能)
  • 決定係数(R²):モデルの説明力(1に近いほど良い)

【クラス不均衡データ対策】

  • 正解率は使用しない(多数派クラスだけ予測しても高い値になる)
  • F1スコア、AUC、適合率・再現率を重視
  • オーバーサンプリング(SMOTE)やアンダーサンプリングで対処

試験では「不均衡データでAccuracyが高い場合の問題点は?」といった応用問題が出題されます。

過学習対策と正則化の暗記ポイント

過学習(Overfitting)は機械学習で重要な概念の一つで、試験でも繰り返し出題されます。

【過学習・過少学習の基本】

  • 過学習:訓練データに適合しすぎて未知データへの汎化性能が低下
  • 過少学習(Underfitting):モデルが単純すぎて訓練データすら学習できない
  • バイアス・バリアンストレードオフ:単純すぎるとバイアス大、複雑すぎるとバリアンス大

【過学習の検出方法】

  • 訓練誤差とテスト誤差の乖離が大きい
  • 訓練データの精度は高いが検証データの精度が低い
  • 学習曲線で訓練誤差とテスト誤差の差が開いていく

【過学習対策手法】

手法 内容 効果
正則化(L1/L2) 損失関数に係数のペナルティ項追加 係数を小さくして複雑度抑制
ドロップアウト 学習時にランダムにノードを無効化 ニューラルネットの過学習抑制
Early Stopping 検証誤差が悪化したら学習停止 学習しすぎを防ぐ
データ拡張 訓練データを人工的に増やす データ不足の解消
クロスバリデーション データを分割して複数回評価 汎化性能の正確な推定
アンサンブル学習 複数モデルの予測を統合 単一モデルの過学習軽減

【正則化の詳細】

  • L1正則化(Lasso):係数の絶対値の和をペナルティ化(一部の係数が0になり特徴選択効果)
  • L2正則化(Ridge):係数の二乗和をペナルティ化(全係数を小さくする)
  • 正則化パラメータλ:大きいほど正則化が強い(バイアス増・バリアンス減)

【クロスバリデーション】

  • k-分割交差検証:データをk個に分割し、k-1個で学習、1個で検証を繰り返す
  • Leave-One-Out:データ数nに対してn回の交差検証(計算コスト大)

試験では「過学習を検出する方法は?」「正則化の効果は?」といった問題が頻出します。

【データエンジニアリング力】DB・ETLの暗記カンペ

【データエンジニアリング力】DB・ETLの暗記カンペ

データエンジニアリング力は全体の約20〜25%を占める分野であり、データ基盤の構築や運用に関する知識が問われます。

データベース、SQL、ETL(Extract・Transform・Load)、クラウドインフラといった基本用語を正確に押さえましょう。

データベース・SQLの基礎用語一覧

データベースとSQLの基本用語は、データサイエンティストが実務でデータを扱う際の必須知識です。

【データベースの種類】

  • RDBMS(リレーショナルデータベース):表形式でデータを管理、SQL使用(例:MySQL、PostgreSQL、Oracle)
  • NoSQL:非リレーショナル、柔軟なスキーマ(例:MongoDB、Cassandra、Redis)
  • データウェアハウス(DWH):分析用に最適化された大規模データ格納(例:Amazon Redshift、Google BigQuery)
  • データレイク:生データを様々な形式で保存(構造化・非構造化混在)

【RDBMSの基本概念】

  • テーブル(Table):行と列で構成されるデータの集合
  • レコード(Record):テーブルの1行、1件のデータ
  • カラム(Column):テーブルの列、データの属性
  • 主キー(Primary Key):各レコードを一意に識別する列
  • 外部キー(Foreign Key):他テーブルの主キーを参照する列
  • インデックス(Index):検索速度を向上させるデータ構造
  • 正規化:データの冗長性を排除し整合性を保つ設計手法

【SQLの基本構文】

  • SELECT:データの取得(SELECT 列名 FROM テーブル名 WHERE 条件)
  • INSERT:データの挿入(INSERT INTO テーブル名 VALUES (値))
  • UPDATE:データの更新(UPDATE テーブル名 SET 列名=値 WHERE 条件)
  • DELETE:データの削除(DELETE FROM テーブル名 WHERE 条件)
  • JOIN:複数テーブルの結合(INNER JOIN、LEFT JOIN、RIGHT JOIN)
  • GROUP BY:グループ化して集計(SUM、COUNT、AVGなどと併用)
  • ORDER BY:結果の並べ替え(ASC昇順、DESC降順)

【トランザクション】

  • ACID特性:Atomicity(原子性)、Consistency(一貫性)、Isolation(独立性)、Durability(永続性)
  • コミット(COMMIT):トランザクションの確定
  • ロールバック(ROLLBACK):トランザクションの取り消し

試験では「正規化の目的は?」「INNER JOINとLEFT JOINの違いは?」といった基礎問題が出題されます。

ETL・データ処理の頻出キーワード

ETLはデータ分析プロジェクトの基盤となるデータパイプライン構築の手法です。

【ETLの基本プロセス】

  • Extract(抽出):様々なデータソースからデータを取り出す
  • Transform(変換):データのクレンジング、統合、加工を行う
  • Load(格納):変換後のデータをDWHやデータベースに格納

【データクレンジング】

  • 欠損値処理:削除、平均値補完、中央値補完、予測モデルによる補完
  • 外れ値処理:除外、上限・下限値での置き換え、変換
  • 重複削除:同一レコードの削除
  • データ型変換:文字列→数値、日付型への変換など
  • 正規化・標準化:スケールの統一(Min-Max正規化、Z-score標準化)

【データ統合】

  • マージ(Merge):キーを元に複数データソースを結合
  • 結合(Join):共通キーでテーブルを横方向に結合
  • 連結(Concatenate):データを縦方向に追加
  • マスターデータ管理(MDM):企業全体で一貫したマスターデータを維持

【データパイプライン】

  • バッチ処理:一定期間のデータをまとめて処理(夜間処理など)
  • ストリーム処理(リアルタイム処理):データ発生と同時に処理(Apache Kafka、Apache Flinkなど)
  • データリネージ:データの起源から変換履歴までの追跡
  • オーケストレーション:複数のETLジョブを自動制御(Apache Airflowなど)

【データフォーマット】

  • CSV:カンマ区切りテキスト(シンプルだがデータ型情報なし)
  • JSON:階層構造を持つデータ形式(Web APIで頻用)
  • Parquet:列指向の圧縮フォーマット(ビッグデータ分析に最適)
  • Avro:スキーマ付きバイナリ形式(Hadoopエコシステムで使用)

試験では「ETLの各プロセスの役割は?」「バッチ処理とストリーム処理の違いは?」といった問題が出題されます。

クラウド・インフラの最低限覚える用語

クラウド技術はデータサイエンス実務の基盤として大切ですが、試験では基本用語の理解が中心です。

【クラウドサービスモデル】

  • IaaS(Infrastructure as a Service):インフラをサービス提供(例:AWS EC2、Google Compute Engine)
  • PaaS(Platform as a Service):アプリ実行環境を提供(例:Google App Engine、Heroku)
  • SaaS(Software as a Service):アプリケーションを提供(例:Salesforce、Gmail)

【主要クラウドプラットフォーム】

  • AWS(Amazon Web Services):最大手、S3(ストレージ)、EC2(仮想サーバー)、Redshift(DWH)
  • Google Cloud Platform(GCP):BigQuery(DWH)、Cloud Storage、機械学習サービスが充実
  • Microsoft Azure:企業向け、Azure Machine Learning、Azure Synapse Analytics

【ストレージ・データベース】

  • オブジェクトストレージ:大容量データを安価に保存(AWS S3、Google Cloud Storageなど)
  • ブロックストレージ:仮想サーバー用の高速ストレージ
  • 分散ファイルシステム:複数サーバーにデータ分散(HDFS:Hadoop Distributed File System)

【ビッグデータ処理基盤】

  • Hadoop:分散処理フレームワーク(HDFS + MapReduce)
  • Apache Spark:高速な分散処理エンジン(メモリ上で処理、Hadoopより高速)
  • Hive:Hadoop上でSQLライクにクエリ実行
  • Presto:分散SQLクエリエンジン(インタラクティブ分析向け)

【コンテナ・仮想化】

  • Docker:アプリケーションをコンテナ化して実行環境を統一
  • Kubernetes:コンテナオーケストレーション(大規模なコンテナ管理)
  • 仮想マシン(VM):物理サーバー上に複数の仮想サーバーを構築

試験では「IaaS、PaaS、SaaSの違いは?」「Hadoopの構成要素は?」といった基礎問題が中心です。

【ビジネス力】プロジェクト推進・法規制の暗記カンペ

【ビジネス力】プロジェクト推進・法規制の暗記カンペ

ビジネス力は出題比率が約10〜15%と比較的低い分野ですが、暗記で得点しやすい領域です。

データ活用プロジェクトの進め方や法規制、AI倫理に関する基礎知識が体系的に問われます。

CRISP-DMとデータ活用プロジェクトの流れ

CRISP-DM(Cross-Industry Standard Process for Data Mining)は、データ分析プロジェクトの業界標準プロセスモデルです。

【CRISP-DMの6つのフェーズ】

  1. ビジネス理解(Business Understanding):ビジネス課題の明確化、プロジェクト目標の設定
  2. データ理解(Data Understanding):利用可能なデータの収集、探索的データ分析(EDA)
  3. データ準備(Data Preparation):データクレンジング、統合、特徴量エンジニアリング
  4. モデリング(Modeling):適切なアルゴリズム選択、モデル構築、パラメータ調整
  5. 評価(Evaluation):モデル性能評価、ビジネス目標達成度の確認
  6. 展開(Deployment):本番環境へのデプロイ、モニタリング、運用保守

CRISP-DMは反復的なプロセスであり、評価フェーズで問題が見つかれば前のフェーズに戻ります。

【プロジェクト推進の重要概念】

  • PoC(Proof of Concept):概念実証、小規模で実現可能性を検証
  • MVP(Minimum Viable Product):最小限の機能で価値を提供する製品
  • KPI(Key Performance Indicator):目標達成度を測る重要指標
  • ROI(Return on Investment):投資対効果、(利益 – 投資額)/ 投資額
  • ステークホルダー:プロジェクト関係者(経営層、現場、エンジニアなど)

【データ分析プロジェクトの典型的な課題】

  • ビジネス課題の不明確さ(何を解決したいのか定義されていない)
  • データ品質の問題(欠損、不整合、粒度の違い)
  • ステークホルダーとの認識のズレ(期待値調整の失敗)
  • モデルの説明可能性不足(ブラックボックス化)
  • 運用・保守体制の未整備(デプロイ後の放置)

試験では「CRISP-DMの各フェーズの役割は?」「PoCの目的は?」といった問題が出題されます。

個人情報保護法・GDPRの必須知識

データを扱う上で法規制の理解は必須です。試験では個人情報保護法とGDPRの基本的な内容が出題されます。

【個人情報保護法(日本)】

  • 個人情報:生存する個人を識別できる情報(氏名、生年月日、メールアドレスなど)
  • 個人データ:個人情報データベース等を構成する個人情報
  • 要配慮個人情報:人種、信条、病歴、犯罪歴など差別につながる情報(取得に本人同意必須)
  • 匿名加工情報:特定の個人を識別できないように加工した情報(本人同意なしで利用可能)
  • 仮名加工情報:他の情報と照合しない限り特定個人を識別できない情報

【個人情報保護法の主な義務】

  • 利用目的の特定・通知:個人情報を取得する際に利用目的を明示
  • 安全管理措置:漏洩・滅失防止のための技術的・組織的対策
  • 第三者提供の制限:本人同意なしに第三者へ提供禁止(例外あり)
  • 開示・訂正・利用停止:本人からの請求に応じる義務
  • 漏洩時の報告義務:個人情報保護委員会への報告と本人通知

参考:個人情報保護委員会

【GDPR(EU一般データ保護規則)】

  • 適用範囲:EU域内の個人データ処理、またはEU居住者のデータを扱う場合
  • 個人データ:識別された又は識別可能な自然人に関する情報
  • データ主体の権利:アクセス権、訂正権、削除権(忘れられる権利)、データポータビリティ権
  • 同意の要件:明確で具体的な同意が必要(黙示の同意は不可)
  • 違反時の制裁金:最大で全世界年間売上高の4%または2000万ユーロ

【日本とEUの違い】

  • GDPRの方が規制が厳格(同意取得要件、罰則が重い)
  • GDPRには「忘れられる権利」「データポータビリティ権」がある
  • 日本の個人情報保護法はGDPRの十分性認定を受けている(相互のデータ移転が可能)

試験では「要配慮個人情報の例は?」「GDPRの忘れられる権利とは?」といった問題が出題されます。

AI倫理・データガバナンスの要点

AI活用の拡大に伴い、倫理と管理体制の理解が重要視されています。

【AI倫理の主要原則】

  • 公平性(Fairness):特定の属性(人種、性別など)による差別や偏りを排除
  • 説明可能性(Explainability):AIの判断根拠を人間が理解できる形で説明
  • 透明性(Transparency):AIシステムの仕組みやデータの使われ方を開示
  • プライバシー保護:個人情報の適切な管理と利用
  • 安全性(Safety):AIが人間に危害を加えないよう設計
  • アカウンタビリティ(説明責任):AIの判断に対する責任の所在を明確化

【AI倫理の具体的な問題】

  • アルゴリズムバイアス:訓練データの偏りがモデルに反映され差別的な判断を生む
  • フィルターバブル:推薦アルゴリズムにより特定の情報しか届かず視野が狭まる
  • ディープフェイク:AIによる偽画像・偽動画の生成
  • 自動運転の倫理的ジレンマ:事故回避時の判断基準(トロッコ問題)
  • 雇用への影響:AIによる業務自動化と雇用喪失

【データガバナンス】

  • データガバナンス:データを組織資産として適切に管理する仕組み
  • データスチュワード:データの品質管理や運用ルール策定の責任者
  • データカタログ:組織内のデータ資産を一覧化し検索可能にする仕組み
  • データリネージ:データの起源から変換履歴を追跡
  • データ品質管理:完全性、一貫性、正確性、適時性の確保

【XAI(説明可能なAI)】

  • LIME(Local Interpretable Model-agnostic Explanations):局所的な説明を生成
  • SHAP(SHapley Additive exPlanations):各特徴量の貢献度を定量化
  • Attention機構:モデルがどの部分に注目したか可視化

試験では「AIバイアスの原因は?」「説明可能性が重要な理由は?」といった問題が出題されます。

【混同注意】DS検定で間違えやすい用語の比較カンペ

【混同注意】DS検定で間違えやすい用語の比較カンペ

DS検定では似た用語や概念が多数出題され、混同による失点が多発します。

ここでは特に間違えやすい用語を対比形式で整理し、確実に区別できるようにします。

統計用語の混同ポイント整理

統計分野では似た名称や対になる概念が多く、正確な区別が必要です。

【母集団 vs 標本】

  • 母集団:調査対象全体、真の値(母平均μ、母分散σ²)
  • 標本:母集団から抽出した一部、推定値(標本平均x̄、標本分散s²)
  • ポイント:標本から母集団の性質を推定するのが統計的推測

【分散 vs 標準偏差】

  • 分散:偏差の2乗の平均(単位が元データの2乗)
  • 標準偏差:分散の平方根(元データと同じ単位で解釈しやすい)
  • ポイント:計算には分散、解釈には標準偏差を使う

【相関 vs 因果】

  • 相関:2変数間に統計的な関連性がある(一方が変化すると他方も変化)
  • 因果:一方が原因で他方が結果という関係(因果関係)
  • ポイント:相関があっても因果関係があるとは限らない(疑似相関に注意)

【第一種の過誤 vs 第二種の過誤】

現実 帰無仮説を棄却 帰無仮説を採択
帰無仮説が真 第一種の過誤(α) 正しい判断
帰無仮説が偽 正しい判断 第二種の過誤(β)
  • 覚え方:第一種=「疑いすぎ」(無実の人を有罪に)、第二種=「見逃し」(有罪の人を無罪に)

【点推定 vs 区間推定】

  • 点推定:母数を1つの値で推定(例:標本平均で母平均を推定)
  • 区間推定:母数が含まれる範囲を信頼区間として推定(例:95%信頼区間)
  • ポイント:区間推定の方が推定の不確実性を表現できる

【有意水準 vs p値】

  • 有意水準(α):検定前に設定する基準(通常0.05)
  • p値:検定後に計算される確率(帰無仮説のもとでデータが得られる確率)
  • 判定:p値 < 有意水準 → 帰無仮説を棄却

機械学習用語の混同ポイント整理

機械学習では性能評価指標やモデリング概念で混同しやすい用語が多数あります。

【教師あり学習 vs 教師なし学習 vs 強化学習】

学習タイプ データ 目的
教師あり学習 正解ラベル付き 予測・分類 回帰、分類
教師なし学習 正解ラベルなし 構造発見 クラスタリング、次元削減
強化学習 報酬のみ 行動最適化 ゲームAI、ロボット制御

【適合率(Precision)vs 再現率(Recall)】

  • 適合率:予測が正例のうち実際に正例の割合(TP / (TP + FP))=「予測の正確さ」
  • 再現率:実際の正例のうち正しく予測できた割合(TP / (TP + FN))=「正例の捕捉率」
  • トレードオフ:閾値を下げると再現率↑適合率↓、閾値を上げると再現率↓適合率↑
  • 使い分け:スパム検知→適合率重視、疾病診断→再現率重視

【過学習 vs 過少学習】

  • 過学習:訓練データに適合しすぎて汎化性能が低い(高バリアンス)
  • 過少学習:モデルが単純すぎて訓練データすら学習できない(高バイアス)
  • 対策:過学習→正則化・データ増強、過少学習→モデルの複雑化

【バギング vs ブースティング】

手法 仕組み 特徴 代表例
バギング 並列に複数モデル構築→平均化 分散削減、過学習抑制 ランダムフォレスト
ブースティング 逐次的にモデル構築→誤差修正 バイアス削減、高精度 XGBoost、AdaBoost

【L1正則化 vs L2正則化】

  • L1正則化(Lasso):係数の絶対値の和をペナルティ化→一部の係数が0(特徴選択効果)
  • L2正則化(Ridge):係数の二乗和をペナルティ化→全係数を小さく(滑らかな解)
  • 使い分け:特徴選択したい→L1、全特徴使いたい→L2

【バイアス vs バリアンス】

  • バイアス:モデルの仮定による誤差(単純すぎると高い)
  • バリアンス:訓練データの違いによる予測のばらつき(複雑すぎると高い)
  • トレードオフ:バイアス↓すると バリアンス↑、その逆も成立

略語・英語表記の一覧整理

DS検定では英語の略語が頻出します。正式名称と意味をセットで暗記しましょう。

【機械学習・統計関連】

  • ML(Machine Learning):機械学習
  • DL(Deep Learning):深層学習
  • NN(Neural Network):ニューラルネットワーク
  • CNN(Convolutional Neural Network):畳み込みニューラルネットワーク(画像処理)
  • RNN(Recurrent Neural Network):再帰型ニューラルネットワーク(時系列データ)
  • LSTM(Long Short-Term Memory):長期短期記憶(RNNの改良版)
  • GAN(Generative Adversarial Network):敵対的生成ネットワーク
  • SVM(Support Vector Machine):サポートベクターマシン
  • PCA(Principal Component Analysis):主成分分析
  • t-SNE(t-distributed Stochastic Neighbor Embedding):t分布型確率的近傍埋め込み法

【評価指標関連】

  • MAE(Mean Absolute Error):平均絶対誤差
  • MSE(Mean Squared Error):平均二乗誤差
  • RMSE(Root Mean Squared Error):平均二乗平方根誤差
  • ROC(Receiver Operating Characteristic):受信者操作特性
  • AUC(Area Under the Curve):曲線下面積
  • IoU(Intersection over Union):物体検出の評価指標

【データエンジニアリング関連】

  • ETL(Extract, Transform, Load):抽出・変換・格納
  • EDA(Exploratory Data Analysis):探索的データ分析
  • DWH(Data Warehouse):データウェアハウス
  • OLAP(Online Analytical Processing):オンライン分析処理
  • OLTP(Online Transaction Processing):オンライントランザクション処理
  • HDFS(Hadoop Distributed File System):Hadoop分散ファイルシステム
  • API(Application Programming Interface):アプリケーションプログラミングインターフェース

【ビジネス関連】

  • KPI(Key Performance Indicator):重要業績評価指標
  • ROI(Return on Investment):投資対効果
  • PoC(Proof of Concept):概念実証
  • MVP(Minimum Viable Product):実用最小限の製品
  • CRISP-DM(Cross-Industry Standard Process for Data Mining):データマイニングの標準プロセス

【法規制・倫理関連】

  • GDPR(General Data Protection Regulation):EU一般データ保護規則
  • XAI(Explainable AI):説明可能なAI
  • LIME(Local Interpretable Model-agnostic Explanations):局所的解釈可能モデル
  • SHAP(SHapley Additive exPlanations):シャープレイ値による説明手法

試験では「PCAの正式名称は?」「RMSEの計算式は?」といった問題が出題されます。

DS検定カンペの効果的な使い方と直前の暗記戦略

DS検定カンペの効果的な使い方と直前の暗記戦略

暗記カンペを作成しただけでは合格できません。

効率的な暗記方法と試験直前の学習戦略を理解し、限られた時間で最大の効果を得ましょう。

試験1週間前からの暗記スケジュール例

試験1週間前からは暗記に集中し、新しい範囲の学習は控えることが大切です。

【7日前~5日前:重点分野の集中暗記】

  • データサイエンス力(統計・数理)の公式と概念を徹底暗記
  • 機械学習のアルゴリズム比較表と評価指標を繰り返し確認
  • 1日2-3時間、カンペを見ながら声に出して読む
  • 混同しやすい用語は対比形式でノートにまとめる

【4日前~2日前:全分野の総復習】

  • データエンジニアリング力とビジネス力の用語を一気に暗記
  • 自作の暗記カードやフラッシュカードで反復練習
  • 移動時間や休憩時間もスキマ時間を活用
  • 過去問や模擬問題で実践的な出題形式に慣れる

【1日前:弱点分野の最終チェック】

  • 自分が苦手な分野・混同しやすい用語を重点的に確認
  • カンペ全体を1-2周通して読み、抜け漏れをチェック
  • 夜は早めに就寝し、睡眠をしっかり確保(記憶の定着に重要)

【試験当日の朝:最終確認】

  • 試験会場に入る直前まで暗記カンペを確認
  • 特に混同しやすい用語や苦手分野を最後にチェック
  • 焦らず落ち着いて、自信を持って試験に臨む

参考:DS検定合格体験記

暗記効率を上げる3つのテクニック

ただ読むだけでなく、記憶に定着させるテクニックを活用しましょう。

【1. アクティブリコール(能動的想起)】

  • カンペを見ずに、記憶から用語や公式を思い出す練習
  • 例:「相関係数の範囲は?」→自分で答えを思い出してから確認
  • 受動的な読み直しより記憶定着率が格段に高い
  • フラッシュカードアプリ(Anki、Quizletなど)が効果的

【2. 間隔反復法(Spaced Repetition)】

  • 同じ内容を時間を空けて繰り返し復習する(忘却曲線対策)
  • 1日目→2日後→4日後→7日後のように間隔を広げる
  • 忘れかけたタイミングで復習することで長期記憶に定着
  • デジタルツール(Anki)は自動で最適な復習タイミングを提示

【3. 精緻化(Elaboration)】

  • 用語や概念を自分の言葉で説明したり、具体例と結びつける
  • 例:「過学習」→「訓練データのノイズまで覚えてしまい、新しいデータで失敗する状態。試験勉強で過去問だけ暗記して応用問題が解けないのと似ている」
  • ストーリーや語呂合わせで記憶する(例:L1は「いち(1)ばん特徴選択」)
  • 人に説明することで理解が深まる(ファインマンテクニック)

【その他の効果的なテクニック】

  • マインドマップで関連概念を視覚化
  • 音読や書き写しで複数の感覚を使う
  • 睡眠直前の復習(睡眠中に記憶が整理される)
  • 適度な休憩とリフレッシュ(集中力維持)

このカンペだけで合格できる?追加学習の判断基準

本記事のカンペは頻出用語を網羅していますが、カンペだけで合格できるかは受験者の基礎知識レベルによります

【カンペだけで合格可能なケース】

  • 既にデータサイエンスの実務経験がある
  • 統計学や機械学習の基礎を大学や独学で学んでいる
  • 公式テキストを一通り読み、概念を理解している
  • 過去問や模擬問題で6-7割以上正解できる

このような場合、カンペは最終確認や弱点補強のツールとして非常に有効です。

【追加学習が必要なケース】

  • データサイエンスの学習を始めたばかりの初心者
  • 用語を見ても意味がイメージできない
  • 過去問や模擬問題で正答率が5割未満
  • 統計や機械学習の基礎概念が理解できていない

この場合、カンペと並行して以下の学習をおすすめします。

【推奨される追加学習】

  • 公式参考書「データサイエンティスト検定リテラシーレベル対応 参考書」を通読
  • 統計学や機械学習の入門書で基礎概念を理解(例:「統計学入門」「Pythonではじめる機械学習」)
  • オンライン講座(Udemy、Courseraなど)で体系的に学習
  • 公式の模擬試験や過去問題集で実践練習
  • YouTube動画で視覚的に理解(例:データサイエンス検定対策動画)

【学習の目安時間】

  • 初学者:60-80時間(公式テキスト精読+問題演習+カンペ暗記)
  • 中級者(基礎知識あり):30-40時間(テキスト通読+問題演習+カンペ暗記)
  • 上級者(実務経験あり):10-20時間(問題演習+カンペ最終確認)

参考:データサイエンス検定リテラシーレベル合格に必要な知識

自分のレベルに合わせて、カンペを最大限活用しましょう。

【まとめ】DS検定はカンペで要点を押さえて効率的に合格しよう

まとめ|DS検定はカンペで要点を押さえて効率的に合格しよう

DS検定は持ち込み不可の試験ですが、事前に要点を効率的に暗記することで合格率を大きく高められます。

本記事では5分野(データサイエンス力・機械学習・データエンジニアリング力・ビジネス力・倫理)の頻出用語・公式を暗記リスト形式でまとめました。

【本記事のポイントまとめ】

  • DS検定は持ち込み不可のため、事前暗記が合否を分ける
  • 出題比率が高いデータサイエンス力と機械学習を最優先で暗記
  • 統計公式、機械学習アルゴリズム、評価指標の使い分けを確実に押さえる
  • 混同しやすい用語は対比形式で整理して暗記
  • 試験1週間前からは暗記に集中し、アクティブリコールや間隔反復法を活用
  • 自分のレベルに応じて、カンペと公式テキスト・問題演習を組み合わせる

【合格に向けた最終アドバイス】

DS検定は暗記だけでなく、概念の理解と応用力も問われる試験です。

本カンペを繰り返し確認しながら、「なぜその手法を使うのか」「どのような場面で適用するのか」といった実践的な視点も意識しましょう。

試験直前まで諦めず、カンペを味方につけて自信を持って試験に臨んでください。

あなたの合格を心から応援しています!

コメント

コメントする

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次