Pythonデータ分析試験の合格には、膨大な関数や構文を効率的に覚える必要があります。
『どの関数から優先的に覚えればいいの?』『試験直前に見返せるカンペが欲しい』そんな悩みを抱えていませんか。本記事では、試験で頻出する関数・構文を優先度別に整理し、NumPy・pandas・Matplotlib・scikit-learnの必須項目を網羅的にまとめました。
印刷しても、スマホで見ても使える実践的なカンペとして、合格への最短ルートをご案内します。
試験概要と配点比率|Pythonデータ分析試験カンペを使う前に

Python3エンジニア認定データ分析試験は、Pythonを使ったデータ分析の基礎知識を問う資格試験です。
試験に合格するには、まず試験全体の構造を把握し、どの分野に重点を置くべきかを理解することが重要です。
このセクションでは、試験形式・出題範囲・配点比率を明確にし、効率的な学習の土台を作ります。
参考:Python3エンジニア認定データ分析実践試験(公式)
試験形式・合格ライン・出題範囲クイックガイド
試験形式はCBT(Computer Based Testing)方式で、全国のテストセンターで受験可能です。
試験時間は60分、問題数は40問、合格ラインは正答率70%以上です。
出題形式は選択式で、複数の選択肢から正しい答えを選ぶ形式となります。
出題範囲は、翔泳社『Pythonによるあたらしいデータ分析の教科書 第2版』に準拠しており、以下の分野から出題されます。
- データエンジニアの役割
- Pythonと環境
- 数学の基礎
- ライブラリによる分析実践(NumPy、pandas、Matplotlib、scikit-learn)
- 応用分野
受験料は一般価格11,000円(税込)で、学割などの割引制度もあります。
試験結果はその場で確認でき、合格者には後日認定証が発行されます。
参考:Python3エンジニア認定データ分析試験の難易度と効率的な勉強法
出題分野と配点比率一覧【頻出分野がわかる】
試験の配点比率を知ることで、どの分野を優先的に学習すべきかが明確になります。
公式教材の章構成から推定される配点比率は以下のとおりです。
| 出題分野 | 推定配点比率 | 問題数(目安) |
|---|---|---|
| NumPy | 約25% | 10問前後 |
| pandas | 約30% | 12問前後 |
| Matplotlib | 約15% | 6問前後 |
| scikit-learn | 約20% | 8問前後 |
| 数学・統計基礎 | 約10% | 4問前後 |
pandasとNumPyで全体の55%を占めるため、この2つのライブラリを重点的に学習することが合格への近道です。
また、scikit-learnは機械学習の基本フローを問う問題が多く、前処理・モデル学習・評価の流れを理解することが重要です。
Matplotlibは基本的なグラフ作成と装飾メソッドを押さえておけば十分です。
数学・統計基礎は、平均・分散・標準偏差・相関係数などの基本統計量の計算方法を理解しておきましょう。
このカンペの効果的な活用法(印刷・スマホ対応)
本カンペは、試験直前の最終確認ツールとして設計されています。
印刷して使う場合は、優先度Aの項目に蛍光ペンでマーキングし、自分が苦手な部分に付箋を貼って重点的に復習しましょう。
A4用紙に印刷すると、全体で10ページ程度にまとまり、試験会場への持ち込み用としても最適です。
スマホで使う場合は、通勤・通学時間や休憩時間にブックマークして繰り返し確認することをおすすめします。
特に、axis引数の方向やloc/ilocの違いなど、混乱しやすい項目は何度も見返して確実に記憶に定着させましょう。
試験前日には、優先度Aの項目だけを集中的に復習し、当日の朝にも目を通すことで記憶の定着率が高まります。
参考:Python 3 エンジニア認定データ分析試験 チートシート
暗記優先度ランク表|分野別に覚えるべき項目を整理

限られた学習時間で最大の効果を得るには、暗記すべき項目に優先順位をつけることが不可欠です。
このセクションでは、試験での出題頻度と重要度に基づいて、各項目をA・B・Cの3段階にランク分けしました。
優先度Aは絶対に覚えるべき項目、Bは余裕があれば押さえたい項目、Cは時間があれば確認する項目です。
優先度A・B・Cの判断基準
優先度の判断基準は、過去の受験者の体験談と模擬試験の出題傾向から導き出しました。
優先度A(最重要・頻出)は、ほぼ毎回出題される項目で、これを落とすと合格が難しくなります。
具体的には、pandasのloc/iloc、欠損値処理、groupby、NumPyのaxis引数、Matplotlibの基本プロット、scikit-learnのtrain_test_splitなどです。
優先度B(重要)は、出題頻度は高いものの、Aほど決定的ではない項目です。
例えば、pandasのmerge、NumPyのブールインデックス、Matplotlibのサブプロット、scikit-learnの評価指標などが該当します。
優先度C(補足)は、出題頻度が低いか、他の項目を理解していれば推測可能な項目です。
時間に余裕がある場合にのみ確認すればよい項目で、数学の高度な公式や、ライブラリの細かいオプション引数などが含まれます。
参考:Python 3 エンジニア認定データ分析試験に合格したので対策をまとめてみた
ライブラリ別・暗記必須度マップ
各ライブラリごとに、暗記必須度を一覧表にまとめました。
NumPy
- 優先度A:array, zeros, ones, arange, reshape, axis引数, sum/mean/std, ブールインデックス
- 優先度B:linspace, flatten, 転置(.T), max/min/argmax/argmin
- 優先度C:eye, random, where, clip
pandas
- 優先度A:read_csv, loc/iloc, head/info/describe, isnull/dropna/fillna, groupby, agg
- 優先度B:merge, concat, pivot_table, sort_values, drop, reset_index
- 優先度C:apply, map, query, melt, to_datetime
Matplotlib
- 優先度A:plot, bar, scatter, hist, title/xlabel/ylabel, legend
- 優先度B:subplots, grid, xlim/ylim, savefig
- 優先度C:pie, boxplot, style, colormap
scikit-learn
- 優先度A:train_test_split, fit/predict, StandardScaler, accuracy_score
- 優先度B:cross_val_score, precision/recall, MSE/R², MinMaxScaler
- 優先度C:GridSearchCV, confusion_matrix, classification_report
この優先度マップを参考に、学習時間を効率的に配分しましょう。
NumPyカンペ|配列操作・計算の必須構文まとめ

NumPyは数値計算の基盤となるライブラリで、試験では約25%の配点を占めます。
配列の生成・形状操作・インデックス・集計関数の使い方を確実に理解しておくことが重要です。
このセクションでは、試験で頻出するNumPyの構文を優先度別に整理しました。
配列生成(array, zeros, ones, arange, linspace)
NumPy配列の生成方法は、試験で必ず問われます。
np.array([1, 2, 3]):リストやタプルからNumPy配列を生成します。最も基本的な方法です。
np.zeros((3, 4)):指定した形状の全要素が0の配列を生成します。引数はタプルで形状を指定。
np.ones((2, 3)):全要素が1の配列を生成します。初期化によく使われます。
np.arange(0, 10, 2):Pythonのrange関数と同様に、開始・終了・ステップを指定して等差数列の配列を生成します。結果は[0, 2, 4, 6, 8]。
np.linspace(0, 1, 5):開始値と終了値の間を指定した個数で等分割した配列を生成します。結果は[0, 0.25, 0.5, 0.75, 1]。
arangeとlinspaceの違いは、arangeはステップ幅を指定、linspaceは要素数を指定する点です。
試験では、『要素数5で0から1までの配列を作る』といった問題が出るため、両者の使い分けを正確に理解しましょう。
形状操作(reshape, flatten, 転置)
配列の形状を変更する操作は、データの前処理で頻繁に使用されます。
reshape(新しい形状):配列の形状を変更します。例:arr.reshape(2, 3)で1次元配列を2行3列の2次元配列に変換。
注意点として、reshape後の総要素数は元の配列と同じでなければエラーになります。
flatten():多次元配列を1次元配列に変換します。例:arr.flatten()で[[1,2],[3,4]]を[1,2,3,4]に変換。
転置(.T):行と列を入れ替えます。例:arr.Tで2行3列の配列を3行2列に変換。
試験では、『reshape(-1, 1)の意味は?』といった問題が出題されます。-1は自動計算を意味し、reshape(-1, 1)は列数1の2次元配列に変換します。
参考:Python 3 エンジニア認定データ分析試験 チートシート
インデックスとスライス(ブールインデックス含む)
配列から特定の要素を取り出す方法は、データ分析の基本操作です。
基本インデックス:arr[0]で最初の要素、arr[1, 2]で2行3列目の要素を取得。Pythonと同じく0から始まるインデックス。
スライス:arr[1:3]で1番目から2番目まで、arr[:, 0]で全行の0列目を取得。
ブールインデックス:条件式を使って要素を抽出します。例:arr[arr > 5]で5より大きい要素のみを取得。
ブールインデックスは試験で頻出で、『arr[arr % 2 == 0]の結果は?』といった問題がよく出ます。
この例では、偶数の要素のみを抽出します。条件式の結果がTrueの要素だけが返されることを理解しましょう。
集計・統計関数とaxis引数の方向【図解】
NumPyの集計関数は、axis引数の理解が最重要ポイントです。
主要な集計関数:sum(合計)、mean(平均)、std(標準偏差)、max/min(最大/最小)、argmax/argmin(最大/最小のインデックス)
axis引数の方向は多くの受験者が混乱するポイントです。
axis=0は列方向(行をまたいで集計)、axis=1は行方向(列をまたいで集計)です。
具体例:[[1,2,3],[4,5,6]]という2行3列の配列で、arr.sum(axis=0)は[5,7,9](各列の合計)、arr.sum(axis=1)は[6,15](各行の合計)。
覚え方として、axis=0は『上下方向に潰す』、axis=1は『左右方向に潰す』とイメージすると理解しやすいです。
試験では、『arr.mean(axis=0)の結果の形状は?』といった問題が頻出します。axis引数を指定すると、その軸が消えることを覚えておきましょう。
pandasカンペ|DataFrame操作の頻出パターン網羅

pandasは試験で最も配点が高く(約30%)、実務でも最頻出のライブラリです。
DataFrameの基本操作、欠損値処理、グループ化、データ結合を確実にマスターすることが合格の鍵です。
このセクションでは、試験で問われる頻出パターンを網羅的に解説します。
データ読み込み・書き出し(read_csv, to_csv)
CSVファイルの入出力は、データ分析の最初のステップです。
pd.read_csv(‘file.csv’):CSVファイルを読み込んでDataFrameを作成します。
主要な引数:
- header=0(デフォルト):1行目を列名として使用
- index_col=0:最初の列をインデックスとして使用
- encoding=’utf-8’:文字エンコーディングを指定
- sep=’,’(デフォルト):区切り文字を指定
df.to_csv(‘output.csv’):DataFrameをCSVファイルとして保存します。
主要な引数:
- index=True(デフォルト):インデックスも書き出す。False にすると除外
- header=True(デフォルト):列名を書き出す
- encoding=’utf-8’:文字エンコーディングを指定
試験では、『index=Falseの意味は?』や『headerの役割は?』といった引数の意味を問う問題が出ます。
データ確認メソッド(head, info, describe, shape)
データの概要を把握するための基本メソッドは必須の知識です。
df.head(n):最初のn行を表示します。デフォルトはn=5。データの中身を素早く確認する際に使用。
df.info():列名、データ型、非欠損値の個数、メモリ使用量を表示します。欠損値の有無を確認するのに便利。
df.describe():数値列の基本統計量(count、mean、std、min、25%、50%、75%、max)を一覧表示します。
df.shape:(行数, 列数)のタプルを返します。例:(100, 5)なら100行5列。
試験では、『describe()で表示されない統計量は?』(中央値は50%として表示される、モードは表示されない)といった細かい知識も問われます。
列・行の選択(loc vs ilocの違い)【頻出】
locとilocの違いは、試験で最も頻出するトピックの一つです。
df.loc[行ラベル, 列ラベル]:ラベル名で行・列を選択します。例:df.loc[0, ‘name’]でインデックス0の’name’列を取得。
df.iloc[行番号, 列番号]:整数位置で行・列を選択します。例:df.iloc[0, 1]で最初の行の2列目を取得。
locはラベルベース、ilocは位置ベースという違いを明確に理解しましょう。
スライスの違いも重要:
- loc[0:3]:0から3までを含む(0, 1, 2, 3の4つ)
- iloc[0:3]:0から2まで(0, 1, 2の3つ、Pythonのリストと同じ)
試験では、『df.loc[:, ‘A’:’C’]の結果は?』といった問題で、locのスライスは終端を含むことを理解しているか確認されます。
参考:【資格】Pythonデータ分析試験で9割取って合格できた話
欠損値処理(isnull, dropna, fillna)
欠損値処理は実務でも頻繁に行う重要な操作です。
df.isnull():各要素が欠損値(NaN)かどうかをTrue/Falseで返します。df.isnull().sum()で各列の欠損値数を確認できます。
df.dropna():欠損値を含む行または列を削除します。
主要な引数:
- axis=0(デフォルト):欠損値を含む行を削除
- axis=1:欠損値を含む列を削除
- how=’any’(デフォルト):1つでも欠損値があれば削除
- how=’all’:全てが欠損値の場合のみ削除
df.fillna(value):欠損値を指定した値で補完します。
補完方法の例:
- df.fillna(0):0で補完
- df.fillna(df.mean()):各列の平均値で補完
- df.fillna(method=’ffill’):前の値で補完(forward fill)
- df.fillna(method=’bfill’):後ろの値で補完(backward fill)
試験では、『dropna(how=’all’)の動作は?』や『fillna(method=’ffill’)の結果は?』といった具体的な動作を問う問題が出ます。
グループ化と集計(groupby, agg, pivot_table)
グループ化による集計は、データ分析の中核的な操作です。
df.groupby(‘列名’):指定した列でグループ化します。単独では結果を返さず、集計関数と組み合わせて使用。
使用例:
- df.groupby(‘category’).sum():カテゴリごとの合計
- df.groupby(‘category’)[‘price’].mean():カテゴリごとの価格平均
- df.groupby([‘category’, ‘region’]).size():複数列でグループ化して件数集計
df.groupby().agg():複数の集計関数を同時に適用します。
例:df.groupby(‘category’).agg({‘price’: [‘mean’, ‘max’], ‘quantity’: ‘sum’})で、価格は平均と最大値、数量は合計を計算。
pd.pivot_table():クロス集計表を作成します。Excelのピボットテーブルに相当。
例:pd.pivot_table(df, values=’sales’, index=’region’, columns=’category’, aggfunc=’sum’)で、地域×カテゴリの売上合計表を作成。
試験では、『groupby().size()とcount()の違いは?』(sizeは欠損値も含む、countは除外)といった細かい違いも問われます。
データ結合(merge, concat)とhow引数
複数のDataFrameを結合する操作は、実務で頻繁に使用されます。
pd.merge(df1, df2, on=’key’):共通の列をキーとして2つのDataFrameを結合します。SQLのJOINに相当。
how引数(結合方法)は試験の頻出ポイント:
- how=’inner’(デフォルト):両方に存在するキーのみ残す(内部結合)
- how=’outer’:全てのキーを残し、存在しない部分はNaN(外部結合)
- how=’left’:左側のDataFrameのキーを全て残す(左外部結合)
- how=’right’:右側のDataFrameのキーを全て残す(右外部結合)
pd.concat([df1, df2]):DataFrameを縦または横に連結します。
主要な引数:
- axis=0(デフォルト):縦方向に連結(行を追加)
- axis=1:横方向に連結(列を追加)
- ignore_index=True:インデックスを振り直す
試験では、『merge()とconcat()の使い分けは?』(mergeはキーで結合、concatは単純連結)といった概念的な理解を問う問題が出ます。
Matplotlibカンペ|グラフ作成の基本構文

Matplotlibは約15%の配点で、基本的なグラフ作成と装飾メソッドを押さえれば十分です。
試験では、各グラフの作成方法と、タイトル・ラベル・凡例などの装飾方法が問われます。
基本プロット(plot, bar, scatter, hist)
代表的な4つのグラフ作成メソッドは必須の知識です。
plt.plot(x, y):折れ線グラフを作成します。時系列データの推移を表現するのに適しています。
主要な引数:color(色)、linestyle(線種)、marker(マーカー)、label(凡例用ラベル)
plt.bar(x, height):棒グラフを作成します。カテゴリごとの値を比較するのに適しています。
plt.scatter(x, y):散布図を作成します。2変数間の相関関係を可視化するのに適しています。
主要な引数:s(点のサイズ)、c(色)、alpha(透明度)
plt.hist(data, bins):ヒストグラム(度数分布図)を作成します。データの分布を確認するのに適しています。
bins引数は階級数を指定します。例:bins=10で10個の階級に分割。
試験では、『散布図を作成するメソッドは?』や『ヒストグラムのbins引数の意味は?』といった基本的な知識が問われます。
グラフ装飾(title, label, legend, grid)
グラフに情報を追加する装飾メソッドも頻出です。
plt.title(‘タイトル’):グラフにタイトルを追加します。
plt.xlabel(‘横軸ラベル’)とplt.ylabel(‘縦軸ラベル’):各軸にラベルを追加します。
plt.legend():凡例を表示します。plot()などでlabel引数を指定した場合に有効。
主要な引数:loc(位置指定、’upper right’など)、fontsize(フォントサイズ)
plt.grid(True):グリッド線を表示します。グラフの値を読み取りやすくします。
その他の装飾:
- plt.xlim(xmin, xmax):横軸の範囲を指定
- plt.ylim(ymin, ymax):縦軸の範囲を指定
- plt.savefig(‘file.png’):グラフを画像ファイルとして保存
試験では、『凡例を表示するメソッドは?』や『軸の範囲を設定するメソッドは?』といった装飾メソッドの名前と役割が問われます。
サブプロット(subplots)の使い方
複数のグラフを一つの図にまとめるサブプロット機能も押さえておきましょう。
fig, axes = plt.subplots(nrows, ncols):複数のグラフ領域を作成します。
例:fig, axes = plt.subplots(2, 2)で2行2列の4つのグラフ領域を作成。
各サブプロットへの描画:axes[0, 0].plot(x, y)のように、axesオブジェクトに対してプロットメソッドを呼び出します。
主要な引数:
- figsize=(width, height):図全体のサイズを指定
- sharex=True:全サブプロットで横軸を共有
- sharey=True:全サブプロットで縦軸を共有
試験では、『subplots(2, 3)で作成されるグラフの配置は?』といった基本的な理解が問われます。
scikit-learnカンペ|機械学習の定型処理フロー

scikit-learnは約20%の配点で、機械学習の基本フロー(データ分割・前処理・学習・評価)を理解することが重要です。
試験では、各メソッドの役割と引数の意味、評価指標の解釈が問われます。
データ分割(train_test_split)と引数の意味
機械学習の最初のステップは、データを訓練用とテスト用に分割することです。
train_test_split(X, y, test_size=0.2, random_state=42):データを訓練セットとテストセットに分割します。
主要な引数:
- test_size:テストセットの割合(0.2なら20%)
- random_state:乱数シードを固定して結果を再現可能にする
- stratify:分類問題で目的変数の比率を保つ(stratify=yで指定)
返り値:X_train, X_test, y_train, y_testの4つのデータセット。
試験では、『test_size=0.3の意味は?』(テストセットが30%、訓練セットが70%)や『random_stateの役割は?』(再現性の確保)といった引数の理解が問われます。
前処理(StandardScaler, MinMaxScaler)とfit_transform vs transformの違い
データの正規化・標準化は、多くの機械学習アルゴリズムで必要な前処理です。
StandardScaler:平均0、標準偏差1に標準化します(Zスコア正規化)。
変換式:(x – 平均) / 標準偏差
MinMaxScaler:最小値0、最大値1の範囲にスケーリングします。
変換式:(x – 最小値) / (最大値 – 最小値)
fit_transform()とtransform()の違いは試験で最も重要なポイントです。
fit_transform(X_train):訓練データから統計量(平均、標準偏差など)を計算し、その統計量で訓練データを変換します。
transform(X_test):訓練データで計算した統計量を使って、テストデータを変換します。
重要:テストデータにはtransform()のみを使い、fit_transform()は使わない。これはデータリーケージを防ぐためです。
試験では、『テストデータの前処理に使うべきメソッドは?』という問題が頻出で、正解はtransform()です。
モデル学習・予測の基本フロー(fit, predict)
機械学習モデルの学習と予測の基本フローは必須の知識です。
model.fit(X_train, y_train):訓練データを使ってモデルを学習します。
X_trainは説明変数(特徴量)、y_trainは目的変数(ラベル)です。
model.predict(X_test):学習したモデルを使ってテストデータの予測を行います。
返り値は予測値の配列(分類問題ではクラスラベル、回帰問題では数値)。
基本的な学習フロー
- データ分割(train_test_split)
- 前処理(StandardScalerなど)
- モデル学習(fit)
- 予測(predict)
- 評価(accuracy_scoreなど)
試験では、『fit()メソッドの引数は?』(X_trainとy_train)や『predict()の返り値は?』(予測値の配列)といった基本的な理解が問われます。
評価指標(accuracy, precision, recall, MSE, R²)
モデルの性能を評価する指標は、分類問題と回帰問題で異なります。
分類問題の評価指標
accuracy(正解率):全体のうち正しく予測した割合。式:(TP + TN) / 全データ数
precision(適合率):陽性と予測したうち実際に陽性だった割合。式:TP / (TP + FP)
recall(再現率):実際の陽性のうち正しく予測できた割合。式:TP / (TP + FN)
TP(True Positive):正しく陽性と予測、FP(False Positive):誤って陽性と予測、FN(False Negative):誤って陰性と予測
回帰問題の評価指標
MSE(Mean Squared Error、平均二乗誤差):予測値と実測値の差の二乗の平均。値が小さいほど良い。
R²(決定係数):モデルの説明力を示す指標。0から1の値で、1に近いほど良い。
試験では、『precisionとrecallの違いは?』や『R²が1に近い場合の意味は?』(モデルの説明力が高い)といった指標の解釈が問われます。
交差検証(cross_val_score)
交差検証は、モデルの性能をより正確に評価する手法です。
cross_val_score(model, X, y, cv=5):k分割交差検証を実行し、各分割での評価スコアを返します。
主要な引数
- cv:分割数(デフォルトは5、5分割交差検証)
- scoring:評価指標(’accuracy’、’precision’、’r2’など)
k分割交差検証の仕組み:データをk個に分割し、そのうち1つをテストセット、残りを訓練セットとして評価を繰り返します。
返り値は各分割でのスコアの配列で、平均値を取ることで全体の性能を評価します。
試験では、『cv=5の意味は?』(5分割交差検証)や『交差検証の目的は?』(過学習の検出、汎化性能の評価)といった概念的な理解が問われます。
数学・統計基礎カンペ|計算問題で問われる公式

試験では約10%の配点で、基本的な統計量の計算と正規分布の性質が問われます。
公式を暗記するだけでなく、各統計量の意味を理解することが重要です。
基本統計量(平均・分散・標準偏差・相関係数)
平均(mean):データの中心的な値。式:Σx / n(全データの合計をデータ数で割る)
分散(variance):データのばらつきの大きさ。式:Σ(x – 平均)² / n
標本分散の場合は分母がn-1になります(不偏推定量)。
標準偏差(standard deviation):分散の平方根。元のデータと同じ単位で表現される。式:√分散
相関係数(correlation coefficient):2変数間の線形関係の強さ。式:共分散 / (xの標準偏差 × yの標準偏差)
値の範囲は-1から1で、1に近いほど正の相関、-1に近いほど負の相関、0に近いほど無相関です。
試験では、『標準偏差と分散の関係は?』(標準偏差は分散の平方根)や『相関係数0.8の意味は?』(強い正の相関)といった問題が出ます。
正規分布と68-95-99.7ルール
正規分布は統計学の基礎となる重要な概念です。
68-95-99.7ルール(経験則)は、正規分布において以下の割合でデータが存在することを示します。
- 平均±1標準偏差の範囲:約68%のデータ
- 平均±2標準偏差の範囲:約95%のデータ
- 平均±3標準偏差の範囲:約99.7%のデータ
具体例:平均50点、標準偏差10点のテストで、34点から66点の範囲に約68%の受験者が含まれます。
標準正規分布:平均0、標準偏差1の正規分布。どんな正規分布もZスコア変換で標準正規分布に変換できます。
Zスコア:(x – 平均) / 標準偏差
試験では、『平均100、標準偏差15の正規分布で、85以上115以下の範囲に含まれるデータの割合は?』(約68%)といった応用問題が出ます。
Pythonデータ分析試験の直前チェックリスト

試験直前には、頻出ポイントを集中的に復習することが効果的です。
このセクションでは、絶対に確認すべき10のポイントと、試験当日の注意事項をまとめました。
絶対に確認すべき頻出ポイント10選
試験前日と当日の朝に必ず確認したい最重要ポイントを厳選しました。
- NumPyのaxis引数の方向:axis=0は列方向(行をまたぐ)、axis=1は行方向(列をまたぐ)
- pandasのloc vs iloc:locはラベルベース(スライス終端を含む)、ilocは位置ベース(終端を含まない)
- 欠損値処理の3メソッド:isnull()で検出、dropna()で削除、fillna()で補完
- groupby()の使い方:単独では動作せず、sum()やmean()などの集計関数と組み合わせる
- merge()のhow引数:inner(両方に存在)、outer(全て)、left(左側全て)、right(右側全て)
- train_test_splitの引数:test_sizeでテスト割合、random_stateで再現性確保
- fit_transform vs transform:訓練データにはfit_transform、テストデータにはtransformのみ
- precisionとrecall:precision=TP/(TP+FP)、recall=TP/(TP+FN)
- 68-95-99.7ルール:正規分布で±1σに68%、±2σに95%、±3σに99.7%
- Matplotlibの基本4グラフ:plot(折れ線)、bar(棒)、scatter(散布図)、hist(ヒストグラム)
これらのポイントを完璧に理解していれば、試験の6割以上の問題に対応できます。
参考:【ド文系の私が】Python3エンジニア認定データ分析試験に1発合格した話
試験当日の注意事項と持ち物
試験当日は、以下の点に注意してください。
必須の持ち物
- 本人確認書類(運転免許証、パスポート、学生証など、写真付き身分証明書)
- 受験票(予約完了メールまたは予約番号)
- 筆記用具(メモ用、会場によっては提供される場合もあり)
試験時間配分:60分で40問なので、1問あたり1.5分が目安です。わからない問題は後回しにして、確実に解ける問題から進めましょう。
試験中のポイント
- 選択肢は慎重に読む(『〜でない』という否定形に注意)
- コードの実行結果を問う問題は、頭の中で順を追って実行する
- 見直し時間を10分程度確保する
禁止事項:試験中の参考書・ノート・スマホの使用は禁止です。試験会場にカンペを持ち込むことはできますが、試験開始後は参照できません。
試験終了後、その場で合否が表示されます。合格した場合は後日認定証が発行されます。
カンペと併用したい学習リソース

本カンペで重要ポイントを押さえた上で、さらに実践的な学習を進めるためのリソースを紹介します。
模擬試験で実力を確認し、公式教材で体系的な理解を深めることが合格への確実な道です。
無料模擬試験サイト(PRIME STUDY・DIVE INTO EXAM)
模擬試験は実力確認と弱点発見に最適なツールです。
PRIME STUDYは、Python3エンジニア認定データ分析試験の公式認定模擬試験を提供しています。
3回分の模擬試験が無料で受験でき、解説動画も提供されているため、理解を深めるのに最適です。
各問題には詳細な解説があり、なぜその選択肢が正解なのか、他の選択肢が誤りなのかを理解できます。
参考:Python3 エンジニア認定データ分析試験の模擬問題の解説(YouTube)
DIVE INTO EXAMも、Python試験対策に特化した模擬試験サービスです。
実際の試験に近い形式で、時間制限付きの模擬試験を受験できます。
模擬試験の活用法
- 初回は時間を気にせず全問解いて実力を確認
- 間違えた問題は解説を読み、該当する公式教材の章を復習
- 2回目は時間制限を設けて本番を想定
- 各回3周は解いて9割近く取れるようになるまで繰り返す
参考:Python3エンジニア認定データ分析試験とは?勉強方法や難易度
公式教材の効果的な使い方
試験の公式教材は、翔泳社『Pythonによるあたらしいデータ分析の教科書 第2版』です。
試験問題は全てこの教科書から出題されるため、合格には必読の書です。
効果的な読み方:
- 最初は通読して全体像を把握(1週間程度)
- 各章の例題とサンプルコードを実際に動かして理解
- 模擬試験で間違えた分野を重点的に再読
- 試験直前に重要ポイントだけを再確認
特に重点的に読むべき章:
- 第3章:NumPy(配列操作、axis引数)
- 第4章:pandas(DataFrame操作、loc/iloc、欠損値処理、groupby)
- 第5章:Matplotlib(基本グラフ作成)
- 第6章:scikit-learn(前処理、モデル学習、評価指標)
サンプルコードを実際に動かすことで、理論だけでなく実践的な理解が深まります。
多くの合格者が『公式教材を2周読み、模擬試験を3回繰り返す』という学習法で合格しています。


コメント