この記事でわかること

  • データサイエンティスト検定 リテラシーレベルの試験概要
  • データサイエンティスト検定 リテラシーレベルの試験対策

はじめに

データサイエンティスト、というワードが一般に浸透してきた今日この頃ですが、「データサイエンティストの定義ってなに?」と聞かれると答えに困ることも多々あります。例えば弁護士や公認会計士であれば試験をパスしたというわかりやすい証明方法があるわけですが、データサイエンティストに関してはカバーすべき領域の広さから、まだまだ定義が曖昧な状況です。現状でも統計検定など関連する資格は色々と存在しています。何から始めるべきかは個々人の置かれている環境や興味関心で異なるとは思いますが、データサイエンスを学んでいく一つの手段として、本記事ではデータサイエンティスト検定 リテラシーレベル(DS検定)について解説していきます。

関連資格との比較

データサイエンティスト検定の説明に入る前に自身の経験も踏まえて、同程度の難易度と思われる関連資格との比較をしてみます。

DS検定 統計検定2級 G検定
出題範囲 確率・統計(大学初級程度)、AI関連、エンジニアリング、データビジネス、から広く出題 主に確率・統計(大学1・2年レベル) 主にAI関連、一部確率・統計(統計検定3級程度)
プログラミング問題 SQLについての問題あり なし なし
出題形式 選択式(一部計算問題有) 選択式(計算量多) 選択式
試験方式 会場でのCBT受験 会場でのCBT受験 自宅等でのオンライン受験
合格率 第1回:約50%、第2回:約66% 40%程度 60%~70%程度
上位資格 なし(2023年2月時点) 統計検定凖1級以上 E資格
主催団体 データサイエンティスト協会 統計質保証推進協会 ディープラーニング協会

ポイントとして他の資格は、一定の分野に特化している傾向が強い一方、DS検定はそれぞれの分野から広く浅く出題される傾向があるため、抑えるべき分野が多い点が苦労するかもしれません。

それでは本題に入っていきましょう。

データサイエンティスト検定 リテラシーレベルとは

データサイエンティスト検定 リテラシーレベルは、一般社団法人データサイエンティスト協会が主催する試験です。協会は4つのスキルレベルを設定しており、スタートラインにあたるアシスタントデータサイエンティストの範囲が本試験に該当します。
試験の歴史としてはまだ日が浅く、2021年9月に第1回試験が開催され、これまでに合計3回開催されています。(2023年2月時点)
ちなみにこのブログの筆者は、2022年12月に第3回試験にあたるタイミングで受験しました。

スキルレベル

協会はスキルチェックリストを公開しています。(こちらのURL下部にあるリンクからリストのダウンロードができます)
それぞれのスキル項目に★1~★3まで割り当てられており、本試験の範囲は基本的に★1が該当します。まずは自身がどのスキルがあってどのスキルが足りていないのか一度チェックしてみるのもアリかと思います。

参考 : データサイエンティスト協会 データサイエンティスト協会リテラシーレベル 試験ページ

スキルの分類

スキルは大別すると3つのジャンルに分かれます。

  1. ビジネス力
  2. データサイエンス力
  3. データエンジニア力

データサイエンティスト協会はこれら3つのスキルをベースに、データから価値を創出し、ビジネス課題に答えを出すプロフェッショナルをデータサイエンティストと定義しています。


[参考 : データサイエンティスト協会プレスリリース (2014.12.10) https://www.datascientist.or.jp/wp/news/2014/pdf/1210.pdf]

とはいえ3つのスキルを満遍なく保持している方などめったにいないと思います。受験にあたってはスキルレベルのチェックの際にどの範囲が得意 or 不得意かも同時に把握することが効率的な勉強方法に繋がるはずです。

試験概要

試験概要は以下のようになっています。

項目 内容
試験日程 年2回程度実施, 期間中に受験
試験方式 CBT方式
問題数 90問程度
試験時間 90分
受験料 一般:11,000円, 学生:5500円
合格点 非公開(過去の試験では正答率約80%が合格ラインとされている)
合否通知 受験期間修了約2ヶ月後に発表

詳細は検定に関するこちらのページで確認できますが、いくつかポイントを説明していきます。

試験期間中であれば受験日時を選べる

試験申込後、受験期間が設けられており、好きな日時と会場を選ぶことができます。例えば2022年秋実施回では受験期間は2022年11月15日(火)~2022年12月5日(月)まででした。また、会場は全国のテストセンターから選択可能となっています。

CBT方式

ITパスポートなどの試験を受けた方なら馴染みがあるかもしれませんが、試験はCBT方式となっています。これは会場にあるPCにログインをして試験を受ける方式です。DS検定は全て選択問題が出題されるので自身で解答を記述する必要はありません。

ここまでのまとめ

ここまではデータサイエンティスト検定 リテラシーレベルの概要について説明をしてきました。なんとなくどんな試験かわかっていただけたでしょうか?とはいえ、じゃあ具体的にどうやって勉強していけばいいかが一番気になるところですよね。次の章では具体的な試験対策について説明していきたいと思います。

試験対策

この章ではDS検定の試験の傾向と対策について筆者なりの観点から説明していきます。データサイエンスについて全くの初学者から、ある程度関連知識を保有されている方から様々なレベルの方が読者として想定されるので、できる限り幅広い層に理解してもらえるように記載します。

まず最初に試験対策本の紹介と自身の勉強方法を紹介します。次に3つの観点から解説をします。DS検定は前章で記載した通り、

  1. ビジネス力
  2. データサイエンス力
  3. データエンジニア力

の3つのジャンルから出題されます。従ってそれぞれどういった問題が出題され、どのように対策すべきかを考えていきます。

対策本と利用方法

試験対策の全ての基本となる参考書は2種類存在しています。

  1. 公式リファレンスブック
    DS検定で求められる各スキルごとに説明されている教科書のような本です。1項目につき1~2ページ程度で記載されているのでそれほど詳細な説明はなく、あくまでも試験対策としてはこの程度の知識をつけておけばOKという設定で書かれています。また、書籍の最後には模擬試験問題がついており、さらに書籍のHPには追加の模擬問題や詳細な解説も上がっています。

  2. 問題集
    この本には各ジャンルの予想問題と模擬問題がついています。解説も充実しているので購入して損をすることはないかと思います。

私はこの2冊で試験対策をしました。以下が私の勉強方法です。

  1. 問題集の問題を解く
  2. 間違えた問題をチェックし、解説と公式リファレンスブックの該当項目を読んで復習をする
  3. 問題集を1周したら再度間違えた問題を解き直す
  4. 総仕上げとして公式リファレンスブックの模擬試験と問題集の模擬試験を解く

私はこれまでに統計検定2級、ITパスポート、G検定を取得していたので、1から学ぶよりかは抜け落ちている知識を補うスタンスで勉強をしました。

それでは次に各ジャンルでどういった内容が問われているのかを確認していきましょう。

ビジネス力

この分野ではデータサイエンス関連のビジネススキル、データ分析プロジェクトに関する問題が出題されます。これだけだとイメージがつきにくいと思いますので、データサイエンティスト協会がHPで公表している模擬問題を見てみましょう。

【設問】
Aさんは、再生可能エネルギーを開発・販売する企業でデータサイエンティストとして働くことになりました。はじめてのプロジェクトにおいては、現在、商品化を控えているエネルギーの営業を手助けすると上司から聞いており、いくつかデータも受け取っています。Aさんが行うべきこととして、最もふさわしくないものを選べ。
【選択肢】
1.受け取ったデータを全て結合して機械学習を実行した
2.営業の手助けとしてどのようなものがあるかについて同期の営業にヒアリングした
3.顧客への営業活動から納品されるまでの業務プロセスを確認した
4.競合である企業のIR情報を取得した
(データサイエンティスト協会公表の模擬問題より)

正解は1になります。この問題を見て難しいと感じるか、簡単と感じるかは人それぞれではありますが、個人的には他2つのジャンルに比べると比較的正解しやすい問題が多いように感じます。基本的にはデータサイエンスのビジネスへの利活用に関する常識を問う問題が多いです。仮に合格得点率を80%以上と仮定すると、できればビジネス力の範囲は得点率85%以上を目指したいところです。

関連資格 : ITパスポート、基本情報技術者など

データサイエンス力

この分野では具体的に統計学や機械学習で用いられる手法やデータサイエンスに用いられる数学的な知識を取得できているかが問われます。大きく分けると、

  1. 数理統計
  2. 機械学習

の2種類です。

数理統計では微分・積分、線形代数、確率、記述統計、推測統計などの分野から出題されます。レベルとしては大学1~2年生が教養科目として習うくらいを想像してもらえれば十分です。「微積とか線形代数なんてもう忘れてしまった〜」、「文系だったから習ったことがない」という方はスキルチェックリストの該当部分を確認したり、予想問題を解いて出題範囲を確認することをおすすめします。それほど複雑な問題は出ない印象なので、最低限の計算方法や公式などを覚えておけば問題ないでしょう。

機械学習では基礎的な機械学習手法の確認、時系列分析、非構造データ(自然言語、音声、画像など)に関する問題が出題されます。この分野は個人で得意不得意が分かれるかもしれません。私は音声データや画像処理についての知識があまりなかったのでその部分を重点的に対策しました。ただし、RやPythonなどでどのようなコードで実装するかについては問われません。

ここでも模擬問題の一例を確認してみましょう。

【設問】
あなたは20,000件の債務者データから、住宅ローンを完済できるか分類するモデルの開発を担うことになりました。債務者データには、6つの変数[所得, 年齢, 家族構成, 職種, 当該債務者の過去の金融事故の有無, 完済したかどうかのフラグ]が含まれています。このとき、最初にやるべきこととして、最も適切でないことはどれか?
【選択肢】
1.分類アルゴリズムは複雑なものになると予測して、多層ニューラルネットワークにデータをインプットする
2.データの構造や性質を理解するために、生データを20件眺める
3.データの分布を確認するため、各変数に対してヒストグラムを作成する
4.データを完済できたものと、出来なかったものを分け、それぞれの変数の平均値と分散を比較する
(データサイエンティスト協会公表の模擬問題より)

解答は1です。
データサイエンティストとして活躍していきたい方のみならず、全ての学生、社会人が身につけておくべき基本項目であることは確実なので、ぜひこの機会に一通り抑えておくことをおすすめします。
目標得点率としては最低80%、理想としては85%を目指したいところです。

関連資格:統計検定2~3級、G検定、E資格など

データエンジニア力

この分野では、大きくわけて2つのジャンルから出題されます。

  1. データ収集・蓄積・処理、セキュリティなど
  2. SQL

1については、データエンジニアリングの基礎知識を問う問題となっています。例えば正規化、通信サービス(HTTP, FTPなど)、暗号化などが該当します。

2はSQLのコードについての問題が出題されます。この分野はデータサイエンティスト検定で唯一コードの挙動を理解できているかが問われます。選択問題なのでコードを書ける必要はないですが、コードを読み取れる力は必要です。
SQLについてはただ参考書を読むだけではなかなか理解がしづらいと思いますので、こちらのSQL攻略というサイトなどを用いて実際に自分の手を動かして覚えていくことをおすすめします。わかりにくい正規化についても記載されているのでぜひ一度チェックしてみてください!

模擬問題も確認してみましょう。SQLに関する問題を取り上げてみます。

【設問】
下記に示す表(売上テーブル)に対して下記の抽出条件での出力値はどれか?

SELECT COUNT(*)
FROM 売上テーブル
WHERE 製品='商品B' AND (販売個数>= 20 AND 販売個数<30)AND (営業店='大阪' OR 営業店='名古屋')
販売seq 製品 営業店 販売個数
1 商品A 東京 15
2 商品B 大阪 30
3 商品A 東京 27
4 商品B 東京 24
5 商品C 東京 30
6 商品B 大阪 15
7 商品B 大阪 25
8 商品A 大阪 20
9 商品C 名古屋 40
10 商品C 東京 30
11 商品B 名古屋 19
12 商品B 名古屋 22

【選択肢】

  1. 2
  2. 3
  3. 4
  4. 5
    (データサイエンティスト協会公表の模擬問題より)

解答は1です。この問題では条件に合致するデータの総数を求めているので、商品Bかつ販売個数が20以上30未満かつ営業店が大阪か名古屋のデータを数えます。すると条件に該当するデータは2つ(販売seq7と12)とわかります。

エンジニアリング分野に精通していない私にとってはこの分野に最も試験対策の時間をかけました。反対にデータサイエンスにはあまり詳しくないが日頃からエンジニアとして活躍されている、というような方にとっては既に把握しているトピックも多いかもしれません。私はこの分野は得点率80%を目標として、不足分は他2ジャンルで補うという戦略をたてました。

関連資格:基本情報技術者など

まとめ

本記事ではデータサイエンティスト検定 リテラシーレベルの試験概要と対策について説明をしました。冒頭で述べたようにまだできて日が浅い検定なので今後出題範囲や傾向、合格基準などが変更される可能性もあります。受験を検討されている方は必ず公式HPをチェックされることをおすすめします。

また、今後の展望として、よりアドバンスドな試験が設立されることも予想されます。DS検定リテラシーレベルはスキルレベル★1が試験範囲なのでスキルレベル★2や★3の試験が作られてもおかしくはありません。応用レベルの試験が登場したらぜひチャレンジしてみたいものですね!

この記事が受験者のみなさんのお役に少しでもたてることを願っています。最後までお読みいただきありがとうございました!

ps. 2022年度秋(第3回)の試験結果が2023年2月に発表されました。スコアシートと合格者には合格証とオープンバッジが付与されます。私は以下のようなスコアで合格しました。データエンジニアリングでもう少し正解したかった感はありますが、ほぼ作戦通りにスコアが取れたのではないかな、という印象です。スコア換算方法や合格基準は不明ですが、やはり全体として80%程度の正当率が求められていると思われます。