データサイエンティストを志したけど、実際にどんな仕事なのかわからない!と困っている方も多いでしょう。
実は、データサイエンティストは役割分担が多い職業です。
なぜなら、データサイエンス業はやることが膨大で1人ですべてを行うことは不可能だからです。
私は数年間データサイエンティストとして働いています。
データサイエンス業は奥が深く、実際の業務の中でも様々な役割の人材がそれぞれの得意領域で価値をだしています。
この記事ではデータサイエンス業務の進め方を解説します。
この記事を読むと、データサイエンス業務の全体感を理解することができ、データサイエンティストを目指す方が具体的な仕事内容を理解できるようになります。
下記、本記事のまとめです。
- データサイエンティストの役割はどのようになっている?
→「ビジネス型」「サイエンス型」「エンジニアリング型」の3つ! - データサイエンティストの業務はどのように進める?
→役割と同様に「ビジネスレイヤー」「分析レイヤー」「インフラレイヤー」の3つ! - 「ビジネス型」はどのようなことをする?
→課題解決を推進するプロフェッショナル! - 「サイエンス型」はどのようなことをする?
→“的確な分析”・”効率的な分析”を実施する分析のプロフェッショナル! - 「エンジニアリング型」はどのようなことをする?
→最適なデータ管理を行うシステム構築のプロフェッショナル!
では、本題に移ります。
- データサイエンティストの役割は3つのタイプに大別
- データサイエンスの業務も3つのレイヤーに大別
- 「背景理解」:ビジネス背景・前提知識を理解する
- 「課題設定」:ビジネス課題を明確化して解決すべき課題を設定する
- 「要件定義」:解くべき課題に対して明らかにすべき問いを定義する
- 「分析設計」:問いを明らかにするために必要な分析アプローチを設計する
- 「データ加工」:分析設計に基づいて必要なデータを加工する
- 「インフラ・データ基盤構築」:データ管理するための基盤を構築する
- 「データ管理」:データの信頼性を担保するためにデータを適切に管理する
- 「分析示唆抽出」:データから得られた事実・示唆を抽出する
- 「Action検討」:得られた示唆を基にどのようなActionを実施していくか検討する
- 「Action実行・改善」:得られた示唆を基に課題解決に向けたActionを実行・改善する
- 「改善効果検証」:事象に対してどれほどの改善効果があったか検証する
- 「ビジネス型」はビジネスの課題解決を推進するプロフェッショナル
- 「サイエンス型」は分析プロフェッショナルとして活躍
- 「エンジニアリング型」はデータ管理のプロフェッショナルとして活躍
- 【まとめ】データサイエンス業務は役割分担が必須!
データサイエンティストの役割は3つのタイプに大別

データサイエンティストの役割は3つのタイプに大別されます。
下記はデータサイエンティスト協会が実施した役割別の今後のニーズを調査した結果です。
各企業で必要となるデータサイエンティストの役割は異なり、どのタイプのデータサイエンティストも一定数のニーズがあることがわかります。

- タイプ①「ビジネス型」:ビジネス課題を抽出し、データを分析・活用して課題を解決できる人材
- タイプ➁「サイエンス型」:統計学、人工知能などの情報科学系の知識を理解し、統計ソフトなどを用いた専門的な分析ができる人材
- タイプ➂「エンジニアリング型」:データ分析を目的とし、プログラミング知識を使ってデータの収集、加工やシステムへの実装、運用ができる人材
また、データサイエンティストに必要とされるスキルもデータサイエンティスト協会が定義しています。
データサイエンティストに求められるスキルは「ビジネス力」「データサイエンス力」「データエンジニアリング力」の3つです。

本記事でも「ビジネス力」「データサイエンス」「データエンジニアリング」の3つの軸でデータサイエンスの業務の進め方を解説していきます。
データサイエンスの業務も3つのレイヤーに大別

データサイエンスの業務も「ビジネスレイヤー」「分析レイヤー」「インフラレイヤー」の3つに大別できます。
- ビジネスレイヤー :ビジネスの課題設定や実施内容を決定するレイヤー
- 分析レイヤー:ビジネス課題を解決するための分析を実行するレイヤー
- インフラレイヤー:データの管理方法や分析環境を構築するレイヤー

各プロセスでどのようなことを実施するかを解説していきます。
例として「ECサイトの売上改善」というテーマを例として、説明します。
「背景理解」:ビジネス背景・前提知識を理解する
まずはビジネス背景・前提知識を理解することが重要です。
取り組みのテーマを取り巻く概況や前提知識を正しく理解していなければ、ビジネス課題も検討できず、分析など実施できるはずもありません。
このフェーズは非常に重要で、背景や前提知識を理解するだけで1~2か月かかることもあります。
業界特有の商習慣・競合企業の有無など理解しておくべきことは膨大だからです。
データサイエンティストとして分析を進めていく上で、ビジネス背景・前提知識に理解が後段の分析の価値につながる、データサイエンスの業務のスタート地点になります。
例)近年の新型コロナウィルスの影響により、自宅にいながら買い物ができるECサイトの市場環境は大きく拡大している。競合はA社、B社、C社がおり、自社のECサイトは業界の中で5番目の売り上げ規模である。
「課題設定」:ビジネス課題を明確化して解決すべき課題を設定する
次に、ビジネス課題を明確化して解決すべき課題を設定するフェーズです。
ビジネスはさまざまな要因が複雑に絡み合って、動いていきます。そのため、どこがうまくいっていて、どこがうまくいっていないのか分からなくなることが多いです。
複雑なビジネス環境の中では、どこに課題があるのかを明確化して解決すべき課題を見極めることが重要なプロセスになります。
解決すべき課題が明確化されることで分析方針・解決方法を具体化できます。
「課題設定」フェーズでも現状把握のために主要な数値を見て、簡易的な分析を行っていく必要があります。
例)売上を拡大するには「顧客数の増加」 or 「顧客単価の向上」 のどちらかが必要。自社サービスは他社と比較して顧客一人あたりの単価が低いことが課題。 売り上げを向上させるために顧客単価の向上が必要。
「要件定義」:解くべき課題に対して明らかにすべき問いを定義する
「解くべき課題」が設定されたら、「解くべき課題」に対して「明らかにすべき問い」を定義します。
「解くべき課題」ではまだまだ抽象度が高く、分析を実施する粒度間としては粗いです。
「課題」を「問い」に細分化していくことで「なにを分析すべきか?」を明確にできます。
また、「問い」に分解することは優先度を決定することにも役立ちます。
分析を実施する前に「明らかにすべき問い」を一覧化しておくことで、分析の優先度を決めることができ、効率的な分析を実施することができます。
例)「解くべき課題」:顧客1人あたりの単価が低いこと
・顧客単価が高い顧客はどのような顧客か?
→「高額の商品を購入している顧客か?」「複数の商品を同時に購入している顧客か?」
・どのような商品を購入している顧客が単価が高いか?
→「日用品を購入している顧客か?」
「分析設計」:問いを明らかにするために必要な分析アプローチを設計する
次に、「要件定義」で定義した「問い」を明らかに「分析アプローチ」を設計します。
「分析アプローチ」は単純な基礎的集計・高度なアルゴリズムを用いた分析など様々な方法があります。重要なのは「問い」を明らかにできることです。
分析はあくまで手段であり、目的ではありません。
データサイエンティストであれば、自身のスキルを存分に発揮するために高度な分析をしたくなることがあります。
しかし、目的が達成できるのであれば、早く簡単な方法が望ましいです。
高度な分析をすることではなく、目的に応じた分析をできること最も重要な点になります。
例)
・顧客単価が高い顧客はどのような顧客か?
→単価の高い顧客の購入金額の分布、購入頻度を可視化する
・どのような商品を購入している顧客が単価が高いか?
→単価が高い顧客が頻繁に購入する商品を購入率順に列挙する
「データ加工」:分析設計に基づいて必要なデータを加工する
分析設計が完了したら、必要なデータを加工するレイヤーです。
データが蓄積されているシステムからデータを抽出して加工します。
システムによりデータの抽出方法は様々ですが、多くの場合はプログラミングが必要になります。
適切な処理を実装して、分析に必要なデータを抽出します。注意すべきことは処理をあやまることです。
あやまったデータを抽出することで事実とは異なる分析示唆が導き出され、結果的に致命的な意思決定につながる危険性があります。
「データ加工」レイヤーでは繊細なテストを行い、正しいデータを抽出することが最重要です。
例)顧客別に月あたりの顧客単価を算出する。
月あたりの顧客単価が
「高単価層」:「15,000円以上」
「中単価層」:「5,000円以上15,000円未満」
「低単価層」:「5,000円未満」
として、それぞれの人数を集計する。
「インフラ・データ基盤構築」:データ管理するための基盤を構築する
データ分析の最下層のレイヤーです。データを活用するための大元の基盤を設計します。
近年ではクラウド技術が発展してきており、クラウド環境で分析基盤が構築されることが多くなってきています。
セキュリティの観点・予算・既存システムなど、様々な要因を鑑みながらシステムを構築することが重要です。
基盤次第でデータサイエンティスト全体の業務効率が変わってくるため、慎重な設計が求められます。
例)
データを蓄積するためのデータベースの設計やセキュリティ要件を定義する。
データ管理のシステムを設計・開発する。
「データ管理」:データの信頼性を担保するためにデータを適切に管理する
データの信頼性を担保するためにデータを適切に管理するレイヤーです。
「データ加工」方法を理解して、データをどのように管理するかを明確にします。
適切なデータ管理をすることで信頼性の担保だけでなく、分析効率を向上させることができます。
分析担当者が使いやすい形でデータを管理することが望ましく、分析担当者と密にやり取りをしながらデータ管理方法を決定していくことが重要になります。
過去に一度作成したデータをいかに効率的に再利用できるかという観点が大切になってきます。
例)
データの欠損がないかテスト済のデータを管理する。
分析時に利用しやすい形で顧客区分(「高単価層」「中単価層」「低単価層」)を定義して、分析担当に渡す仕組みを構築する。
「分析示唆抽出」:データから得られた事実・示唆を抽出する
分析結果から示唆を導くフェーズです。
分析結果を基にわかったこと・考えられることを抽出して、次のアクションに活かします。
ここで重要となるのが、「わかったこと(事実)」と「考えられること(示唆)」を切り分けることです。
「わかったこと」は関係者の共通認識とすることができますが、「考えられること」は人間の意見が混ざっているため共通認識が取りづらい部分になります。
「わかったこと(事実)」と「考えられること(示唆)」を切り分けて話すことで納得感のある議論展開ができます。
例)
分析結果:「高単価層」は一度に購買する商品数が平均の3倍以上
→ 示唆:複数の商品を購入して頂くことで単価を増加できる可能性
分析結果:ポイント還元率が高い日用品を購入している顧客は単価が平均の2倍以上高い
→ 示唆:日用品をフックに利用の定着化を促進して、単価増加できる可能性
「Action検討」:得られた示唆を基にどのようなActionを実施していくか検討する
得られた示唆を基に次のアクションを検討するレイヤーです。
分析結果を基に得た示唆から次のアクションを具体化して列挙します。
アクションは大きなものから小さなものまで数多くあります。
重要なのは分析により導かれた示唆から論理的に説明できるアクションであるかという点です。
データで導かれた示唆から考えることで課題解決に向けた、本質的なアクションを取ることができます。
例)
示唆:複数の商品を購入して頂くことで単価を増加できる可能性
→一定の商品種類を購入した顧客は10%割引を実施する
示唆:日用品をフックに利用の定着化を促進して、単価増加できる可能性
→日用品のポイント還元を一律で高くする、特定の一商品を大幅に値下げする
「Action実行・改善」:得られた示唆を基に課題解決に向けたActionを実行・改善する
得られた示唆を基に導き出されたアクションを、実行・改善するレイヤーです。
まずは効果のシミュレーションを実施することが重要です。
アクションの実行前に必要なコスト・想定の効果を見積もって見込みの計画を立てておく必要があります。
なぜなら、計画がなければ「なにがうまくいって」「なにがうまくいかなかった」のか、切り分けて考えることが難しくなるからです。
どのような効果が得られるかを想定しておくことで実行後の改善が容易になります。
計画は緻密であればあるほど良いです。
実行後は想定の効果があったかを分析します。
想定通りの効果が出た・出ないに関わらず、上手くいった点・上手くいかなかった点を整理して次につなげることが重要です。
例)
アクション:3種類以上の商品を購入した顧客に対して10%割引を実施
実施前:”コスト” 6,000万、”想定効果” 1億2,000万、”費用対効果” 200%
実施後:”コスト” 7,200万、”効果” 1億6,000万、”費用対効果” 222%
分析:コスト超過はしたものの、費用対効果は想定より上振れ
改善案:コスト超過原因を特定して、コスト低減を図る
「改善効果検証」:事象に対してどれほどの改善効果があったか検証する
当初の目的に対して、アクションがどれほど改善効果があったを検証する最終地点です。
当初の目的であった「顧客単価の改善」にどれほど効果があったかを改めて検証します。
この一連の流れでどれほどの改善が見込まれたを検証して、知見として蓄積していきます。
大切なことはデータで知見を残すことです。
数値で知見を残すことで過去のアクションを振り返りやすくなり、過去の成功事例・失敗事例を引き継ぐことができます。
限られた予算の中で成果をあげていくためにはこのプロセスが必要不可欠です。
「データで知見を残すこと」が継続的に事業改善を行う大切なプロセスであり、データサイエンスの最大の価値になります。
例)
当初の目的:顧客単価の改善
アクション:3つ以上の商品を購入した顧客は10%割引を実施
改善効果:顧客全体の単価を12円向上、割引対象者においては95円の単価向上
「ビジネス型」はビジネスの課題解決を推進するプロフェッショナル

「ビジネス型」のデータサイエンティストはビジネスの課題解決を推進するフェーズで活躍します。
ビジネスで解決すべき課題がなにか、どのようにアクションを実施していくかなど、ビジネスの課題設定・解決を推進する役割です。課題設定・解決をする方法としてデータ分析を活用します。
そのため、「ビジネスレイヤー」のプロセスにプロフェッショナルでありつつ、「分析レイヤー」のプロセスに関しても深い理解ができる役割です。

「ビジネスレイヤー」:意思決定者とのコミュニケーションを実施
「ビジネスレイヤー」は意思決定者とのコミュニケーションを担います。
データ分析により導き出された課題・解決策を意思決定者に報告して、課題解決を実行するためです。
さらに実施したアクションがどのような効果があったのかを報告する役割を担います。
重要な点は意思決定者はデータサイエンティストでないということです。
高度なアルゴリズムを用いた分析はデータサイエンティストではないビジネスマンには伝わらないため、意思決定者の目線で理解できるように分析の結果を報告することが大切です。
「ビジネスレイヤー」では組織を動かす、上流の課題・解決策の方向性を決定づける重要なフェーズです。意思決定者とのコミュニケーション1つで、分析全体の価値が左右されるため分析プロセスの中で最も大切なフェーズになります。
このように「ビジネス型」のデータサイエンティストは意思決定者とのコミュニケーションを実施する重要な役回りを担います。
「分析レイヤー」:目的に合致した分析設計・結果解釈を実施
「分析レイヤー」では目的に合致した分析設計・結果解釈を実施します。
「サイエンス型」のデータサイエンティストと協力しながら解決すべき課題に対する”要件定義”・”分析設計”を行います。また、データ分析後の“分析示唆抽出”・”Action検討”も行います。
重要な点はデータ分析の優先度を決定することです。
ビジネスではスピード感が命であるため、迅速なデータ分析が求められます。また、分析可能な人員も限られているため、いかに迅速に効果的な分析を行うかが重要になります。
目的とスケジュールを考慮して、実施すべき分析に優先度をつけて進めることが求められます。
「サイエンス型」は分析プロフェッショナルとして活躍

「サイエンス型」は分析プロフェッショナルとして活躍します。
分析のプロフェッショナルとして、”的確な分析”・”効率的な分析”を推進します。
“的確な分析”を行うために、「ビジネスレイヤー」の深い理解が必要であり、”効率的な分析”を行うためには「インフラレイヤー」の深い理解が必要になります。
そのため、「分析レイヤー」にプロフェッショナルでありながら、「ビジネスレイヤー」「インフラレイヤー」にも深い理解が必要になります。

「ビジネスレイヤー」:ビジネスを深く理解する
「ビジネスレイヤー」ではビジネスを深く理解することが重要です。
分析する上でビジネスを深く理解していなければ、誤った分析を実施してしまうリスクが高まってしまいます。また、分析結果から得られる示唆が目的から外れてしまうことも考えられます。
詳細な分析方法を検討する前に「なぜその分析を行うのか?」を理解しておくことで”的確な分析”を行うことができます。
「分析レイヤー」:”効率的な分析”を実施するために専門性を発揮
「分析レイヤー」では分析方法の具体化・結果解釈を実施します。
「ビジネス型」のデータサイエンティストと共に議論しながら行うことが多いです。これは、分析が目的に合致しているかを慎重に確認する必要があるからです。
「サイエンス型」のデータサイエンティストは目的に応じて、多角的な分析方法を検討します。
重要な点は幅広く分析手法を検討して、目的に対して最適な手法を選択することです。
統計・高度なアルゴリズムの知識を駆使して、考えられる分析手法を洗い出します。その中から目的・スケジュールに最適な分析手法を選択することで”効率的な分析”を実施することができます。
分析手法が高度で複雑な場合は、分析結果から得られる示唆をわかりやすく整理して「ビジネス型」とアクションを検討していきます。
このように「サイエンス型」は“効率的な分析”を実施するために専門性を発揮します。
「インフラレイヤー」:効率的なデータ管理を実施
「インフラレイヤー」では効率的なデータ管理を実施します。
分析する上で、データ管理は”的確な分析”・”効率的な分析”の両側面に大きく影響します。
データは分析手法に応じて成型する必要があります。データ成型時に重要な点は「信頼性」と「再利用性」です。
「信頼性」とはデータの確からしさを指します。データの中には大きく平均から外れている「異常値」やシステムテスト時に発生している「試験データ」などが混入している場合があります。
分析時にはこれらのデータを排除した「信頼性」の高いデータを用いることが不可欠です。
「再利用性」とはデータを別の分析にも再利用できることです。上記のように「信頼性」の高いデータを作成するには手間がかかります。そのため、加工したデータを別の分析にも活用できるように「再利用」できる形で管理しておくことで”効率的な分析”を実施することができます。
最終的にはこのようなデータ管理を効率的に実施するシステムを構築することが必要です。
そのため、データ管理の方法を「エンジニアリング型」のデータサイエンティストに連携して、データ管理の最適な管理を検討します。
このように「サイエンス型」は「ビジネス型」「エンジニアリング型」と密にコミュニケーションしながら、データ分析を実施する重要な役割を担います。
「エンジニアリング型」はデータ管理のプロフェッショナルとして活躍

「エンジニアリング型」は「データ管理」のプロフェッショナルとして活躍します。
「データ管理」は分析の品質・効率に大きく影響します。特に、データの「信頼性」「再利用性」を担保することは最重要です。

「分析レイヤー」:データ管理の方法を深く理解する
重要な点は「分析レイヤー」でどのような「データ管理」が行われているかを深く理解することです。実態を理解した上で、最適な「データ管理」方法を検討します。
「データ管理」はそれぞれの分析目的に特化された形で成型されていることは多くあります。
そのため、分析の目的と照らし合わせて「なぜそのようなデータ管理が必要なのか?」を深く理解することが必要です。
これらの理解のために「サイエンス型」のデータサイエンティストと会話をすることが大切になります。
「インフラレイヤー」:最適なデータ管理を実現するシステムを構築する
「インフラレイヤー」では最適な「データ管理」を実現するシステムを構築します。
「データ管理」の実態を深く理解した上で、最適な「データ管理」方法を検討します。
共通的に管理すべきデータには限度があり、一部分析目的に特化した形で管理すべきデータも存在します。そのため、「サイエンス型」と最適な「データ管理」方法について検討を行います。
次に、最適な「データ管理」が明確になったら、実現に向けた必要システムの検討・具体化をします。この際、データベース知識・クラウド知識・セキュリティ知識などの幅広いエンジニアリングスキルが求められます。
最後に、開発に必要な人員・予算・スケジュールを具体化して、具体的な開発を進めます。システムの開発状況を管理してシステムのリリースまで責任を持ちます。
このように、「エンジニアリング」は「データ管理」のプロフェッショナルとして、分析に必要な「データ管理」システムを構築することを推進します。
【まとめ】データサイエンス業務は役割分担が必須!
データサイエンティストは役割分担が必須の職業です。
それぞれの強みを活かして、それぞれの得意領域で価値を発揮して業務を進めます。
下記、本記事のまとめです。
- データサイエンティストの役割はどのようになっている?
→「ビジネス型」「サイエンス型」「エンジニアリング型」の3つ! - データサイエンティストの業務はどのように進める?
→役割と同様に「ビジネスレイヤー」「分析レイヤー」「インフラレイヤー」の3つ! - 「ビジネス型」はどのようなことをする?
→課題解決を推進するプロフェッショナル! - 「サイエンス型」はどのようなことをする?
→“的確な分析”・”効率的な分析”を実施する分析のプロフェッショナル! - 「エンジニアリング型」はどのようなことをする?
→最適なデータ管理を行うシステム構築のプロフェッショナル!
今回は以上になります。
コメント