データサイエンティストの業務内容は?

Uncategorized

データサイエンティストの業務内容は?

データサイエンティストの業務内容は一般的にはAIを活用して、高度なアルゴリズムを作成しているなどのイメージを持たれがちです。これは間違ってはいないのですが、このような業務内容はほんの一部になります。
データサイエンティストの業務内容は画一的に語ることが難しく、今回はデータサイエンティスト協会の3つの軸を参照しながら、大きく3つに大別して業務内容を語っていきたいと思います。(https://www.datascientist.or.jp/dskentei/)

データサイエンティストのスキル・要素

データ分析の全体感

データ分析は主に「ビジネスレイヤー」「分析レイヤー」「インフラレイヤー」の3つに大別できます。ここではECサイトの売り上げ改善というテーマを基に各レイヤーの業務内容を語っていきましょう。

ビジネスレイヤー
ビジネスレイヤーでは主にビジネスをどのように改善していくかを検討するレイヤーです。ビジネスをどのように改善すべきかの上流の設計を行います。
分析レイヤー
分析レイヤーでは主に課題を解決するにあたり、明らかにすべき問いを定義し、分析によって問いを明らかにし、今後のActionの見極めを行います。
インフラレイヤー
インフラレイヤーでは主にデータを蓄積する基盤であったり、分析レイヤーで使いやすい形でデータを保持するなどデータ管理を実施します。
データ分析全体感

各プロセスでどのようなことを実施するかを詳細に見ていきます。

「背景理解」:取り組むべき事象の概況や前提知識を理解する

ex. 近年の新型コロナウィルスの影響により、自宅にいながら買い物ができるECサイトの市場環境は大きく拡大している。競合はA社、B社、C社がおり、自社のECサイトは業界の中で5番目の売り上げ規模である。

取り巻く市場環境や競合他社との比較など、ビジネスの概況を把握するフェーズです。
場合によっては自明である可能性も多くありますが、データサイエンティストたるもの取り組みの前提知識は必須ですので、明示的に記載しております。 

「課題設定」:ビジネス課題を明確化して解決すべき課題を設定する

ex. 売り上げを向上させるには「顧客数の増加」 or 「顧客単価の向上」 のどちらかが必要。自社サービスは他社と比較して顧客一人あたりの単価が低い。 売り上げを向上させるために顧客単価の改善が必要。

ECサイトの売り上げを「顧客数」と「顧客単価」に分け、取り組むべき課題を明確にするフェーズです。課題を明確にすることで、今後の分析方針やとるべきActionが具体化しやすくなります。この「課題設定」のフェーズにおいても一定の分析が必要となるケースも多々あります。

「要件定義」:解くべき課題に対して明らかにすべき問いを定義する

ex. 顧客単価が高い顧客はどのような顧客か?「高額の商品を購入している顧客か?」「複数の商品を同時に購入している顧客か?」どのような商品を購入している顧客が単価が高いか?「日用品を購入している顧客か?」

「顧客単価の改善」を目的とした際にどのような顧客が単価が高いか?どのような商品を購入している顧客が単価が高いか?という詳細の問いにブレイクダウンして、分析の要件を定義します。
この際に、実際のActionを意識した問いの設計が重要となってきます。
実際に実行ができないことを分析しても意味がないからです。具体的には下記のようなものが例にあたります。
「高額の商品を購入している顧客か? → 高額商品のポイント還元率を高くする」
「複数の商品を同時に購入している顧客か? → 複数の商品購入者にクーポンを配布する」

「分析設計」:問いを明らかにするために必要な分析アプローチを設計する

ex.
顧客単価が高い顧客はどのような顧客か? → 単価の高い顧客の購入金額の分布、購入頻度を可視化する
どのような商品を購入している顧客が単価が高いか? → 単価が高い顧客が頻繁に購入する商品を購入率順に列挙する

「要件定義」で定義した問いを明らかにするための分析アプローチを具体化します。上記の例ではわかりやすく、単純な分析例を明示しました。
実際には商品の類似度を測るために協調フィルタリングなどのアルゴリズムを用いたり、顧客単価が高い顧客の特徴を抽出するために、勾配ブースティングのSHAP値を確認するなど、データサイエンティストならではの高度な分析アルゴリズムも用いたアプローチも検討します。

「データ加工」:分析設計に基づいて必要なデータを加工する

ex. 顧客別に月あたりの顧客単価を算出する。月あたりの顧客単価が15,000円以上の顧客を「高単価層」、「5,000円以上15,000円未満」の顧客を「中単価層」と加工する。

分析設計に基づいて、実際のデータを加工します。
実際のECサイトなどのデータでは購買履歴のようなものがありますが、顧客の単価を算出するには各購買履歴を各顧客ごとに足し算する処理が必要です。かなり泥臭く大変な作業ではありますが、このデータの加工を失敗すると誤った結果が算出され、ビジネス観点で致命的な意思決定につながる危険性がありますので、非常に重要なフェーズになります。

「インフラ・データ基盤構築」:データ管理するための基盤を構築する

 ex. データを蓄積するためのデータベースの設計やセキュリティ要件の定義する。分析で用いる言語・分析ツールを選定する。データ管理に必要経費を算出する。

データを活用するための大元の基盤を設計します。近年ではクラウド技術が発展してきており、比較的容易に環境は構築できるようになってきてはいるもののセキュリティチェックや費用観点を含めると非常に複雑性の高いシステム構築になります。
この基盤次第で、データサイエンティスト全体の業務効率が変わってくるため、慎重な設計が求められます。

 「データ管理」:データの信頼性を担保するためにデータを適切に管理する

ex. 購買ログの欠損がないかチェックする仕組みを構築する。システムテスト時の不要なデータを除外する。分析時に利用しやすい形で顧客区分(「高単価層」「中単価層」「低単価層」)を定義して、分析担当に連携する。

分析の要件を理解しながらデータをどのように管理すべきかを明確にします。適切なデータ管理を行えば、信頼性を担保するだけではなく、分析の効率を向上させることができます。実際の分析担当者と密にやり取りをしながらデータ管理を実行することが重要になります。
ここでは過去に一度作成したデータを以下に効率的に再利用できるかという観点が大切になってきます。

「分析示唆抽出」:データから得られた事実・示唆を抽出する

ex.
(分析結果)「高単価層」は一度に購買する商品数が平均の3倍以上
→(示唆)複数の商品を購入して頂くことで単価を増加できる可能性
(分析結果)ポイント還元率が高い日用品を購入している顧客は単価が平均の2倍以上高い 
→(示唆)日用品をフックに利用の定着化を促進して、単価増加できる可能性

実際の分析結果から示唆を導きます。実際の分析結果を見ることで次に行うべきActionを具体的に考えることができます。
ここで重要となるのが、分析結果(事実)と示唆を切り分けることです。事実として何が言えるのかを明確にした次にそこからなにが考えられるかを検討することが重要です。事実は関係者の共通認識とすることが重要だからです。事実と意見を切り分けて話すことで納得感のある議論展開ができるようになります。

「Action検討」:得られた示唆を基にどのようなActionを実施していくか検討する

 ex.
(示唆)複数の商品を購入して頂くことで単価を増加できる可能性
→一定の商品種類を購入した顧客は10%割引を実施する
(示唆)日用品をフックに利用の定着化を促進して、単価増加できる可能性
→日用品のポイント還元を一律で高くする、特定の一商品を大幅に値下げする

示唆から考えられる課題解決に向けたActionを具体的にして列挙します。上記では割引やポイント還元などのActionを挙げています。場合によっては特定の商品の配送スピードを上げて、日用品を強化するなど大胆なActionも考えられます。
また、データサイエンティスト観点では商品のレコメンドシステムのアルゴリズムを改善するなどのActionも考えられます。このように同じ分析結果・示唆でも多様な観点で見ることでActionは多彩になるので、様々な観点でActionを検討することが重要です。

「Action実行・改善」:得られた示唆を基に課題解決に向けたActionを実行・改善する

ex.
(実施前)「一定の商品種類を購入した顧客は10%割引を実施する」の実施にあたり、要するコストの算出および想定の効果を事前に見積もる。(コスト:6,000万、想定効果:1億3000万)
(実施後)想定効果の120%の効果あり。特に「中単価層の若者」に対する効果が高かった傾向。

まずは実施前に必要となるコストを算出し、想定の効果を見積もります。どのような効果が得られるかを想定しておくことで実施後の改善の検証が比較的容易になります。緻密であればあるほど良いです。
実施後は想定効果があったかを分析的に明らかにします。想定通りの効果が出た・出ないに関わらず、上手くいった点・上手くいかなかった点を整理して次につなげることが重要です。

「改善効果検証」:事象に対してどれほどの改善効果があったか検証する

ex.
「一定の商品種類を購入した顧客は10%割引を実施する」が最終的な目標の「顧客単価の改善」に有用な効果が見えた。具体的には顧客単価を30円向上、割引対象者においては95円の単価向上を確認。

当初の目的であった「顧客単価の改善」にどれほど効果があったかを改めて検証します。この一連の流れでどれほどの改善が見込まれたを検証して、知見として蓄積していきます。
大切なことはデータで知見を残すことです。数値で知見を残すことで過去の実施したActionを振り返りやすくなり、過去の成功事例は延々と引き継がれ、過去の失敗は繰り返すことがなくなります。限られた予算の中で効果を最大化するためにはこのフェーズが必要不可欠です。
この「データで知見を残すこと」が課題解決に向けて非常に重要な要素になります。

データサイエンティストの業務内容

前述した通りデータ分析は3つのレイヤーに大別できます。前述した3つのレイヤーで活躍するデータサイエンティストをそれぞれ「ビジネス型」「サイエンス型」「エンジニアリング型」と呼称し、それぞれの業務内容について説明していきたいと思います。あくまで大別した形ですので、レイヤー横断で活躍するデータサイエンティストも一定数存在します。

ビジネス型
「ビジネス型」データサイエンティストのスキル・要素

主にビジネスレイヤーで活躍するデータサイエンティストです。分析レイヤーも深く理解できるスキル・能力を持ちます。
主な役割としては、ビジネスの現場でどのような課題が生じているか、どのようなActionを実施しているかなど現状の状況を理解した上で、課題設定・課題解決を推進する役割です。また、「サイエンス型」の人間とコミュニケーションしながら解決すべき課題に対して、要件定義・分析設計も共に行います。

実際のビジネスの現場ではスケジュールなど分析に閉じない要件が多々あり、実施すべき分析がすべて実施できる訳ではありません。そのため、それぞれの分析に要する時間やリソースも鑑みて、実施すべき分析を決定します。
実際の分析を自身で実施することもあれば、「サイエンス型」の人間に任せることも多々あります。これはそのテーマの規模間や状況見合いになります。

「ビジネス型」のコミュニケーションする相手はデータサイエンティストでないことが多く、ビジネスの意思決定者もしくは意思決定者に近い立場にいる人間であることが多いです。複雑なアルゴリズムを用いた分析はデータサイエンティストではない人間には伝わらないことが多くあります。

その際に、分析の結果や解釈を抽象化してコミュニケーションする必要があります。この上流の課題設計やコミュニケーションが分析の価値を大きく左右することになるため、非常に大きな役割を担います。
このように「ビジネス型」はデータ分析を主軸にビジネスを推進する重要な役割を担います。

サイエンス型
「サイエンス型」データサイエンティストのスキル・要素

主に分析レイヤーで活躍するデータサイエンティストです。ビジネスレイヤーの内容も深く理解でき、インフラレイヤーの内容の一部も深く理解できるスキル・能力を持ちます。
主な役割としては「ビジネス型」の人間とコミュニケーションしながら、解くべき課題に対して統計知識や高度なアルゴリズムの知識を駆使して課題解決を推進する役割です。

解くべき課題に対して、適切な要件定義・分析設計を行います。その際に重要となるのは現実的に可能か否かという点です。実際の分析の現場ではデータの整備状況、データの収集状況などに分析の実施可否・スケジュール感が左右されます。また、データ量の不足により実施できない分析アルゴリズムなどもあります。
分析レイヤーのプロフェッショナルとして、「ビジネス型」「エンジニアリング型」の人間と密にコミュニケーションを取りながら、あらゆる情報を加味して最適な分析アプローチを取得することが重要になります。

分析実施後は分析の結果を基にどのような示唆が得られたか、どのようなActionを実施していくべきかを「ビジネス型」の人間と共に共創します。細かなデータの意味合いや解釈は「サイエンス型」が精通しており、幅広いビジネス観点で示唆・Actionを考えられるのは「ビジネス型」が得意とする領域です。

このように「サイエンス型」は「ビジネス型」「エンジニアリング型」と密にコミュニケーションしながら、データ分析を実施する重要な役割を担います。
 

エンジニアリング型
「エンジニアリング型」データサイエンティストのスキル・要素

主にインフラレイヤーで活躍するデータサイエンティストです。分析レイヤーの内容を理解しながら最適なデータの加工、最適なデータ管理を実現するスキル・能力を持ちます。さらにデータを最適に管理するために必要となる基盤やインフラの設計・構築を行います。
データ分析環境を構築する役割を担うことから組織全体のデータ分析の品質を大きく向上させる重要な役割になります。

小規模なテーマであればデータ分析は「サイエンス型」がすべて担うことが多いですが、組織立って分析を行う際はこの「エンジニアリング型」の存在が重要になります。
大規模なテーマで数人~数十人のデータサイエンティストが分析を実施する状況では各々がデータ加工を行っていると分析の効率性が低下や定義ずれなどの品質の低下を招いてしまいます。これを解決するのが、「エンジニアリング型」の重要な役割です。

各所の分析で用いられているデータを把握しながら共通的に整備するデータ、個別で整備するデータを見極めます。そして、共通的に整備すべきデータを作成して、管理することで組織全体のデータ分析の効率化および品質の向上が実現します。

このような業務を繰り返しながら、データ分析を効率化するための基盤・インフラを検討します。この際は様々なシステム部門の人間と会話をしながら業務を進めていくことになります。データベースの知識、クラウド知識、セキュリティ知識、分析知識など幅広い様々な知識を求められます。

コメント

タイトルとURLをコピーしました