【自己紹介】
【転職支援サービス】
転職を検討しているデータサイエンティスト向けに【完全無料の】転職支援サービスを実施しています!
詳しくは下記をご覧ください!
【キャリア相談サービス】
キャリアに悩むデータサイエンティスト向けにキャリア相談サービスをやっています!
詳しくは下記をご覧ください!
こんにちは、ぬるったんです。
今回は、データサイエンティスト“統計学”と”機械学習”どっちが大事か?という内容で解説していきます。
私自身マネージャー経験やキャリア相談サービスの経験から、データサイエンスの学習方針の相談を受けることが多々あります。
そのような中で、統計学と機械学習どっちが大事か?という質問を頂くことも多いです。
また、現データサイエンティストでもどちらのスキルを優先的に身に付けていくべきかを悩まれる方も多いでしょう。
そこで今回は、“統計学”と”機械学習”どっちが大事か?という点について解説していきます。
“統計学”と”機械学習”はどちらも必須スキル
大前提として、“統計学”と”機械学習”はどちらも必須スキルです。
データサイエンティストとして、データの専門家である以上、どちらも理解しておくべきというのが大前提としてあります。
図に示しているのが、私が過去に作成したデータサイエンティストのスキル成熟度です。
データサイエンティストに必要なスキルを網羅的に洗い出し、各スキルの成熟度を記載したものですが、こちらの図でも統計学知識、機械学習は必須スキルとして、重要項目として位置付けていました。
そのため、データサイエンティストとして、統計知識・機械学習知識はどちらも必須であるというのが大前提にあります。
一方で、それぞれの習熟度をすべてレベル4まで引き上げていくことは相当な難易度であり、すべての方が到達できるかというとそうではありません。
自身のキャリアの方向性によっては、統計知識と機械学習知識の成熟度に濃淡を付けて、習熟していく選択肢は大いに考えられる選択肢です。
実際に、実務の中でも「”統計学”が重視される領域」と「”機械学習”が重視される領域」は異なるというのは自身の経験から見ても感じる部分があります。
この違いがわかれば、自身のキャリアの方向性として、どちらを深く習熟していくべきかの方向性が見え、効率的な学習・スキル研鑽につながっていくでしょう。
今回は、この「”統計学”が重視される領域」と「”機械学習”が重視される領域」について深く解説していきます。
“統計学”と”機械学習”の違い
まず、“統計学”と”機械学習”の違いについて簡単に解説していきます。
統計学とは?
一般論としては、統計学は人間が統計手法を使って説明するものとされています。
推定や検定などの統計手法を使って仮説検証することに多く使われると表現されていることが多いです。
実務活用のポイントとしては、仮説検証型の分析に相性がよく、イメージしやすいところで行くと、研究における実験時の有意差などの検定などによく活用されます。
機械学習とは?
一方で、機械学習は機械が自動でデータの予測・分類をするアプローチです。
データの関係性を学習して、自動で分類・予測することが目的であり、仮説検証的なアプローチではありません。
大量のデータから法則を見出し、予測・分類することが大きなメリットであり、実務活用のポイントとしては、データから予測・分類を行う手法であると捉えることができます。
このように、統計学と機械学習では「活用」という目線では大きく異なる手法であり、分析のテーマによって使い分けていくことが重要になります。
“統計学”が重視される領域
ここから、統計学が重視される領域について解説していきます。
様々な意見があると思いますが、個人的に最も分かりやすい見分け方が、「ビジネスマンが多い領域」です。
より、具体的に表現するとデータを”意思決定”に活用する領域になります。
例を挙げると、経営・マーケティング領域です。人間がなにかを判断する時にデータを活用する領域では統計学が重視される傾向が高いです。
理由は主に3つです。
- “説明力” > ”予測精度”
- ビジネスは複雑で統計が必要
- 透明性が高い説明が必須
“説明力” > ”予測精度”
一つ目は、ビジネスの意思決定にデータを活用する場合では、説明力が重視されるという点です。
最終的にはどなたかの責任が伴った判断にデータを活用するという場合において、ビジネスの判断に足る説明力があることが重視されます。
そのため、分析プロセスも含めて腹落ちできることが大事であり、より意思決定者が納得感をもった形でデータを活用する必要があります。
データを意思決定に活用する領域では、そもそもの特性として高い説明力が求められるというのはどのような企業においても共通している事項です。
ビジネスは複雑で統計が必要
しかしながら、ビジネスは複雑であり、単純な分析だけでは有用な示唆を見出すことはできません。
ビジネスの成果が変動する要因は自社のビジネスだけではなく、他社のビジネスであったり、市況環境にも左右されます。
そのため、意思決定に活用する分析は交絡調整やRCTなどの何らかの手法を用いて、正しく分析する必要があります。
説明力が求められる傾向があっても、データサイエンティストとして正しい分析をするためには、なんらかの処理を行うことは必須です。
透明性が高い説明が可能
このような背景がある中で、統計学を上手くビジネスの現場に適用することで、正しい分析をしつつ透明性が高い説明ができます。
機械学習を活用したアプローチはどうしても一部の結果の解釈性が悪くなってしまうという側面があるため、重要な意思決定を行う分析結果ではやや避けられる傾向があります。
一方で統計学によるアプローチは仮説検証型で検証ができることからも説明力が高く、ビジネスの現場でも活用されやすいです。
このような理由からデータを”意思決定”に活用する領域では、統計学によるアプローチが好まれる傾向があり、データサイエンティストとしても統計学が重視されることが多くあります。
経営やマーケティング領域など、人の意思決定にデータ分析を活用する領域で働きたい方は、統計的な知識を優先して学習することが望ましいでしょう。
“機械学習”が重視される領域
ここから、“機械学習”が重視される領域について解説していきます。
“機械学習”が重視される領域の分かりやすい見分け方が、「エンジニアが多い領域」です。
より具体的に表現するとデータを”製品開発”に活用する領域になります。
製品と言っても、WEBサービスのようなサービスもありますし、製造業での機器開発なども当たります。
製品開発の領域で”機械学習”が重視される理由としては、次のような理由が挙げられます。
- ”予測精度” > “説明力”
- 説明力は重視されにくい
- 技術的な専門性も重視される
”予測精度” > “説明力”
一つ目が、予測精度が重視されるという理由です。
製品にデータを活用する領域は予測精度が重視されます。
とにかく予測・分類の精度を上げることを求められれ、予測精度をどれだけ出せるか?が重要なポイントになります。
具体例を挙げると動画サービスのレコメンドシステムを構築するなどは、いかにユーザーの興味に合致したコンテンツをおすすめするかが重要な指標になります。
とにかく精度が出せればよく、データ分析の結果を誰かが判断して活用する類のものではありません。
製品開発の領域ではとにかく精度を求められ、説明力は二の次になるということが特徴的です。
説明力は重視されにくい
そのため、説明力は重視されにくいという傾向があります。
精度さえ出ていれば活用が可能なため、機械学習を活用して、多少説明力が低下しても特に問題にはなりません。
中身のロジックの透明度は低くても問題なく、極論を言うと、なんで当たっているかわからないが、ものすごく精度の高いモデル、というのでも重宝されます。
本来的には、特徴量のリークや中期的に同じ精度が担保できるのか?といった運用懸念があるため、しっかりと精査する必要はあります。
少し極端な例を提示しましたが、データの活用対象が物理的な現象であることが多く、意思決定が介在しないというのが大きなポイントです。
意思決定に使わないという話であれば、説明力が低くても大きな問題にはなりません。
技術的な専門性も重視される
加えて、エンジニアが多い領域では技術的な専門性も重視されます。
そもそも、技術に明るい人間が多いので、データサイエンスへの興味も深く、機械学習などの知見を持っている方も多いです。
そのため、利用している技術も一定重要となってくることもあります。
特に特許や知的財産権を活用した戦略を立てることも多く、利用技術の新規性というのも重要とされるポイントになります。
このように、データを製品開発に活用する領域では、機械学習への期待値が高く、機械学習スキルが重視される傾向があります。
多くのデータサイエンティストが機械学習に対して、興味を持って取り組まれていることでしょう。
このような方々はデータを製品開発に活用する領域で仕事をすることで自身の学習内容・専門性を発揮することができるはずです。
まとめ
と、いうところで今回は、統計学が重視される領域、機械学習が重視される領域、について解説していきました。
今回のまとめに移ります。
- データサイエンティストとして、”統計学”・”機械学習”のどちらが重視されるかは領域によって異なる
- データ分析を“意思決定に使うか?” or “製品開発に使うか?”によって重視されるポイントは異なる
- “自身の働く環境”と”やりたいこと”を合致させてキャリア設計することが大事
と、いうのが今回のまとめになります。
データサイエンティストのキャリアは難しく、悩みやすいものです。自分の強み・得意領域で価値を出していけるように学習・環境選択をしていくことが重要です。
今後もデータサイエンティストのキャリアについて、発信していこうと思っているので、引き続き、よろしくお願いします。
今回は以上です。ありがとうございました。