【自己紹介】
【転職支援サービス】
転職を検討しているデータサイエンティスト向けに【完全無料の】転職支援サービスを実施しています!
詳しくは下記をご覧ください!
【キャリア相談サービス】
キャリアに悩むデータサイエンティスト向けにキャリア相談サービスをやっています!
詳しくは下記をご覧ください!
こんにちは、ぬるったんです。
今回は、個人で生成AIを活用できるのと組織で活用できるのは別物です、という話をしていこうと思います。
生成AIの活用は多く広がってきていますが、その多くが個人での活用にフォーカスしたものだと感じます。
実際に、企業で生成AIを活用する際には、YouTubeやSNSで流れている情報だけでは足りません。
個人で生成AIを活用できるのと、組織で活用を推進するのは考え方が大きく異なるからです。
今回は、この点について深く解説していこうと思います。
個人で使う生成AIはSaaS版
個人で生成AIを使うには多くの方が、SaaS版の生成AIを活用すると思います。
ネットでChatGPTと検索して出てくるものですね。人によっては、ClaudeやGeminiなどを活用している人も多いでしょう。
基本的には個人で利用する場合は、SaaS版がたいていの場合でベストプラクティスになります。
気軽に使えますし、無料で使える範囲も広いです。また、有償版にしたとて、定額利用ができるので、安心です。
しかし、このノリで企業の活用ができるかというと、これは全くの別問題になります。
企業でSaaS版生成AIが使えない理由
企業でSaaS版の生成AIを禁じている企業は多くあります。
この理由は情報漏洩リスクです。生成AIはその汎用性の高さから、社内情報を外部に入力するため、情報漏洩リスクが発生します。
そのため、企業ではSaaS版の生成AIを禁じているところがほとんどでしょう。
再学習させない設定にできるじゃないか、という方もいると思います。ですが、そもそもオープンネットワーク上に社内情報を上げてしまっていること自体が問題になります。
本来的には、社内のプライベートネットワークのみでやり取りがされるべき、機密情報も生成AIという便利ツールが生まれたために、外部へ流出するリスクが高まっています。
Google翻訳のようなものも実際には、これに該当するため、なぜいまさらそんなことを言い始めるのか、という意見も聞くことがありますが、その汎用的な便利さが故に多くの情報が漏洩するリスクを嫌うのは理解できます。
そのため、特に大手の企業ではSaaS版の生成AIの利用を禁じている企業は多々あるというのが、現状です。
企業の生成AI活用は社内情報の参照が必須
一方、企業での生成AI活用を進める上で必須になるのが、社内情報の参照です。
世に出ているLLMはもちろん社内特有の情報を保有していません。そのため、社内で生成AIを活用するには社内情報を参照させる必要があります。
よく言われるやり方が、「Fine-Tuning」や「RAG(Retrieval-Augmented Generation)」という手法です。
前者はモデルの重み自体を更新するやり方で、後者はモデルの横に参考情報を置いて、生成時に参照させるという手法です。
モデルの重みを更新するには、かなりのコストがかかるため、社内情報の参照は、RAGで実装することがほとんどです。
そのため、企業で生成AIを活用する場合は、LLMの横に社内情報を置いたシステム構成になることが多いです。
生成AIを社内で活用するために重要な観点
と、いうように社内情報をLLMの横において、質問に応じて参照させるような構成になる訳ですが、生成AIを社内で活用するためには重要な観点としては大枠では下記の3つの観点が重要になります。
- コスト
- セキュリティ(ガバナンス)
- SLA
コスト観点
ますはコストです。
生成AIは基本的には利用頻度に応じて費用がかかる従量課金制になります。
OpenAIのAPIの利用や他のOSSのAPI利用も基本は従量課金で費用がかかります。
例外的に、OSSを自前のサーバーで動かすような使い方はもちろん利用費はかかりませんが、大型モデルを動かすときにはGPUをホスティングする必要があり、GPU代がかかってきます。
小さなモデルだとGPUがいらない場合もありますが、GPT-4系を使い慣れているユーザー目線だとやや精度が低くなるような傾向があります。
そのため、現時点ではOpenAIのAPIを活用して進めている企業が多いのではないでしょうか。
このコスト管理はやや生成AI活用を進める上で難しい問題になります。
社内で生成AIアプリをリリースした場合に、どれくらいの利用頻度でどれくらい使われるのかを見積もるのは難しいので、適格なコスト試算はできません。
また、GPT-4系とGPT-3.5系でコストが大きく変わるので、精度とコストのトレードオフに悩まされることも多々あるでしょう。
と、いう中で先日GPT-4o miniがリリースされました。
これにより、GPT-4o miniがベストプラクティス化したので、コスト問題はかなり考えることが簡単になりました。
GPT-4o miniは、GPT-4系には精度でやや劣りますが、GPT-3.5よりは圧倒的に優位です。
一方コストは、GPT-4oの約4%、GPT-3.5の約40%しかかからないので、コストパフォーマンスが圧倒的です。
他のOSSを使ってGPU代を払うより圧倒的な価格優位性があるので、とりあえずGPT-4o miniを使っておけばいい、というような流れでしばらくは進んでいくのではと思います。
詳しくはこちらでも解説しているので、ぜひご覧ください。
セキュリティ(ガバナンス)
二つ目が、セキュリティ(ガバナンス)の観点です。
一般的なシステムとしての堅牢性はもちろん必要になります。外部からの不正アクセス対策、DDoS攻撃への対策などは必須要件になります。
ただ、生成AIで社内の機密情報を扱う場合は、より多角的な観点で考えなければなりません。
社内情報を参照させるため、システムとして求められるセキュリティレベルは大きく上がりますし、社内文書ごとに参照できる人間をすみ分ける必要があります。
例えば、管理職しか本来アクセスできない情報に対して、LLM経由で一般社員がアクセスできてしまう、などといったことが発生してはいけません。
LLMのアプリケーションごとに情報統制を行う必要があり、管理方法も一つ考えないといけない重要な観点になります。
適切な情報管理を実現するための運用体制・ルール作りも必要になってくるので、セキュリティ事故を起こさないためにも多くの観点で検討が必要になってくるというのがセキュリティ(ガバナンス)の観点です。
私自身、システム、特にインフラ回りの知識は弱いので、セキュリティ周りの設計は有識者がどうしても必要になってくる領域になります。
SLA
最後が、SLAの観点です。
社外で活用する場合は特に難しい問題になります。社内での活用であれば、ある程度優先度は下げられます。
LLMは必ずしも正しい回答が生成されるかというとそうではありません。
確率的に言語を出力しているだけなので、確からしいが実は誤っている、いわばハルシネーションという現象が多々発生します。
このハルシネーションをどう扱うかというのは、サービスレベルを考える上で難しい観点になります。
公式アプリケーションとして出しているアプリが誤った回答をして、なにがしかの被害につながった場合は会社のレピュテーションリスクになりえます。
LLMを活用したアプリケーションはなにをどこまで担保するのかの線引きが非常に難しく、サービスレベルがどこまで担保できるかは難しい問題です。
ここらは、社内活用であれば、後から何とかなるものでもあります。
私自身は社内での活用に閉じているので、現時点でSLAに関して深く議論をしたことはないですが、やはり難しい問題になることは間違いないでしょう。
RAGの実装に関しては、こちらにも解説していますので、ぜひ参考までにご覧ください。
生成AIを組織で活用できる人材は希少
と、いうように、個人で生成AIを活用できるか、企業で活用できるかは全くの別物です。
生成AIを組織で活用できる人材は希少な存在になるでしょう。
いま、生成AIがはやっていて多くの情報が出回っていますが、そのほとんどは個人が生成AIを活用するための情報がメインです。
企業で活用するための情報はあまり多く出回っていないように思えます。(特にXやYouTubeなどでは)
この点、確信的に感じたのが、先日発表があったGPT-4o miniのリリースです。
通常、OpenAIから新たなモデルが発表された時には毎度話題になるのですが、今回のモデルの発表は比較的限定的に感じました。
これは、GPT-4o miniの革新的な点としては、APIの利用料が劇的に安くなった(GPT-4o の3~4%)という点であり、一般的なSaaSサービスを利用する方にとってはあまり多くの革新ポイントがなかったからだと思います。
しかし、企業で活用する側から見ると革新的であり、過去のコスト課題が一挙に解決するモデルです。
この「話題にならなさ」を見て、市場ではあまり企業での活用を進めている人材は少ないことを実感しました。
そのため、生成AIを企業で活用推進できる人材はいまのところかなり限定的で、希少性が高いと感じます。
データサイエンティストとして生成AIは学習すべき
最後に、データサイエンティストとして生成AIは学習すべきコンテンツであると感じます。
データサイエンティストにとって、生成AIは新たなトレンドになると考えています。
生成AIの活用はどの企業も進めているテーマであり、今後企業投資がなされるテーマになるでしょう。
実際に、私が関わっている企業でもデータサイエンス・データ活用の予算が生成AIの予算に流れています。
その動きに伴い、多くの企業が生成AIを活用したサービスを検討したり、生成AI関連のコンサルティングサービスの提供を進めています。
今後も、生成AI活用に多くの予算が投じられ、活用を進めることが期待されるでしょう。
一方で、生成AIとデータサイエンティストは非常に相性がいいテーマです。
LLM(大規模言語モデル)は深層学習の延長でもあり、データサイエンティストに生成AIの活用の期待がなされることも多くあります。
そのため、データサイエンティストとして生成AIのスキルを付けて、キャリアを徐々にシフトチェンジしていくことはいい選択肢になるでしょう。
まだまだ、生成AIをキャッチアップできているデータサイエンティストもそう多くはなく、生成AIの実務経験があると非常に重宝される人材となりえます。
データ分析ができる、Pythonが書ける人材は市場にも多く出てきています。
今後は、データサイエンティストのキャリア構築として、一定の差別化要素が図る必要性・必然性が出てきていると感じます。
もちろん、必ず流れが来るかと言われると確約はできませんが、大きな流れになっていることは間違いないので、キャリア構築の一つの差別化戦略として、生成AIを位置づけるのは有力な選択肢になるでしょう。
今後も、自身の経験談を基にした生成AI関連のテーマは発信していこうと思います。
今回は以上です。ありがとうございました。