「ぬるっとレビューシリーズ」【2週間で学ぶPythonデータ加工】

学ぶ

機械学習ってなんだかかっこいい。面白そう。学んでみたい。でもなにからやればいいんだ。そんな悩みが最近よく聞こえます。

それもそのはず、最近ではデータサイエンティストという職業が注目されており、データの重要性が高まっているからです。

私も数年前にそんな流行に乗っかった一人でした。そんな私が学んだ機械学習の方法をお伝えします。

今回は書籍で学んだ方法を伝授します。ということで、今回のレビューはこちら。

Pythonによるデータ分析入門 第2版

この記事ではこの書籍のレビューと共に、Pythonの基礎を学んだ初心者が2週間でPythonのデータ加工を身に付ける方法についてまとめます。

機械学習の一歩手前までいけます!そこまでです、ごめんなさい。ただし、機械学習を学ぶにはデータ加工が必須なのです。どうしても。

この記事を読むとPythonでのデータ加工の勉強方法がわかります。この記事を実践すると2週間でPythonでのデータ加工のスキルが身に付きます

Pyhtonがある程度使える前提なので、Pythonってなに!?って方は下記にレッツゴー。

関連記事を載せておきます。

本記事の結論は下記になります。

  • データ加工ってなんで必要なの?
    機械学習を使うには必ず必要だから!データ分析にも必ず必要!
  • データ加工はどうやってやるの?
    「ライブラリ」を使って、先人たちの知恵を使って効率的にやる!
  • 使えるようになるべきライブラリは?
    全部で6種類程度!これで約8割はカバーできる!
  • データ加工はコスパよく学ぼう!一通り学べば次のSTEPへ!いざ、機械学習!

では、本編にいきます。

初心者にとって機械学習はあこがれ

データサイエンティストってなんだか、かっこいい。AIってかっこいい。機械学習ってなんだかかっこいい。って初心者は思うものです。

最近ではAIを活用したシステムが一般的になってきており、Amazonや楽天で勝手に欲しい商品をオススメしてくれたり、興味のあるYouTube動画を出してくれたり、検索したものがInstagramで広告されたり。

数年前では考えられなかったことが、いまでは平気で日常にあふれています。

こんなことどうやってやっているんだ!?実際やってみたい!となる方も多いでしょう。素晴らしいことです。この記事を読んでいる方は少なくとも行動して、学習意欲があり中々できることではありません。誇りに思いましょう。

私はデータサイエンティストとして採用活動にも携わっていますが、機械学習への好奇心からデータサイエンティストになりたいと思う人は非常に多いです。

特に、初心者の方にとっては機械学習はあこがれを抱くトピックでしょう。

デフォ画像師匠
デフォ画像師匠

あこがれから始まり職業を志す。素晴らしきこと。人生一回なりたい職業を目指すべし。

機械学習にはデータ加工が必須

機械学習にはデータ加工が必須です。機械学習くんはわがままです。ちょっと違った形を入力するとすぐにできないよ、と言ってきます。えらそうですね。

ですが、文句を言ってもしょうがない。機械学習くんに入れられるようにデータを加工してあげることが必要になります。

データは基本的に汚い状態であることが多いです。あらゆるシステムにはデータが多大に蓄積されていますが、イメージとしてはとにかく取っておくというぐらいです。

例えると、財布の中にレシートがぐちゃぐちゃに入っているようなものです。レシートの明細を見ようとすると、一つ一つ広げて確認する必要があります。

一つ一つ広げて見られる状態にすること、これがデータ加工です。そうです、地道な作業です。

実際には、一つ一つやることはありません。レシートを開いてくれる機械、並べてくれる機械、貼り付けてくれる機械があり、それぞれの機会にセットする、というようなイメージでいろいろな機械にデータを通してデータ加工が進められます

デフォ画像師匠
デフォ画像師匠

「小さいことを積み重ねる事が、とんでもないところへ行くただひとつの道」イチローの名言。

ライブラリを使ってデータ加工をしよう

データ加工にはライブラリというものを使います。ライブラリがデータを加工する機械のようなものです。

ある特定の機能を持ったコンピュータプログラムを他のプログラムから呼び出して利用できるように部品化し、そのようなプログラム部品を複数集めて一つのファイルに収納したものをライブラリという

IT用語辞典 e-word より抜粋

つまり、ライブラリとは世界中の人々がデータ加工をやりやすくしてくれている先人たちの経験・知恵を凝縮して簡単に使えるような形にまとめたものです。

過去の先人たちが数時間かかってやっていたことを数分でできるようになります。このような技術の蓄積がいまのテクノロジーの発展につながっているので、感謝して使っていく必要があります。

データ加工だけでなく、機械学習もすべてこのライブラリを使って実装していくことが多いです。今回はデータ加工によく用いるライブラリを紹介して、ライブラリの学び方を伝授します。

デフォ画像師匠
デフォ画像師匠

先人の知見を使う。使い尽くす。使わないと先人に失礼。感謝して使うこと。

データ加工に必要なライブラリの使い方を学ぼう

データ加工に必要なライブラリの使い方を学びましょう。ここではデータ加工によく用いられるライブラリを紹介します。

  • Numpy:線形台数の演算を効率的に行うことができる
    ベクトルや行列の演算が簡単に実行できる。Pythonの「list」に似ている。
  • Pandas:データベースを効率的に操作することができる
    テーブル構造のデータを簡単に扱えて簡単に演算ができる。「SQL」にも似ている。
  • matplotlib, seaborn, plotly:データを簡単に美しく可視化できる
    散布図や棒グラフはもちろん、箱ひげ図やヒートマップも簡単に作成できる。
  • Scipy:微積分や統計学関連の計算が簡単に実行できる
    複雑なデータ分析や統計学の仮設検定を簡単に実施できる。

データ加工に必要なライブラリはここで紹介したもので約80%を占めます。それほど、よく使うライブラリばかりを紹介しています。

また、難しい補足説明を入れています。「ベクトル?テーブル構造?箱ひげ図?なんだそれ!?」って思うかもしれません。学習していく上で理解できるのでご安心ください。

デフォ画像師匠
デフォ画像師匠

よく使うものは多くない。人生も一緒。共に歩むパートナーたちを理解して大事にしよう。

実際にライブラリを使ってみよう

Pythonによるデータ分析入門 第2版」を見ながら実際にライブラリを使ってみよう

Pythonがわからない!という方は「入門Python 3」を買って、下記をみてください。

学習方法はこちらです。いつも通りです。「よろこぶ」までがワンセット。

  • ページを読み進める
  • 書いてある実行プログラムを写経(書き写す)してみる
  • 実行する
  • 成功をよろこぶ

重要な章を紹介していきます。

4章:Numpy

Numpyの使い方について学びます。Pyhtonの「list」に近しい考え方なので、一度Pyhtonを学習した方にとってはあまり難しくはないでしょう。

行列の演算になれることができれば及第点です。

5章:Pandas

Pandasの使い方について学びます。Pandasは機械学習の入力直前、出力直後に使う重要なライブラリです。力を入れて理解していくと今後のためになります。

重要なのは「どのような処理ができるか?」を理解することです。細かいコーデディングの仕様などはどうせ忘れます。後で調べて実装できれば問題ないです。

7章:データクリーニングと前処理

データ加工の考え方を学びます。「汚いデータってなに?どんなデータが入っていると困るの?」という素朴な疑問を理解します。データ分析をする際に理解しておかなけばいけない観点を学びましょう。

この章でデータ加工の重要性をリアルに実感することができます。

9章:プロットと可視化

データの可視化を学びます。加工したデータ・分析結果を可視化する方法・パターンを理解します。ここでも「どのような可視化ができるか?」を理解することが重要です。

繰り返しになりますが、細かいコーディングの仕様は忘れます。後から調べればいいです。しかし、何ができるか知らなければ調べることすらできません。幅を知ることが重要です。

2週間ほどで1通り学習する

個人差はありますが、目安で2週間ほどを目標に進められるとかなり順調です。
毎日3H × 14日 +(土日はちょっと頑張って)=計50H という計算です。各章下記を目安にしています。

  • 4章:Numpy(10時間)
  • 5章:Pandas(10時間)
  • 7章:データクリーニングと前処理(15時間)
  • 9章:プロットと可視化(15時間)

あくまで目安です。重要なのは理解することなので、オーバーするから遅いということもありません。

ここまでくればデータ加工の基礎が十分に身に付いた状態です。自身を持って機械学習の実装に進むことができます

デフォ画像師匠
デフォ画像師匠

基礎が大事。身に付けるには継続。実践をくりかえして自身の血肉に。

いよいよ機械学習の実装へ

いよいよ機械学習の実装に移りましょう。データ加工でできることは学べたので、次の書籍に進んでより実践的な内容を学んでいきましょう。

私のオススメはこちら。
[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践

オススメの理由は下記です。

  • サンプルプログラムが豊富にあること
  • 実装だけでなく理論をほどよく解説してくれていること
  • 機械学習がまなべることがうれしくなれること
  • なんだかかっこいいことをしている気分になれること

まず、サンプルプログラムが豊富で写経しやすいです。これは初心者の学習にとても重要です。

次に、実装だけでなく理論の解説があることが推しポイントです。機械学習の処理内容を理解しながら学習することができます。そして、これが初心者にとってほどよく書かれています。ある程度わかるが、全部は理解ができないという感じに。適切なレベル感で。

また、心情的なメリットとして、機械学習を動かせてなんだかかっこいいことをしている気分になれます。大事です。モチベーションが続きます。
1か月前はプログラミングもわからなかったのに、いまでは機械学習が動かせる!となれればシンプルに嬉しいです。

学習しながら、かっこいい気分になれるこの書籍が筆者なりのオススメポイントです。

デフォ画像師匠
デフォ画像師匠

あこがれに一歩近づく。素晴らしき。あこがれに生き、かっこよく生きる。

【まとめ】データ加工はコスパよく学ぼう!定着はあとからでOK!

データ加工は先人の知恵を使って、コスパよく学びましょう。繰り返しになりますが、細かい仕様は忘れます。調べればOK。使っていく中で定着します。

まずはエラーが出なければOK!という感覚でサクサク学んでいくことが重要です。

本記事のまとめです。

  • データ加工ってなんで必要なの?
    機械学習を使うには必ず必要だから!データ分析にも必ず必要!
  • データ加工はどうやってやるの?
    「ライブラリ」を使って、先人たちの知恵を使って効率的にやる!
  • 使えるようになるべきライブラリは?
    全部で6種類程度!これで約8割はカバーできる!
  • データ加工はコスパよく学ぼう!一通り学べば次のSTEPへ!いざ、機械学習!

さいごに、本記事で紹介した書籍のリンクを再掲しておきます。
Pythonを学びたい人にはオススメの書籍ですので、思い立ったらすぐに購入して学習しましょう

以上になります。バイバイ!

コメント

タイトルとURLをコピーしました