データサイエンス・サーバーエンジニア・Python

 

これからサーバーエンジニアとして活躍するためには、サーバーのログファイルなどを解析してシステムの向上に繋げられる人材が求められています。つまり、データサイエンティストとしての教養がサーバーエンジニアとしての成功に必須な時代となりました。

 

データサイエンティストといっても、大学で習うような難しい統計や解析学の数式を完璧に理解する必要はありません。最低限求められるのは、様々なサイズのデータを適切な数式に当てはめて、数式が返してきたデータの意味を読み取る技術です。

 

例えば、平均値について考えてみましょう。

高校までで勉強する平均値は、すべてのデータを足して総数で割り算をするといった公式を覚えます。現代では、その程度の統計の知識すら身についていない大学生も多いらしいですが、ある程度平均値などの統計知識がある人なら、平均値はどうやって計算するかだけではなく、平均値は何を表しているのか、平均値をなぜ知る必要があるのかなどを理解していると思います。

 

正直データサイエンティストにとって必要なのは、平均値の公式を覚えることよりも平均値をどこで利用して、どう平均値を読み取るのかを知っている方が大切です。

 

平均値だけでなく、分散、偏差、分布関数など様々な公式がデータを読み取るために用意されていますが、それらのほとんどはプログラムで自動計算することができるので、正直そこまで血眼になって公式や証明方法まで覚える必要はないと思います。

 

逆に何をすべきかというと、具体的にデータをプログラムで解析して、出力された数値を読み取ってビジネスや研究の糧にする練習がデータサイエンティストに必要だと思います。なので、データサイエンティストといっても統計的数値やプログラムを構成する英語、プログラム的論理思考が理解できるほどの知識をお持ちであれば、今すぐにでもデータサイエンスの世界に足を踏み入れることをオススメします。

 

では具体的にどうやってデータをプログラムで解析するのかについて、このブログで紹介していこうと思います。

 

幸いなことに、統計的データ解析が重要視されるようになって数年が経っているため、情報系エンジニアの周りにはたくさんの解析ツールが揃っています。(といってもMicrosoft Officeのように誰でも使えるほど簡単ではないのが現在の課題だと思います)

PythonもしくはRubyといったスクリプト言語とRのような統計解析言語を用いてデータ解析を行ってみましょう。

 

といっても、PythonやRなどの入門サイトはたくさんあるため、このブログでは実際に解析するデータとプログラムの紹介をして、データの読み取り方法を中心に話していきたいと思います。

 

少し文章が長くなったので、次からさっそくPythonを用いて社会調査に関するデータを解析していくことにしましょう。(次回は統計局のホームページにあるデータを元に簡単な解析をする予定)