データ解析

確率論の小話 (2)

先日書いたベイズ統計と古典統計の違いについてのシミュレーションプログラムを作成したので掲載します 確率論の小話 カードのクラスを定義 class Card attr_reader :suite attr_reader :rank def initialize(suite, rank) @suite = suite @rank = rank end …

確率論の小話

7年前に2chで話題になった、確率に関する問題(早稲田の入試問題?)の解説にいいものが見当たらなかったので、自分なりにまとめてみる。 よく話題になる確率の問題を集めてみる 問) ジョーカーを除いたトランプ52枚の中から1枚のカードを抜き出し、 表を…

RのWebフレームワーク「Shiny」を高速で体験する

RStudioでのグラフィックス作成に慣れてきて、次はサーバーサイドのRを書こうと思い公式ページを覗いてみると、RStudio IDE、RStudio Serverに加えて「Shiny」というRをWeb上で動かすためのフレームワークが登場してることを知り、チュートリアルをひと通り…

あなたにオススメの〜的なサービスを実装する(アルゴリズム改良版)

前回までは、数式通りにゴリゴリとレコメンド行列を作成していきましたが、前回のプログラムでは計算量がO(m^3)になってしまいます。(mはユーザーデータの量)したがって、ユーザーが1000人、2000人と増えていくに連れて、一気にプログラムの速度が落ちます。…

あなたにオススメの〜的なサービスを実装する(数式編)

前回の解析では、Pythonを知らない人にとっては分かり難いプログラムだったと思うので、レコメンドサービスで使用するアソシエーション解析の数学的理論について書こうと思います。この公式は、こちらのサイトの内容の前半部分を元に自分で作成した公式にな…

あなたにオススメの〜的なサービスを実装する。

AmazonやFacebookに代表されるように、「あなたにオススメの〜」みたいなサービスを構築する方法について考えてみます。いわゆるレコメンド・サービスのためのアソシエーション解析の一環ですね。まずは解析するデータを自動で作成するために、ExcelでVBAを…

喫煙者の1日を観察する (統計解析版)

1週間前くらいに喫煙者がどれだけ損しているかをシュミレーションして解析しましたが、データ処理に関してもっとスマートな方法があったので紹介しようと思います。前回はRubyでモデルを作ってシュミレーションを行いましたが、今回は「R」を用いて簡単に解…

データ解析のゼミの資料

本日のゼミで発表担当しているところの資料を公開しておきます。内容は、「データを解析する際に分布モデルを適応する」です。大学初級レベルの分布を実世界に当てはめてみようっていった感じですかね。

喫煙者の1日を観察する

私は毎日1箱タバコを吸う、世間から嫌われし喫煙者なのですが、 年間のタバコのコストなどを計算してみようと思いました。だいたい1箱440円で1日間吸うのだから、普通に考えて440×365円で計算できるのですが、 これはただのフェルミ推定を行っているだけで…

Webサーバーのログ情報を視覚化する

サーバーエンジニアをやってると、シェルスクリプトでログ情報を編集してホームページなどのアクセスランクを作ることは多いと思いますが、経営者やデザイナーなどエンジニア以外の人にとっては、その(ほとんど生な)データは見ても情報を見抜きにくい上、…

Ruby/RailsからRプログラムを呼び出す

1.導入 Railsでアソシエーション解析を組み込もうと思ってRプログラムを作成したのですが、 Web上のRailsアプリケーションからRを呼び出す方法がわからなかったので調べてみると、 R in Rubyというライブラリを使えばできるみたいなので、早速プロトタイプを…

「文武両道」は現実的か? (3)

さて、前回まででデータをnumpyにフォーマットする作業が終わったので、 とりあえず相関の検定をしてみます。 統計解析ツール「R」では、無相関検定というものがあります。 要点だけ説明すると、無相関検定によって出力される「p値」が0.05よりも小さい場合…

「文武両道」は現実的か? (2)

昨日に続き、文部科学省のホームページから体力テストに関するデータを取得したので、前回の学力テストのデータと合わせて解析していきます。 といっても、体力テストの調査データはExcelで配布されておらず、PDFに記載されているデータをテキスト形式に自分…

「文武両道」は現実的か?

去年塾でアルバイトをしている時に、生徒から 「勉強できる人は運動もできるの??」 ってことをよく質問されました。 私は勉強も運動も努力がほとんどだと思うので、勉強で努力できる人は運動でも努力でき、学力と体力は相関関係が必ずあると思います。 た…

データサイエンス・サーバーエンジニア・Python

これからサーバーエンジニアとして活躍するためには、サーバーのログファイルなどを解析してシステムの向上に繋げられる人材が求められています。つまり、データサイエンティストとしての教養がサーバーエンジニアとしての成功に必須な時代となりました。 デ…

ゼミでの発表の準備

大学のゼミでデータ解析を専攻しており、明日のゼミの発表に向けてオライリーのデータ解析の本(英語版)を20ページほど翻訳してまとめました。 20ページの内容なのにスライドを40枚近く作成してしまい、自分の情報処理能力に絶望しています。 せっかくなので…