[R言語]集計とグラフとデータのデータ抽出と

一応ITエンジニアのガミです。

前回までに、データの扱い、データの設定の基本を学習しましたので、今回はR言語でデータを活用する方法をご紹介です。  

統計グラフデータ抽出をやってみたいと思います。

 (前回記事)

 

 

統計

Rには統計に関する関数がいくつも用意されていますのでそれを活用です。

前回読み込んだデータに関して基本統計量関数を利用してみます。

Rが用意しているものは以下の通りです。

 

sum():合計

mean():算術平均

max():最大値

min():最小値

range():範囲

median():中央値

var():分散

sdquamtile():標準偏差

summary():四分位数、平均など

apply():行・列の基本統計量

 

 

ということで、簡単なところを使ってみます。

f:id:gami_bookmark:20161206145821j:plain

CSVファイルのresultデータに対して実行した結果です。

簡単にできますね。

 

なお、summary()関数を使うとこのあたりの統計データをまとめて表示できます。

f:id:gami_bookmark:20161206150132j:plain

 

グラフ

Rでは様々な種類のグラフを描くことができます。

代表的なところで棒グラフ、ヒストグラムをそれぞれ描いてみました。

 

棒グラフ(barplot)

barplot(dat$result)

f:id:gami_bookmark:20161206151426j:plain

ヒストグラム(hist)

hist(dat$result)

f:id:gami_bookmark:20161206151443j:plain

 

特定のカラムのデータを抽出

Rで統計処理をする際には前処理として、データから必要なデータのみ抜き出した方がよい場合があります。
そんなデータの抽出方法をまとめておきます。


母集団は扱いやすいのでデータフレームにすることが多いです。
そのデータフレームから特定のカラムのデータだけ抜き出すのは非常に簡単で、

 

dat$result

 

このようにデータフレームに$でアクセスし、ヘッダ(カラム名)を指定すればよいです。 

こうすることで、データフレーム dat の result 列のデータを列挙します。


この抽出したデータを別の変数に入れて以降の処理で活用します。
こんな感じ

datres <- dat$result

こうすれば以降、datresに対して各種処理を実行すればいいです。

 

条件付きでカラムを抽出

先程はカラム指定でデータを抽出しましたが、他の条件を付けて抽出したいと思います。
他の条件というのはいろいろあると思います。
今回は、他のカラムのデータを条件にデータ抽出してみます。

条件)typeがBのresultを取得
dat$result[dat$type=="B"]


Rでは条件を[](大カッコ)で指定します。
このカッコの中でtypeを指定し、それにマッチする行のresultを抽出します。


この条件式はAND、OR、XORなどの論理演算も利用できます。

条件)typeがBでnameがtakahashiのresultを取得

dat$result[dat$type=="B" & name="takahashi"]

 

とりあえず、ここまでで一度R言語の記事化は留めます。

また必要に応じてアップしたいと思います。