【統計】データフレームの扱いの基本【R】

Pocket

FavoriteLoadingAdd to favorites

こんにちは、まんぼうです。

前回に引き続き統計に関する記事です。

今回はRでのデータの取り込み方や基本的な操作に関してです。



はじめに

そもそもRとは何かというと”統計分析のフリーソフト”だそうです。

調べるとそう出てきますが、R言語と言われたりもするのでプログラミング言語でもあるのでしょう。

厳密なことは知らんです。

Rではデータをデータフレームと呼ばれるオブジェクトとして扱います。

データフレームとは行と列を持つオブジェクトです。(2次元の行列みたいなやつ)

各行には調査での観測地や実験での測定値などそれぞれの個体が持つ値が置かれ、各列にはそれぞれの変数が取る値が置かれます。

データフレームの本体は数値や文字列、日付や理論値など様々。

データフレームの読み込み方

~.txtファイルの場合

data <- read.table("c:/Users/~/~.txt", header=T, row.names=1)

~.csvファイルの場合(エクセルファイルなど)

data <- read.csv("c:/Users/~/~.csv", header=T, row.names=1)  

”header=T”は第1行が変数名を含んでいることを示す。

基本的な関数

attach(data)

Rセッションにおいて変数名だけでデータが扱えるようにする

 

names(data)

変数名の一覧を得る

 

data

データフレームの中身を見る。データの名前のみ入力すればよい

 

summary(data)

要約統計量を出力する。数値データであれば最大値、最小値、中央値、第1四分位点、第3四分位点。カテゴリカル型は水準ごとの数など。

 

rm(~,~,~)

変数を削除(~は作成した変数名)

 

detach(data)

データフレーム”data”を削除するわけではなく、”data”内の変数をその名前だけでは参照できなくする。

 

データフレームも含めた全てのオブジェクトを削除したいときには

rm(list=ls())

というコマンドを使う。しかしこれをやるとすべて削除されるため実行する時には確認した方が良い。