DATA 파일 읽기 & 스크립트 일괄 처리

Published onesixx on

http://www.inside-r.org/howto/finding-data-internet
http://flowingmotion.jojordan.org/2013/10/10/read-data-files-into-r/
http://rstudio-pubs-static.s3.amazonaws.com/1776_dbaebbdbde8d46e693e5cb60c768ba92.html

The data editor (데이터 편집기)

2) fix( ) -변경

데이터세트의 데이터 값을 변경하기 위해 사용 edit(DatasetT)와 동일한 R Data Editor가 나타나고, 여기에서 변경한 데이터는 DatasetT에 반영된다.

> fix(DatasetT)

5) NewDataset2 <- data.frame()은 R Data Editor로 비어있는 스프레드시트를 열지는 않았지만 데이터가 없는 데이터세트 NewDataset2를 생성한다. fix(NewDataset2) 명령을 사용하여 값을 입력하면 앞의 4)에서 설명한 명령과 동일한 작업을 수행할 수 있다.

> NewDataset2 <- data.frame()
> fix(NewDataset2)

6) R Data Editor에서 변수이름 셀(cell)을 클릭하면 변수 명을 변경하거나 변수의 문자, 숫자 속성을 변경할 수 있다.
7) R Data Editor를 이용해서 활성 데이터세트(attach된 data set)의 데이터 값을 변경하거나 변수의 속성을 변경하는 경우 가장 주의해야 할 사항은 데이터세트(data set)를 반드시 분리(detach)한 후에 작업을 수행하거나 변경작업 후에 반드시 detach(), attach()를 실행해야 한다는 점이다.
8) attach(DatasetT) 상태에서 as.character(DatasetT$F.Sample) 명령으로 F.Sample 변수의 숫자 값을 문자로 변경시켰다. 그런데 mean(F.Sample) 명령을 내려보면 Sample 변수를 숫자로 인식하고 있고 mean(DatasetT$ F.Sample) 명령을 입력해보면 F.Sample을 문자로 인식하고 있는 것처럼 F.Sample과 같이 데이터세트의 내부변수 이름을 직접 사용하는 것은 변경된 내용이 반영되지 않았으므로 또 다른 오류를 발생시킬 수 있다.
9) detach(DatasetT); attach(DatasetT)를 수행한 후에는 F.Sample, DatasetT$ F.Sample 모두 문자로 변경되었음을 확인할 수 있다.
10) detach(DatasetT) 명령으로 시스템의 검색경로에서 DatasetT를 제거한 후에 as.numeric(), factor(), levels(), as.character() 명령을 사용해서 변수의 속성을 변경해보고 그 반영 여부를 확인해보자.

> attach(DatasetT)
> DatasetT$F.Sample <- as.character(DatasetT$F.Sample)
> mean(F.Sample)
[1] 580.6667
> mean(DatasetT$F.Sample)
[1] NA
Warning message:
인수가 수치이거나 논리값이 아닙니다. NA값을 돌려줍니다
in: mean.default(DatasetT$F.Sample)
>
> detach(DatasetT)
> attach(DatasetT)
> mean(F.Sample)
[1] NA
Warning message:
인수가 수치이거나 논리값이 아닙니다. NA값을 돌려줍니다
in: mean.default(F.Sample)
> mean(DatasetT$F.Sample)
[1] NA
Warning message:
인수가 수치이거나 논리값이 아닙니다. NA값을 돌려줍니다
in: mean.default(DatasetT$F.Sample)
>
> detach(DatasetT)
> DatasetT$F.Sample
[1] "816" "574" "352" "574" "816" "352" "574" "352" "816"
[10] "352" "816" "574" "816" "352" "574" "816" "574" "352"
[136] "352" "574" "816" "574" "352" "816" "816" "352" "574"
[145] "352" "574" "816" "352" "816" "574"
> DatasetT$F.Sample <- as.numeric(DatasetT$F.Sample)
> DatasetT$F.Sample
[1] 816 574 352 574 816 352 574 352 816 352 816 574 816
[14] 352 574 816 574 352 352 574 816 352 816 574 574 816
[131] 352 816 352 816 574 352 574 816 574 352 816 816 352
[144] 574 352 574 816 352 816 574
> DatasetT$F.Sample <- factor(DatasetT$F.Sample)
> levels(DatasetT$F.Sample) <- c("A사제품", "B사제품", "C사제품")
> DatasetT$F.Sample
[1] C사제품 B사제품 A사제품 B사제품 C사제품 A사제품
[7] B사제품 A사제품 C사제품 A사제품 C사제품 B사제품
[139] B사제품 A사제품 C사제품 C사제품 A사제품 B사제품
[145] A사제품 B사제품 C사제품 A사제품 C사제품 B사제품
Levels: A사제품 B사제품 C사제품
> DatasetT$F.Sample <- as.character(DatasetT$F.Sample)
> DatasetT$F.Sample
[1] "C사제품" "B사제품" "A사제품" "B사제품" "C사제품"
[6] "A사제품" "B사제품" "A사제품" "C사제품" "A사제품"
[141] "C사제품" "C사제품" "A사제품" "B사제품" "A사제품"
[146] "B사제품" "C사제품" "A사제품" "C사제품" "B사제품"
>

View(“데이터셋”)함수

행렬같은 R Object에 대해 spreadsheet스타일의 데이타뷰어를 불러와 작동시킨다

Built-in data – 패키지에 포함된 데이터

CRAN사이트(영문)의 유요한 여러 문서들을 참조하다 보면, 문서작성자가 만든 패키지와 그 안에 포함되어있는 데이터(data frames)를 사용한 예제를 많이 접하게 된다.

https://cran.r-project.org/web/packages/qcc/qcc.pdf

예제의 data(pcmanufact)가 패키지에 포함된 데이터를 읽을 때 사용하는 명령이다. 패키지에 포함된 데이터도 파일형태로 로컬 PC에 존재하지만, read.table( )보다는 library(패키지); data(파일이름) 명령을 사용하여 읽어 들이는 것이 더 편리하다.

1) data() 명령은 현재 시스템 검색경로[(search()명령으로 확인가능)에 등록되어있는 패키지에 포함된 데이터프레임(data sets) 목록을 보여준다.

> data()
Data sets in package ¡®datasets¡¯: AirPassengers Monthly Airline Passenger Numbers 1949-1960 BJsales Sales Data with Leading Indicator …(생략) women Average Heights and Weights for American Women Data sets in package ¡®qcc¡¯: boiler Bolier temperature data circuit Circuit boards data dyedcloth Dyed cloth data orangejuice Orange juice data orangejuice2 Orange juice data – Part 2 pcmanufact Personal computer manufacturer data pistonrings Piston rings data Use ¡®data(package = .packages(all.available = TRUE))¡¯ to list the data sets in all *available* packages.

2) library(qcc)는 qcc 패키지를 시스템 검색경로에 등록시킨다.

> library(qcc)
Package 'qcc', version 2.6
Type 'citation("qcc")' for citing this R package in publications.

3) qcc 패키지에 포함된 Data set 목록을 보여준다.

> data(package=("qcc"))

    datasets 패키지에 포함된 Data set 목록을 보여준다.

> data(package=("datasets"))

4) data(pcmanufact, package=”qcc”)는 간단히 data(pamanufact) 라고 입력할 수 있으며 데이터를 읽어들인다. qcc 패키지에 포함된 Data set 이름이 pcmanufact에서 읽어들인 데이터를 확인할 수 있다.

> data(pcmanufact, package="qcc")
또는
> data("pcmanufact")
> pcmanufact
    x size
1  10    5
2  12    5
3   8    5
4  14    5
5  10    5
6  16    5
7  11    5
8   7    5
9  10    5
10 15    5
11  9    5
12  5    5
13  7    5
14 11    5
15 12    5
16  6    5
17  8    5
18 10    5
19  7    5
20  5    5

5) help(pcmanufact, package=”qcc”)는 데이터에 대한 설명, 출처등의 정보를 출력해준다. 패키지에 포함된 데이터에 대해서만 제공된다.

> help(pcmanufact, package="qcc")
pcmanufact {qcc} R Documentation Personal computer manufacturer dataDescriptionA personal computer manufacturer counts the number of nonconformities per unit on the final assembly line. He collects data on 20 samples of 5 computers each. Usage data(pcmanufact) Format A data frame with 10 observations on the following 2 variables. x number of nonconformities (inspection units) size number of computers inspected References Montgomery, D.C. (1991) Introduction to Statistical Quality Control, 2nd ed, New York, John Wiley & Sons, pp. 181–182 Examples data(pcmanufact) attach(pcmanufact) summary(pcmanufact) plot(x/size, type=”b”) detach(pcmanufact)

데이터 수집

서울 열린 데이터 광장(http://data.seoul.go.kr)

공공 데이터 포탈 (data.go.kr)

Categories: Reshaping

onesixx

Blog Owner