중복 duplicated, rleid

Published by onesixx on

duplicated(), Unique()

R

항상 가장 위에 있는 것만 남김.
따라서, 잘 정렬후 중복을 삭제할 필요가 있음.

R
R

duplicated() 한계

unique()나 duplicated()는 중복을 제거하는데 유용하지만,
연속된(consecutive) 중복값을 제거하는데 사용할 수 없다.

R

순서가 있는 경우는 duplicated()도 유용하게 사용된다.

R
R
R

rleid() :: run length encoding id

run-length 형태의 group id

rle는 (잘 사용되진 않지만) 압축방법중, 같은값이 연속될때 그 반복수와 반복되는 값만으로 표현하는 방법.
– 원래 문자열 : (“a”,”a”,”a”,”c”,”c”,”b”,”b”,”b”,”b”)
– 압축 문자열 : a3c2b4 
a가 3개 , c가 2개, b가 4개로 저장
code[] = {a, c, b}, len[]={ 3, 2, 4}

R
R

rleid() plot에 활용

R

data.table의 rleid()는 활용해 rle형식의 id를 만들어 주고, 이를 활용해 중복값의 시작id과 마지막id를 찾을 수 있다.

R

그래프를 그리기 위해, 중복 첫값과 마지막 값을 남긴다.

R

rleid 활용

R
R
R

Signal

R
Categories: Reshaping

onesixx

Blog Owner

guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x