중복 duplicated, rleid
duplicated(), Unique()
항상 가장 위에 있는 것만 남김.
따라서, 잘 정렬후 중복을 삭제할 필요가 있음.
duplicated() 한계
unique()나 duplicated()는 중복을 제거하는데 유용하지만,
연속된(consecutive) 중복값을 제거하는데 사용할 수 없다.
순서가 있는 경우는 duplicated()도 유용하게 사용된다.
rleid() :: run length encoding id
run-length 형태의 group id
rle는 (잘 사용되진 않지만) 압축방법중, 같은값이 연속될때 그 반복수와 반복되는 값만으로 표현하는 방법.
– 원래 문자열 : (“a”,”a”,”a”,”c”,”c”,”b”,”b”,”b”,”b”)
– 압축 문자열 : a3c2b4
a가 3개 , c가 2개, b가 4개로 저장
code[] = {a, c, b}, len[]={ 3, 2, 4}
rleid() plot에 활용

data.table의 rleid()는 활용해 rle형식의 id를 만들어 주고, 이를 활용해 중복값의 시작id과 마지막id를 찾을 수 있다.
그래프를 그리기 위해, 중복 첫값과 마지막 값을 남긴다.


rleid 활용