sparklyr

Published by onesixx on

https://therinspark.com/intro.html – Mastering Spark with R
https://spark.apache.org

Spark란

BigData 처리를 위한 open-source 병렬분산처리 Platform
=>BigData (데이터소스로 HDFS는 물론 Hive, HBase, PostgreSQL, MySQL, CSV file…등 다양한 데이터 형태를 SparkCore에서 처리가능) 처리를 위한 open-source 병렬분산처리 Platform( 여러 component를 묶어서 Batch/SQL/Stream처리를 하는 Application을 통합적으로 처리가능하도록 구성)

https://12bme.tistory.com/432?category=682904

Spark 는 memory내에 데이터를 로드하기 때문에, disk-storage를 사용하는 Hadoop보다 빠르게 데이터를 처리할 수 있다.
network serialization, network shuffling, CPU’s cache의 효율적인 사요을 통해 성능을 향상시킬수 있고, 특히 in-memory가 아닌 large data 를 sorting하는데에는 탁월한 속도를 나타낸다.

Spark Dataset

https://12bme.tistory.com/305
https://www.slideshare.net/yongho/rdd-paper-review

Spark는 병렬분산환경을 사용자가 의식할 필요없도록 하기 위해,
RDD (Resilient Distributed Dataset: fault-tolerant , read-only 분산 데이터셋)이라는 추상적인 데이터셋을 통해, 데이터의 lineage(계보)만을 만들어두고, 필요할 때 Action을 통해 실제 데이터를 가져온다. => Lazy-excution
이미 lineage가 있고, 전체적인 Excution plan을 바탕으로 실행하기 때문에, Resource의 상태를 고려하여 최적의 코스로 데이터를 가져올수 있다.
RDD는 RAM을 ROM처럼 사용하면서, fault-tolerant하고 efficient한 RAM Storage다.

Categories: R Basic

onesixx

Blog Owner

Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x