bigData 데이터소스

Published by onesixx on 20-04-1820-04-18

HDFS는 물론 HBase, PostgreSQL, MySQL, CSV, Hive

Hadoop API가 지원하는 다른 저장시스템
Hadoop(Hive, Pig, MR)
Localfile system, Amazon S3, 카산드라, Hive, HBase 등등

파일
Text file, Sequence file, 에이브로, Parquet뿐만 아니라
다른 하둡의 InputFormat이 지원하는 파일

Hive + query엔진(Impala, Tajo, SparkSQL)

Hive

https://wikidocs.net/23282

Datawarehousing용 솔루션
HDFS에 저장된 데이터의 구조를 RDB의 Table형태로 정의하고,
(SQL과 유사한) HiveQL쿼리를 통해 데이터조회하는 방법제공 SQL query engine

Apache Hadoop 필요
(Apache Pig와 마찬가지로) SQL을 Maxmpduce로 변환하기 때문
Metadata를 관리하는 별도의 database 필요
데몬 형태로 동작하지는 않지만, 기본 동작위해 필요

execute

사용자가 제출한 SQL문을, 드라이버가 컴파일러에 요청하여, 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴파일
컴파일된 SQL을 실행엔진으로 실행
리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행
실행 중 사용하는 원천데이터는 HDFS등의 저장장치를 이용
실행결과를 사용자에게 반환

Categories: Data Science

onesixx

Blog Owner

Subscribe

0 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

Category Search…

0

Would love your thoughts, please comment.x

()