bigData 데이터소스

Published by onesixx on

HDFS는 물론 HBase, PostgreSQL, MySQL, CSV, Hive

Hadoop API가 지원하는 다른 저장시스템
Hadoop(Hive, Pig, MR)
Localfile system, Amazon S3, 카산드라, Hive, HBase 등등

파일
Text file, Sequence file, 에이브로, Parquet뿐만 아니라
다른 하둡의 InputFormat이 지원하는 파일

Hive + query엔진(Impala, Tajo, SparkSQL)

Hive

https://wikidocs.net/23282

Datawarehousing용 솔루션
HDFS에 저장된 데이터의 구조를 RDB의 Table형태로 정의하고,
(SQL과 유사한) HiveQL쿼리를 통해 데이터조회하는 방법제공 SQL query engine

  • Apache Hadoop 필요
    (Apache Pig와 마찬가지로) SQL을 Maxmpduce로 변환하기 때문
  • Metadata를 관리하는 별도의 database 필요
    데몬 형태로 동작하지는 않지만, 기본 동작위해 필요
execute
  1. 사용자가 제출한 SQL문을, 드라이버가 컴파일러에 요청하여, 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴파일
  2. 컴파일된 SQL을 실행엔진으로 실행
  3. 리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행
  4. 실행 중 사용하는 원천데이터는 HDFS등의 저장장치를 이용
  5. 실행결과를 사용자에게 반환

Categories: Data Science

onesixx

Blog Owner

Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x