[Hadoop] MapReduce 프로그래밍이란?

728x90

MapReduce 프로그래밍은 기본적으로 빅 데이터 처리를 위해 만들어졌기 때문에, 일반 데이터 처리와는 다른 특징이 있다. 큰 특징은 아래와 같다.

데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) - 포맷은 하나로 고정
데이터 조작은 map과 reduce 2개의 오퍼레이션으로만 가능
- 이 2개의 오퍼레이션은 항상 하나의 쌍으로 연속 실행
- 이 두 오퍼레이션 코드를 개발자가 채워야 함
MapReduce 시스템이 Map의 결과를 Reduce단으로 모아줌
- 위 단계를 셔플링이라고 부르며, Network단을 통한 데이터 이동이 발생
- Map의 결과 중 key가 같은 것을 모아주고 Reduce로 보냄

Map: (k, v) --> [(k', v')*]

Reduce: (k', [v1', v2', v3', v4' ...]) --> (k", v")

예시: WordCount

MapReduce로 단어를 세는 프로그램을 작동시켜본다고 가정하면, 위와 같은 흐름으로 나타난다.

728x90

[Spark/Hive] Spark에서 Hive 메타 스토어 사용하기 (0)	2024.12.02
[Spark/pySpark] SparkSQL UDF(User Define Function) (0)	2024.12.02
[Spark] Spark의 개념, 구조, 프로그램 실행 옵션 (2)	2024.11.28
[Hadoop] 하둡의 분산처리 시스템, YARN 개념 정리 (0)	2024.11.28

티스토리툴바