본문 바로가기

반응형

Hive

[빅데이터를 지탱하는 기술] 1장 빅데이터의 기초 지식 얼마 전 같은 분야를 공부하는 지인에게 책을 하나 추천받았다. 데이터 엔지니어링에 대한 기초에 대해 꼼꼼하게 잘 정리된 책이라는 후기와 함께. 책 제목은 '빅데이터를 지탱하는 기술'이다. 이 책은 많은 사람들이 이제는 익숙한 '데이터 분석'에 대해 거의 다루지 않는다. 책의 저자도 '데이터 처리를 어떻게 시스템화하는가에 대한 문제'를 다룬다고 설명한다. 데이터 분석에서 80%의 시간이 데이터를 준비하는데 소요된다고 한다. 실제 현장의 목소리를 들어보면, '데이터 과학자로 입사했더니 데이터의 전처리만 주로 하고 있다.'는 하소연이 많다. '데이터 준비'라는 엔지니어링 부분을 효율화하지 않으면 데이터 분석의 수고가 사라지는 일은 없다.  책에서 인용한 위 내용처럼 데이터 분석에 있어 가장 시간이 많이 걸리는.. 더보기
[Airflow] Connection Type 신규 추가하는 방법 외부 서비스를 Airflow를 통해 이용하기 위해서 Hook을 사용하기 위해서는 그에 맞는 Connection이 먼저 등록되어야 한다. 하지만 Airflow에서 Connetion을 등록할 때 기본적으로 제공되는 Connection Type에 자신이 원하는 서비스가 존재하지 않을 수 있다. 그럴 때에는 직접 Connection Type을 추가해주어야 한다.  Connection Type 추가하기 Airflow에서 외부 서비스를 Hook으로 제공해주고 있으나 Connection Type이 없는 경우가 종종 있다. 예를 들어 HDFS와 Hive의 경우 Connection Type에 해당 서비스가 보이지 않는 점을 확인할 수 있다. Connection Type에 노출되는 외부 서비스들은 기본적으로 패키지가 설치.. 더보기

728x90