우선 시작전에..
최대한 내용을 줄이기위해서 노력할 생각입니다.
내가 기존에 생각하지 못했던 것들, 새롭게 배우는 것들 위주로 정리하게 될 것 같습니다.
1장. 데이터 엔지니어링 상세
데이터 엔지니어링이란?
데이터 엔지니어링에 대해서 정말 다양한 정의가 있다. 당장 구글 검색만 해도 이런 결과가 나온다.
오..어디서 많이 보았는데 라고 생각했는데 책에 나온 데이터 엔지니어링에 대한 정의와 동일하다.
데이터 엔지니어링은 원시 데이터(raw data)를 가져와 분석 및 머신러닝과 같은 다운스트림 사용 사례를 지원하고, 고품질의 일관된 정보를 생성하는 시스템과 프로세스의 개발, 구현 및 유지 관리를 의미합니다.
그럼 데이터 엔지니어는..?
데이터 엔지니어는 데이터 엔지니어링 수명 주기를 관리한다.
갑자기 생소한 개념이 나왔다. 데이터 엔지니어링 수명 주기.
책에서는 데이터 엔지니어링 수명 주기를 기술에서 벗어나, 데이터 자체와 데이터가 제공해야 하는 최종 목표에 관한 논의라고 말하고있다.
- 데이터 수명 주기의 단계
- 데이터 생성
- 데이터 저장
- 데이터 수집
- 데이터 변환
- 데이터 서빙
또한 드러나지 않는 요소라는 개념을 가져오는데 다음 장을 통해서 더 많은 설명을 진행한다고 한다..
내가 생각하는 데이터 엔지니어는 무엇일까?
음.. 데이터 사용을 위한 지원가? 아무래도 이게 내 생각을 최대로 정리한 결론이다.
중간의 이동, 조작보다 결과적으로 데이터 조직에서 데이터가 사용될 수 있도록 만드는 것을 수행해야한다고 생각한다.
데이터 엔지니어링 기술과 활동
이 부분에서 가져오고 싶은 것은 데이터 성숙도와 데이터 엔지니어의 역할에 관한 부분이다.
우선 데이터 성숙도란 무엇일까?
데이터 성숙도는 조직 전체에 걸쳐 더 높은 데이터 활용률, 기능, 통합을 향해 나아가는 과정이다.
또한 단순하게 기업의 연혁이나, 매출에 따라 결정되는 것이 아니며, 초기 단계의 스타트업이 데이터 성숙도가 더 높을 수있다.
중요한 것은 데이터가 경쟁 우위로 활용되는 방식이라고 한다.
책에서는 데이터 관리 성숙도(data management maturity)와 같은 다양한 종류의 성숙도 모델이 있지만 단순화 시켜 설명한다.
데이터로 시작하기 > 데이터로 확장하기 > 데이터로 선도하기
1. 데이터로 시작하기
정말 초기의, 데이터를 시작하는 기업의 형태로 소개하고있다. 회사 내에서 데이터 아키텍처와 인프라는 계획과 개발의 초기단계이며, 팀의 규모도 대개 한 자릿수의 인원이 많다고 소개한다.
이런 시작에서 데이터 엔지니어는 어떤 일을하고, 목표는 무엇일까.
이 단계에서 데이터 엔지니어는 제너럴리스트의 성격이 강하다고 한다. 데이터 과학자나 소프트웨어 엔지니어등의 다양한 역할을 수행한다.
또한 빠르게 움직이고, 견인력을 얻고, 부가가치를 창출하는 것을 목표로 말하고있다.
2. 데이터로 확장하기
이 시점에서 데이터 엔지니어는 전문가로 전환된다고 하고있다. 이 시점에서의 목표를 소개하는데
- 공식적인 데이터 관행 수립
- 확장성 있고, 견고한 데이터 아키텍처 구축
- 데브옵스 및 데이터 옵스 관행 채택
- ML을 지원하는 시스템 구축
- 차별화되지 않은 과중한 업무를 피하고, 경쟁 우위를 확보할 때만 커스터마이징
이렇게 5가지를 소개하고있다. 하지만 이보다 중요하게 생각한 것이 바로 나오는데 주의 깊게 살펴볼 문제이다.
확장은 데이터 엔지니어링팀의 주요 병목현상이 될 수 있으며, 성숙 단계로의 전환을 위해서 다른 팀과의 소통에 힘을 쓰라는 것이다.
3. 데이터로 선도하기
기업은 이제 데이터 중심의 기업이다. 데이터 엔지니어링 역할은 더 전문화된다. 이 단계에서 데이터 엔지니어는 다음과 같은 일을 수행한다.
- 새로운 데이터의 배포와 사용을 위한 자동화 구축
- 경쟁 우위로서 데이터를 활용하는 사용자 정의 도구와 시스템 구축
- 데이터 관리와 옵스와 같은 데이터의 '기업적' 측면에 집중
- 데이터 카탈로그, 리니지 도구, 메타데이터 관리 시스템을 포함해 데이터를 조직 전체에 노출하고 전파한다.
데이터 엔지니어가 기업의 데이터 성숙도에 따라 하게되는, 생각하는 일들을 전반적으로 정리하고있다.
꽤나 다양한 영역 전반에 걸쳐서 엔지니어링이 진행되는 만큼 기업의 성장에 맞추어 데이터 엔지니어도 변화해야한다.
느낀점
1장 전반에 걸쳐서 데이터 엔지니어링이 무엇이고, 데이터 엔지니어는 어떤 역할을 수행하게되는지 많이 알게되었다.
내가 지금 하고 있는 일이 왜 하는지 알게되는 것이 중요하다고 생각한다.
책을 읽어나가면서 점점 더 깊게 이런 부분들에 대한 궁금증을 해소하면서 성장해나갈것을 기대하고있다.
'Data Engineering' 카테고리의 다른 글
빅데이터 처리 시스템 (2) | 2024.06.12 |
---|---|
DE > 데이터 정합성 (0) | 2024.06.12 |
DE > 견고한 데이터 엔지니어링 - 3 (0) | 2024.06.11 |
DE > 견고한 데이터 엔지니어링 - 2 (0) | 2024.06.09 |
DE > 견고한 데이터 엔지니어링 - 0 (0) | 2024.05.31 |