2장. 데이터 엔지니어링 수명 주기
데이터 엔지니어링 수명 주기의 드러나지 않는 요소
과거 데이터 엔지니어링은 단순 기술 계층에 집중했으나, 도구와 관행의 지속적인 추상화화 단순화로 인해 그 관점은 변화하게 되었다.
데이터 관리 및 비용 최적화와 같은 전통적인 엔터프라이즈 관행과, 데이터옵스와 같은 새로운 관행을 통합해 나가고 있다.
이렇게 데이터 엔지니어링 주기의 모든 측면을 지원하는 관행들을 드러나지 않는 요소라 부른다.
보안
데이터 엔지니어는 보안을 최우선으로 생각해야한다.
데이터에 접근할 수 있는 개인은 회사의 기밀 데이터와 고객을 보호할 책임이 있음을 이해해야하기에
데이터 엔지니어는 데이터와 접근 보안을 모두 이해하고 최소 권한 원칙을 실행해야한다고 책에서는 말하고 있다.
보안은 접근 타이밍과 관련이 있기에, 정확한 데이터 접근을 제공하되 해당 작업을 수행하는 데 필요한 기간 동안만 허용해야한다.
데이터 관리
데이터 관리 자체는 '구식' 관행이였으나, 최근 다시 떠오르는 듯 하다.
대기업에서만 많이 사용되던 데이터 거버넌스, 마스터 데이터 관리, 데이터 품질 관리, 메타데이터 관리등은 기업의 성숙도와 관계없이 모든 기업으로 확대되고 있다.
그럼 데이터 관리는 무엇인가? 책에서는 DMBOK에 나온 정의를 인용한다.
데이터 관리는 수명 주기 전체에 걸쳐 데이터와 정보 자산의 가치를 제공, 제어,
보호 및 향상할 계획, 정책, 프로그램과 사례를 개발, 실행 및 감독하는 것이다.
- DMBOK -
[데이터 거버넌스]
데이터 거버넌스에 대해서는 조직이 수집한 데이터의 품질, 무결성, 보안 및 사용성을 보장하기 위한 데이터 관리 기능이라고 인용하고있다.
데이터 거버넌스의 핵심 범주로 발견 가능성, 보안, 책임에 대해서 이야기한다.
- 발견 가능성: 데이터를 사용하고 검색 가능해야한다. -> 메타데이터 관리, 마스터 데이터 관리 등이 있다.
- 데이터 품질: 정확도, 완전성, 적시성의 특징을 갖는다. -> 데이터를 신뢰하게 만들어주는 것
- 데이터 책임: 데이터의 일부를 관리할 개인을 지정하는 것을 말한다.
[데이터 모델링 및 설계]
데이터를 사용 가능한 형태로 변환하는 프로세스를 데이터 모델링 및 설계라고 한다.
새로운 데이터 원천과 사용 사례의 다변화로 데이터 모델링은 더욱 어려워지고 있다.
[데이터 통합과 상호 운용성]
여러 도구와 프로세스 전반에 걸쳐 데이터를 통합하는 프로세스를 말한다.
분석에 대한 단일 스택 접근 방식에서 벗어나, 다양한 도구가 온디맨드로 데이터를 처리하려는 환경으로 전환함에 따라서 통합 및 상호 운용성은 데이터 엔지니어의 작업 범위를 더욱 넓히고 있다고 소개한다.
아직은 보안과 데이터 거버넌스등 경험해보지 못한 분야들이 많지만 데이터 엔지니어로서 발전하다보면 맞이할 내용이라 생각한다. 이러한 상황에 적극적으로 맞이하고, 공부하는 자세를 길러야겠다.
'Data Engineering' 카테고리의 다른 글
빅데이터 처리 시스템 (2) | 2024.06.12 |
---|---|
DE > 데이터 정합성 (0) | 2024.06.12 |
DE > 견고한 데이터 엔지니어링 - 2 (0) | 2024.06.09 |
DE > 견고한 데이터 엔지니어링 - 1 (0) | 2024.05.31 |
DE > 견고한 데이터 엔지니어링 - 0 (0) | 2024.05.31 |