DE > 견고한 데이터 엔지니어링 - 4
2장. 데이터 엔지니어링 수명 주기
데이터 옵스
데이터옵스는 무엇일까? 책에서 인용한 데이터옵스에 대한 글을 가져왔다.
https://datakitchen.io/what-is-dataops/
What is DataOps? | DataKitchen
DataOps enables rapid innovation, high data quality and low error rates, strong collaboration, and clear measurement of results.
datakitchen.io
번역을 좀 한다면...
데이터옵스는 다음 사항들을 실현하는 기술 관행, 워크플로, 문화적 규범, 아키텍처 패턴의 집합이다.
- 신속한 혁신과 실험으로 고객에게 새로운 통찰력을 빠르게 제공
- 매우 높은 데이터 품질과 매우 낮은 오류율
- 인력, 기술, 환경의 복잡한 집합 전반에 걸친 협업
- 명확한 측정, 모니터링 및 결과의 투명성
이렇게 설명하고 있다.
책에서는 한가지를 더 강조하는데 데이터옵스가 문화적 습관이라고 말하고있다.
데이터 엔지니어링 팀은 비즈니스와 소통항고 협업해야하며, 지속적인 학습과 신속한 반복주기를 채택해야한다. 이러한 문화적 습관이 정착되어야 기술과 도구에서 최상의 결과를 얻을 수 있다고 한다.
데이터 옵스의 세 가지 핵심 기술 요소
자동화, 모니터링 및 관찰 가능성, 사고 대응이라는 세 가지는 데이터옵스의 핵심 기술 요소이다. 이를 조직의 성숙도에 맞추어서 책에서는 설명한다.
[자동화]
자동화를 사용하면 데이터옵스 프로세스의 신뢰성과 일관성의 보장이 가능하며, 데이터 엔지니어가 새로운 제품 기능과 개선 사항을 기존 워크플로에 신속하게 구현 가능하다고 한다. 데브옵스와 유사한 프레임워크와 워크플로를 가지며, 기술과 시스템의 신뢰성을 모니터링하고 유지한다고 한다.
데이터 엔지니어가 워크로드를 줄이고 비즈니스에 제공하는 가치를 높일 수 있는 자동화를 지속해서 구현하는 것이 핵심이다.
[관찰 가능성과 모니터링]
몇 달 또는 몇 년씩 보고서에 남아있는 잘못된 데이터를 기반으로하는 의사결정은 쉽게 발견하기 어렵다. 따라서 데이터와 데이터 생성 시스템을 재대로 관찰하고 감시하지 않으면 자신만의 데이터 공포 상황에 직면할 수 있다.
따라서 DODD 방법론에서는 데이터 엔지니어의 수명 주기에서 데이터 관찰 가능성을 최우선 고려 사항으로 삼는 데 중점을 둔다.
[사고 대응]
사고 대응이란 자동화와 관찰 가능성 기능을 사용해 사고의 근본 원인을 신속하게 특정하고 가능한 확실하고 빠르게 해결하는 것이다.
데이터 엔지니어는 기업이 문제를 보고하기 전에 미리 문제를 발견해야 한다.
데이터옵스는 선언과 기타 자원을 활용하여 데브옵스 원칙을 데이터 도메인에 적용하고, 초기 비전을 수립하는 작업을 성공적으로 수행한다. 데이터 엔지니어는 모든 업무에서 데이터옵스의 작업 우선순위를 높게 지정하는 것이 좋다고 한다.
2장은 뒤에서 나올 내용을 가볍게 가져와 설명한다. 뒷 장에서 이를 자세하게 다룰 것이다.