요약
2021년 10월 16일에 있었던 데이터야놀자에서 데이터 엔지니어링 관련해서 많은 정보를 주고 받을 수 있었다. 가장 크게 얻은 교훈은 데이터 엔지니어링 분야는 마치 연구 분야와도 같다는 것이다.
머신러닝 유니버스를 여행하는 히치하이커를 위한 데이터 팀이 AWS 위에서 Kubernetes를 활용하는 법
첫 번째로 들었던 트랙에서는 쿠버네티스를 알뜰하게 활용하며 효율적 운영을 보여줬던 트랙으로 박훈님이 진행하셨었다.
진행 자료도 보면 알겠지만 정말 잘 준비해오셨다.
사실 쿠버네티스는 어떻게 보면 피할 수 없는 부분인 것 같다. 회사에서도 단순히 EC2 위에 에어플로를 띄워서 사용하고 있지만 앞으로는 더 많은 어플리케이션을 운영해야 하는 입장에서 피할 수 없다고 생각했던 것 같다. 특히 이전에는 AWS MWAA 와 같은 서비스도 고려했었지만 커스터마이징의 한계 등 때문에 기피를 했었는데 이제는 EKS 에 띄워서 운영해야 하겠다는 생각도 든다.
김종민님의 <꺼진 데이터도 다시보자 Dynamic Mapping의 함정>
두 번째로 들었던 트랙에서는 사실 ElasticSearch 를 그렇게 활용해보지 못한 입장에서 맥락을 파악하기가 조금은 힘들었다. 물론 발표에 대한 이해는 별도로 다이나믹 매핑과 매핑 설정 (true, false, strict) 등, 그리고 BKD 에 대해서 얘기하는 것은 이해가 되었다. 쉽게 말해 문서를 저장할 때 해당 문서들을 연계한 Inverted Document 나 통계형 수치 등과 연관되어 있다는 것을 알게 되었을 때 흥미가 더 생겼다.
Elastic 은 사이드 프로젝트에서 사용할까도 생각중에 있는데 이러한 상세한 부분에 대해서 알게 되어 흥미로웠다.
스몰톡
두 트랙 정도 후에 게더 브레이크라는 것이 있어서 스몰 토크를 하러 데이터 엔지니어링 방에 들어갔었다. 이 방에서는 사람들이 그다지 많지 않아서 조금 쉽지 않았지만 그래도 몇마디를 나눌 수 있었는데, 나는 구체적인 해결책을 요구하는 질문들을 던졌던 것 같다.
에어플로와 레드시프트를 쓰는 입장에서 얘기를 하고 싶었지만 대부분의 엔지니어분들도 나와 비슷하게 해답을 찾으러 돌아다니셨던 것 같다.
당근 부스
간단하게 돌아다니다가 다른 회사들의 데이터 엔지니어링은 어떻게 진행되고 있는지 궁금해서 당근마켓 부스로 향했다.
여기에서는 내가 고민했던 것들에 대해서 얘기를 했지만 사실 나중에는 전 구글 현 스타트업에서 일하시는 분이 오셔서 하시는 대화를 주로 들었다.
바로 나가지 않았던 만큼 대화는 흥미로웠고 그 분도 스타트업에서 홀로 데이터 엔지니어링 작업을 하고 계셔서 뭔가 친밀감을 느꼈다. 동변상련이라고 하나... 어쨌든 당근마켓 부스에서 많은 대화가 오갔고 나는 그 자리에서 계속 듣는 시간마다 당근마켓은 데이터 팀을 많이 밀어주고 있다는 느낌을 받았다. 비용 측면도 걱정이 별로 없다는 말을 듣고서 참 좋은 근무 환경이다 싶었다.
또한 당근마켓은 MSA (MicroService Architecture) 로 AWS 를 주로 이용해서 서비스를 제공하지만 데이터 엔지니어링에서는 GCP 의 BigQuery 를 주로 사용하기 때문에 이원화된 클라우드로 작동한다는 것을 알게 되었다. 이원화된 클라우드를 사용하는 이유와 관리를 어떻게 하는지 등 다양한 것이 궁금했고 당근마켓 분들의 BigQuery 찬양(?)을 들으면서 나도 회사의 데이터 엔지니어링 기술을 그쪽으로 옮길까 생각도 했다.
들어보니까 AWS Athena 나 Redshift, Quicksight 등이 제공하는 것보다 훨씬 더 많은 편의와 성능이 존재하고 전사 공유가 가능하다는 등의 다양한 기능들이 있어서 '아 이래서 BigQuery 를 사용하는구나' 싶었다.
이외에도 권한 문제, 쿼리 Quota 등 정말 내가 관심 있는 분야들에 대해서 대화를 나눠서 좋았고 나중에는 스타트업 다니시는 분에게 어떻게 스스로 동기부여를 하며 일을 하는지도 여쭤봤다. 그 분이 말씀하시는 것 중 가장 인상 깊었던 것 하나는 AWS Pacemaker 라는 것을 통해 인사이트도 많이 얻게 되고 도움도 많이 받게 되었다고 하셔서 거기에 대해서도 알아보고 나도 볼까 생각중이다.
결론
사실 데이터야놀자를 참가하기 전에 마음이 많이 힘들었던 것 같았다. 뭔가 내가 올바른 길로 가는지, 회사의 시간과 리소스를 낭비하고 있지는 않은지, 커리어적으로 진행이 잘 되고 있는지 등 수많은 고민들과 많이 예민했던 기분이 들었다. 멘탈도 흔들리고 자신감도 떨어지며 일하는 날이 무서웠다.
하지만 이번에 다양한 의견을 듣고 현업에서 데이터 엔지니어링 하시는 분들의 얘기들을 들으면서 데이터 체계를 구축하는 것은 '답이 없구나' 라는 것을 깨닫게 되었다. 그동안 나는 엔지니어링 업무를 하면서 뭔가 완벽한 기준에 부합하는 인프라를 만들고 싶었던 욕심이 있었고 이를 위해서 많은 것을 시도해봤다. 이제 돌이켜보니 그것은 말 그대로 지나친 욕심이였고 새로 개척해나가는 일이 필요한 것 같다. 다양한 기술을 쓰며 화려한 기술들을 종합하고 사용하는 것이 중요한 게 아니라 정말 현 상황에 필요하며 최종 사용자를 고려하고 사람들에게 데이터의 의미를 알릴 수 있는 것도 중요하다고 느꼈다.
'Random Thoughts' 카테고리의 다른 글
Educational Data (0) | 2022.06.01 |
---|