본문 바로가기
취업

[취업특강] Data Engineer 현직자 특강 후기

by 포 키 2024. 4. 1.
728x90

오랜만에 들고온 취업 특강으로 이번에도 취업 특강으로 희귀했던 데이터 엔지니어 강의를 가져왔다!

요즘 취업문이 너무 좁은 탓에 대기업 공채 외에는 신입의 자리가 거의 나지 않는 경우다보니 생각이 많아지는 것 같다.

올해는 다른쪽으로 일을 하면서 공모전입상과 영어 공부를 좀 더 해서 내년을 노리는게 맞을까 하는 생각에 여러방면으로 취업을 생각하고 있다.

이번 특강을 통해서 어떻게 목표를 성취하는 길을 선택할지 조금 고민해보는 시간을 가지려 한다.

 

 

0. 특강 소개

강의 시간은 20분이 안되며, 데이터 사이언티스트에서 데이터 엔지니어로 직무를 전환하신 강사님께서 진행해주셨다.

아래의 링크를 눌러 메타코드 사이트에서 로그인을 해주고 강의 영상 카테고리 > 커리어 정보에서 바로 신청하면 된다.

(현재 유료)

https://mcode.co.kr/

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

 

1. 내용 요약

 

데이터 엔지니어란?

 

데이터 엔지니어는 데이터를 정의하고, 수집,정제 및 저장부터 요약하고 분석하는 역할을 수행한다고 한다.

ML 엔지니어와의 차이점은 ML 엔지니어의 경우 데이터 엔지니어의 업무 + 머신러닝과 관계된 데이터의 정의, 수집 및 모델 인퍼런스에 관련된 일을 더 중점으로 수행한다고 한다.

결론적으로 데이터 엔지니어는 방대한 데이터로 AI/ML을 하는 분들이 데이터로 인사이트를 만드는 것을 돕는 사람이다.

 

 

데엔 VS AI/ML

 

강사님의 경우 AI/ML 모델을 만드는 직무에서 데이터 엔지니어로 전향을 하셨다고 했다.

데이터 엔지니어가 필요한 것은 CS지식이 많이 필요한 직군이라고 했다.

데이터의 양이 방대해서 생각지 못한 문제가 자주 발생하기 때문에 플랫폼 사용 방법 정도만 알아서는 해결하지 못하는 문제가 많다고 한다.

그래서 CS지식이 찬찬하면 문제 해결 능력이 오르기 때문에 중요하고, 시스템 문제 해결 능력 역시 시스템 적 아키텍쳐를 설계하는 능력이 굉장히 많이 필요하기 때문이라 한다.

AI/ML은 트렌드를 빠르게 따라가는 능력이 중요하기에 최신 논문을 빠르게 도파하는게 필요하다.

 

 

데엔, 데사 장단점

 

데이터 엔지니어의 경우 일정을 세우고 일하는 것이 용이하며, 데이터 사이언티스트의 경우 모델을 만들려고 해도 어느 일정까지 이 성능을 달성할 수 잇을 것인지 장담하기가 힘든 것이 있다.

데이터 엔지니어의 단점은 장애 상황이 많이 일어나는데 밤새 데이터를 수집하다가 장애가 발생하는 경우가 빈번하게 일어나며, 데이터 사이언티스트의 경우 장애로 부터는 자유로우며, 작업을 논문으로 남길수 있다는 전제하에 성취감까지가 장점이 된다.

 

 

내게 맞는 직무를 고민할 때

 

강사님의 경우를 풀어서 작성해보려 한다.

AI/ML 직무를 수행하며 성과가 나올지를 장담할 수 없는 상황에 야근도 많이 하게되며 스트레스가 크셨다고 한다.

그래서 급부상중인 AI/ML보단 선호도가 적은 데이터 엔지니어로 전향하게 되었고, 긴 기간동안 실험으로 보내게 되는 시간이 답답하게 느껴져서 서비스가 나오는 과정을 겪고 싶어서 엔지니어를 택했다고 한다.

 

 

데이터 엔지니어 로드맵

 

하둡, 스파크 등과 같은 빅데이터 플랫폼을 사용해서 하는 일은 크게 데이터를 수집하는 것과 데이터를 저장하고 처리하는 것이다.

그래서 각각의 하는 일마다 어떤 것을 공부해야하는지 정리해볼 수 있는데, 예를 들자면 수집쪽이면 데이터를 어디에 저장할지, DB는 어떤것을 쓸지 특정 데이터에는 어떤 DB가 적합한지 등을 공부하면 좋고, 스트리밍 데이터나 엘라스틸 서치 등을 어떻게 처리할지 로그 처리 같은 것들도 공부하면 된다고 한다.

저장의 경우 API 호출 등으로 스파크, 맵리듀스 등의 플랫폼에서 사용하는 처리 방법을 공부하면 좋다고 했다.

 

 

⭐면접전 체크할 부분⭐

 

하둡 시스템의 각 요소의 기능들을 이야기할 수 있는지, 분산처리 과정은 어떻게 진행이 되는지, 하둡 파일 시스템을 알고 있는지, 카푸카 구조에 대해 알고 있는지, 로그 스텟 장단점을 이야기 할 수 있는지 등등 위의 캡쳐 내용들을 기반으로 내가 알고 있는점을 정확하게 파악하고 그걸 기반으로 부족한 점을 채우고 면접을 준비해나가면 된다고 한다.

데이터 엔지니어가 어떤 공부를 필수적으로 해야할지에 대해 정확히 짚어주신 것 같다 도움이 많이 될 것 같다.

 

 

포트폴리오?

 

데이터 엔지니어는 포트폴리오를 만들기 어려운 직군이라고 생각하셨다.

강사님의 경우 직무 변경을 한 케이스여서 신입이 만드는 포트폴리오를 만드시지 않으셨다고 했는데,

신입의 입장에서 포트폴리오를 어떻게 만들어야할지에 대해 고민을 해봤을 때, 굉장히 어렵다고 생각하셨다.

결론은 빅데이터 플랫폼을 사용해본 경험보단 데이터셋을 정해서 주식 데이터를 처리해서 카푸카를 사용해서 데이터를 어떤 처리를 했고 서빙을 해서 서비스를 제공하고 파이프라인을 설계하고 구현해보는 것을 추천하셨다.

 

 

면접준비

 

경력직인 경우에는 지금까지 해온 프로젝트에서 문제 해결이 가장 중요하고, 빅데이터 플랫폼을 사용해봤다면 해당 플랫폼에 대한 질문이 많을 것이라 했다.

신입으로 지원을 한다면 CS지식이 더 중요하고 더 깊이 물어보는 경우가 많다고 한다.

데이터 엔지니어로의 질문의 경우 시스템상의 문제가 발생했을 때 어떻게 해결할지 위주로 질문을 생각해보는 것을 추천하셨다.

 

 

문제해결방법 예시1

 

대용량 데이터를 마이그레이션 해갸하는 상황이라고 가정했을 때, 회사 내의 3개의 팀에서 각 데이터를 보관중이고 이 데이터를 한군데로 합치려 한다.

각 팀에서 가진 데이터가 겹치기도, 안겹치기도 하는 중구난방인 상황에서 데이터 마이그레이션에 필요한 기간은 정해졌고, 효율적으로 데이터를 마이그레이션 할 수 있는 방법을 찾고자 하는데 이때 어떤 플랫폼을 사용해서 데이터를 전송할 것 같은지를 생각해보면 좋으며, 공통 필드는 덮어쓰기 여부도 확인하고 지원되지만 하고싶지 않을 경우 어떻게 해야할지에 대해 생각해보면 좋다고 했다.

 

 

예시2

 

데이터 스키마에 리스트가 포함되어 리스트 내에서 필요한 데이터를 찾는 로직을 수행해야되는 경우가 있는데 이 때, 데이터를 훑으며 하나씩 다 찾아봐야하는 로직인 경우 데이터 처리 시간을 단축할 수 잇는 방법이 있을지에 대한 질문도 나올 수 있으며, 리스트에 있는 데이터를 소팅해서 빠르게 찾을 수 있는 방법이 있을 것이고 매번 소팅을 해야하면 해도 되는지 사전 체크가 필요하며 사전 체크를 해야할 경우 리스트에 들어가는 데이터에 붙일 수 잇다면 키에 해당하는 헤더를 붙여서 소팅을 빠르게 한다거나 매번 찾을 때마다 소팅할 필요없이 데이터를 넣을 때부터 헤더를 붙여서 소팅을 해서 넣거나 아예 리스트를 사용할 필요없이 다른 데이터 스키마를 설계해보는 연습을 하면 도움이 될 것이라 했다.

 

 

2. 수강 후기

작성한 내용 외에도 추가로 한가지의 예시도 더 있고 데이터 엔지니어로의 커리어를 선택해서 배울점이 무엇인지에 대한 본인이 선택해야하는 방향에 어떤 것으로 결정을 할 수 있다는 조언같은 내용도 함께 존재했다.

이 부분은 직접 강의를 들어보고 와닿는것이 중요할 것으로 보여서 따로 가져오지 않았다.

 

추천 여부

특강의 시간은 매우 짧지만 내용은 못지않게 알찬 구성이라고 생각한다.

데이터 엔지니어로의 직무에 대해 이전 특강과는 다르게 짚어주는 부분이 있었고, 경험에 의거한 내용이 많다보니 참고할 수 있는 깊이와 갈래가 다르게 와닿았어서 이 강의는 데이터 엔지니어를 준비하는 사람들에게 추천할만한 강의였다고 생각한다.

728x90