Roles and Responsibilities
- 온프레미스 환경에서 머신러닝 모델 학습 파이프라인 설계 및 운영
- Kubeflow, MLflow, Airflow 등을 활용한 엔드투엔드 MLOps 워크플로우 구축
- NVIDIA DGX 서버 환경 구축 및 GPU 리소스 모니터링/스케줄링/최적화
- Jenkins, Harbor 기반의 모델 이미지 자동화 빌드 및 배포 파이프라인 운영
- ML 실험 관리 및 재현 가능한 학습 환경 제공
- 데이터팀, AI팀과 협업하여 모델 학습 환경의 표준화 및 고도화
- 모델 추론 성능, 리소스 사용률 등을 기반으로 한 시스템 운영 최적화
- 온프레미스 기반 MLOps 환경의 신뢰성 확보 및 장애 대응
- 관련 인프라 및 운영 정책에 대한 문서화 및 기술 리뷰
Basic Qualifications
- Python을 활용한 자동화 및 운영 경험 (필수)
- Kubernetes 환경 운영 경험 (필수)
- ML 모델 학습/서빙/배포 전반에 대한 이해 및 실무 경험
- Kubeflow, MLflow, Airflow 등 MLOps 도구 실무 경험
- Harbor 이미지 레지스트리 운영 경험
- NVIDIA GPU 서버(DGX 등) 운영 경험 및 CUDA/딥러닝 프레임워크 사용 환경 이해
- 다양한 팀과의 협업 및 기술 의사소통 능력
Preferred Qualifications
- ML/DL 모델 서빙 환경 구성 경험 (ONNX, Triton Inference Server 등)
- 리소스 최적화를 위한 GPU 스케줄링, 멀티 GPU 분산 학습 경험
- ML 실험/데이터/버전 관리 경험 및 효율적 관리 체계 도입 경험
- MLOps 관련 기술 블로그 운영, 오픈소스 기여, 기술 세미나 발표 등 외부 활동 경험
- 보안, 인증, 리소스 접근 제어 등 온프레미스 AI 환경 보안 구성 경험
Benefits and Perks
- 유연한 근무 시간
- 중식 지원 및 간식바 상시 운영
- 생일 선물 제공
- 경조비 및 경조휴가 제공
- 아늑한 마사지 의자 운영
- 모션데스크 지원 및 개인맞춤 업무장비 Credit 제도 운영
- 수면 캡슐
- 연간 무료 건강검진
- 업무 관련 도서 구매 지원