| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- ubuntu
- 쿠버네티스
- Lv 2
- 데이터베이스
- mysql
- Linux
- 프로그래머스
- 알고리즘
- Java
- DevOps
- Kubernetes
- 정처기
- Python
- 자료구조
- 리눅스
- github
- programmers
- 머신러닝
- 코테
- 파이썬
- LV 0
- Ai
- MLOps
- 자바
- 우분투
- docker
- git
- 인공지능
- 코딩테스트
- db
- Today
- Total
목록MLOps (5)
Myo-Kyeong Tech Blog
실험과 실험 관리실험(Experiment) :데이터를 사용해 모델을 학습하고 성능을 평가하는 과정예 : 특정 데이터셋으로 모델을 학습시킨 뒤 Accuracy를 확인하는 것실험 관리 (Experiment Management) :여러 실험의 결과와 설정을 기록·추적·비교·재현할 수 있도록 체계적으로 관리하는 것왜 필요할까?"어제 돌린 코드가 제대로 학습 끝났나?""가장 성능이 좋았던 모델은 어떤 파라미터를 썼더라?"=> 이런 질문에 바로 답할 수 있도록 만드는 게 목적관리해야 할 정보데이터(Data) : 어떤 데이터셋을 사용했는가 (예: data.csv)코드 (Code) : 어떤 알고리즘/프레임워크를 사용했는가 (예: scikit-learn)파라미터(Parameters) : 모델 하이퍼파라미터 값들 (예 :..
같은 데이터를 넣었는데도 매번 다른 모델이 나온다? MLOps에서 가장 골치 아픈 문제 중 하나는 바로 모델 재현성이다. 모델 재현성이 왜 중요한가?모델 재현성이란?같은 데이터를 사용하고, 같은 코드를 실행했을 때 언제나 같은 모델 결과가 만들어지는 것을 의미하지만 같은 데이터를 쓰더라도 실행 환경(Environment) 이 조금이라도 달라지면 모델 결과가 달라진다. [모델을 만드는 소프트웨어 4가지 요소]데이터 (Data)패키지 (Library / Package)코드 (Code)파라미터 (Parameter)이 네 가지가 모두 동일해야 같은 모델을 재현할 수 있다. 그중에서도 특히 환경(Environment) 을 철저히 통제하지 않으면=> 같은 데이터를 넣어도 서로 다른 모델이 만들어질 수 있다. 모..
MLOps란?MLOps = Machine Learning + Operations쉽게 말해, 머신러닝 모델을 잘 만들고, 잘 배포하고, 잘 관리하기 위한 방법과 도구머신러닝은 단순히 모델만 만든다고 끝이 아니라 서비스로 운영하려면 유지·보수, 실험 관리, 오류 대응이 필수적인데 이러한 모든 과정을 자동화·체계화 한것이 MLOps 입니다! 머신러닝 모델의 특징과 MLOps가 필요한 이유머신러닝 모델 특징 - 1. 같은 코드라도 데이터가 다르면 모델이 달라진다.똑같은 머신러닝 모델을 쓰더라도 어떤 데이터를 학습시키느냐에 따라 완전히 다른 모델이 만들어짐예를 들어 Object Detection 알고리즘을 쓰더라도의료 영상 데이터 => 종양 탐지 AI도로 영상 데이터 => 차량 탐지 AI 이렇게 데이터가 바뀌면..
애드혹(ad-hoc approach) 접근 방식의 문제점 애드혹 (ad-hoc) 접근 방식 특정 문제를 해결하기 위해 임시적으로 취하는 방법으로 일회성 모델 개발이나 학습에 한해 적합 ML 프로젝트에서 "그때 그때 필요에 따라" 특징 생성 초기 단계나 작은 규모의 프로젝트에서는 효과적일 수 있지만, 조직이 성장하고 프로젝트가 복잡해짐에 따라 관리가 어려워지고 비효율적 개별 사용자나 팀이 만든 feature는 다른 팀이나 프로젝트에서 재사용하기 어려움 각 ML 프로젝트가 민감한 데이터 특징을 다르게 계산하면, 데이터 거버넌스 측면에서 문제가 생길 수 있음 예를 들어, 두 개의 다른 팀이 각각 고객의 신용 점수를 다른 방식으로 계산할 경우, 이 두 점수가 실제로 어떤 의미를 가지는지 일관성이 결여되어 신뢰할..
카테고리 특징과 관련해 발생 가능한 문제 상황 불완전 어휘(Incomplete Vocabulary) 모든 가능한 카테고리 값을 미리 알기 어려운 경우 ex ) 신규 사용자 ID, 새로운 상품 코드 등 모델 크기 증가(Cadinality) 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제 콜드 스타트(Cold Start) 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우 특징 해시 카테고리형 변수를 고정된 크기의 벡터로 변환 각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현 불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결 해시 함..