일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 코테
- 리눅스
- 데이터베이스
- 쿠버네티스
- db
- 코딩테스트
- 머신러닝
- 프로그래머스
- 우분투
- 정처기
- Python
- git
- Kubernetes
- DevOps
- LV 0
- 자료구조
- 자바
- Lv 2
- mysql
- 깃
- docker
- programmers
- github
- 인공지능
- 파이썬
- ubuntu
- Ai
- Java
- Linux
- 알고리즘
Archives
- Today
- Total
Myo-Kyeong Tech Blog
[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick) 본문
728x90
반응형
카테고리 특징과 관련해 발생 가능한 문제 상황
- 불완전 어휘(Incomplete Vocabulary)
- 모든 가능한 카테고리 값을 미리 알기 어려운 경우
- ex ) 신규 사용자 ID, 새로운 상품 코드 등
- 모델 크기 증가(Cadinality)
- 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제
- 콜드 스타트(Cold Start)
- 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우
특징 해시
- 카테고리형 변수를 고정된 크기의 벡터로 변환
- 각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현
- 불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결
- 해시 함수를 사용함으로써, 사전에 정의되지 않은 새로운 입력값도 처리 가능
- 수천 개의 고유한 카테고리를 가지고 있더라도 해시 함수는 고정된 크기의 벡터로 매핑하기 때문에 모델의 메모리 사용량이 크게 줄어듬
장단점 및 트레이드오프
- 장점
- 모델 크기의 효율적인 관리 가능
- 새로운 카테고리 값에 대한 유연한 처리
- 불완전한 어휘 문제 해결
- 단점(트레이드오프)
- 해시 충돌(서로 다른 카테고리 값이 같은 인덱스에 매핑될 수 있음)로 인한 정보 손실 가능성
- 해시 충돌로 인한 모델 성능 저하 가능성
- 해시 충돌의 영향을 최소화하기 위해, 충분한 벡터 크기를 선택하거나, 더 나은 해시 함수를 사용할 것
- 버킷 수를 하이퍼파라미터로 취급하여 최적의 버킷 수 선택하기
REFERENCE
728x90
반응형
'MLOps' 카테고리의 다른 글
[Machine Learning] 머신러닝 디자인 패턴 : 특징 저장소 (Feature Store) (0) | 2024.04.22 |
---|