[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick)

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

GitHub

Tags more

Archives

Today

Total

관리 메뉴

Myo-Kyeong Tech Blog

[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick) 본문

MLOps

[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick)

myo-kyeong 2024. 3. 31. 03:50

728x90

카테고리 특징과 관련해 발생 가능한 문제 상황

불완전 어휘(Incomplete Vocabulary)
- 모든 가능한 카테고리 값을 미리 알기 어려운 경우
- ex ) 신규 사용자 ID, 새로운 상품 코드 등
모델 크기 증가(Cadinality)
- 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제
콜드 스타트(Cold Start)
- 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우

특징 해시

카테고리형 변수를 고정된 크기의 벡터로 변환
각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현
불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결
- 해시 함수를 사용함으로써, 사전에 정의되지 않은 새로운 입력값도 처리 가능
- 수천 개의 고유한 카테고리를 가지고 있더라도 해시 함수는 고정된 크기의 벡터로 매핑하기 때문에 모델의 메모리 사용량이 크게 줄어듬

https://www.youtube.com/watch?v=Uv9dY6Obv-s

장단점 및 트레이드오프

장점
- 모델 크기의 효율적인 관리 가능
- 새로운 카테고리 값에 대한 유연한 처리
- 불완전한 어휘 문제 해결
단점(트레이드오프)
- 해시 충돌(서로 다른 카테고리 값이 같은 인덱스에 매핑될 수 있음)로 인한 정보 손실 가능성
- 해시 충돌로 인한 모델 성능 저하 가능성
  - 해시 충돌의 영향을 최소화하기 위해, 충분한 벡터 크기를 선택하거나, 더 나은 해시 함수를 사용할 것
  - 버킷 수를 하이퍼파라미터로 취급하여 최적의 버킷 수 선택하기

REFERENCE

728x90

저작자표시 비영리 동일조건

'MLOps' 카테고리의 다른 글

[Machine Learning] 머신러닝 디자인 패턴 : 특징 저장소 (Feature Store) (0)	2024.04.22

'MLOps' Related Articles

[Machine Learning] 머신러닝 디자인 패턴 : 특징 저장소 (Feature Store) 2024.04.22

more

티스토리툴바