Myo-Kyeong Tech Blog

[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick) 본문

MLOps

[Machine Learning] 머신러닝 디자인 패턴 : 특징 해시(Hashing Trick)

myo-kyeong 2024. 3. 31. 03:50
728x90
반응형

카테고리 특징과 관련해 발생 가능한 문제 상황

  • 불완전 어휘(Incomplete Vocabulary) 
    • 모든 가능한 카테고리 값을 미리 알기 어려운 경우
    • ex ) 신규 사용자 ID, 새로운 상품 코드 등
  • 모델 크기 증가(Cadinality) 
    • 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제
  • 콜드 스타트(Cold Start)
    • 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우 

 

특징 해시

  • 카테고리형 변수를 고정된 크기의 벡터로 변환
  • 각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현
  • 불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결
    • 해시 함수를 사용함으로써, 사전에 정의되지 않은 새로운 입력값도 처리 가능
    • 수천 개의 고유한 카테고리를 가지고 있더라도 해시 함수는 고정된 크기의 벡터로 매핑하기 때문에 모델의 메모리 사용량이 크게 줄어듬

 

 

장단점 및 트레이드오프

  • 장점
    • 모델 크기의 효율적인 관리 가능
    • 새로운 카테고리 값에 대한 유연한 처리
    • 불완전한 어휘 문제 해결
  • 단점(트레이드오프)
    • 해시 충돌(서로 다른 카테고리 값이 같은 인덱스에 매핑될 수 있음)로 인한 정보 손실 가능성
    • 해시 충돌로 인한 모델 성능 저하 가능성 
      • 해시 충돌의 영향을 최소화하기 위해, 충분한 벡터 크기를 선택하거나, 더 나은 해시 함수를 사용할 것
      • 버킷 수를 하이퍼파라미터로 취급하여 최적의 버킷 수 선택하기

 


 

REFERENCE

728x90
반응형