목록hashed feature (1)
Myo-Kyeong Tech Blog
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bhkyex/btsGef3Ov9a/kflXesCzF53k2EdpdzkeW0/img.png)
카테고리 특징과 관련해 발생 가능한 문제 상황 불완전 어휘(Incomplete Vocabulary) 모든 가능한 카테고리 값을 미리 알기 어려운 경우 ex ) 신규 사용자 ID, 새로운 상품 코드 등 모델 크기 증가(Cadinality) 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제 콜드 스타트(Cold Start) 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우 특징 해시 카테고리형 변수를 고정된 크기의 벡터로 변환 각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현 불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결 해시 함..
MLOps
2024. 3. 31. 03:50