일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ubuntu
- 프로그래머스
- mysql
- 깃
- Linux
- 정처기
- 알고리즘
- programmers
- 데이터베이스
- 자바
- 쿠버네티스
- LV 0
- 우분투
- DevOps
- Java
- 코딩테스트
- 리눅스
- Lv 2
- github
- Python
- Ai
- 자료구조
- 머신러닝
- 인공지능
- docker
- 파이썬
- db
- git
- 코테
- Kubernetes
- Today
- Total
목록Machine Learning (2)
Myo-Kyeong Tech Blog
카테고리 특징과 관련해 발생 가능한 문제 상황 불완전 어휘(Incomplete Vocabulary) 모든 가능한 카테고리 값을 미리 알기 어려운 경우 ex ) 신규 사용자 ID, 새로운 상품 코드 등 모델 크기 증가(Cadinality) 카테고리 값이 많아질수록, 모델의 크기가 커져, 메모리 사용량과 계산 시간이 증가하는 문제 콜드 스타트(Cold Start) 새로운 카테고리 값이 등장했을 때, 해당 값을 처리할 수 있는 기존 학습된 모델이 없는 경우 특징 해시 카테고리형 변수를 고정된 크기의 벡터로 변환 각 카테고리 값을 해시 함수를 통해 특정 인덱스로 매핑하고, 해당 인덱스의 값을 업데이트하여 카테고리형 특징을 벡터로 표현 불안전 어휘, 카디널리티로 인한 모델 크기, 콜드 스타트 문제를 해결 해시 함..
Label Encoder Label Encoding은 문자 데이터를 숫자로 바꾸는 가장 기본적인 방법으로 각 유니크한 문자 데이터를 숫자 값으로 매핑하는 방법입니다. 예를 들어, Red, Blue, Green 3개의 색상이 있다고 있다고 가정해봅시다. Label Encoding을 적용하면 'Red'는 0, 'Blue'는 1, 'Green'는 2와 같은 숫자로 변환됩니다. ID 색상 1 Red 2 Blue 3 Green [Label Encoder] ID 색상 1 0 2 1 3 2 from sklearn.preprocessing import LabelEncoder #데이터 colors = ['Red', 'Blue', 'Green', 'Blue', 'Red'] # LabelEncoder 객체 생성 encode..