Data Imbalance

Toy Projects

[문서분류 PoC] Long Document & Class Imbalance

문서분류 task와 관련해서 진행한 내용을 정리하고자 한다. 0. Task 정의 Task는 다음과 같았다. Long Document: 길이가 긴 문서 상황에서 효과적인 모델 찾기 Class Imbalance: class 분포가 극도로 불균형한 상황에서의 성능향상 기법 1) Long Document PoC에서 다루었던 문서의 길이는 매우 긴편이었다. mecab 기준 평균 2,500 token이 넘었으며 길면 20,000 token도 넘는 문서가 있었다. 2) Class Imbalance 다루었던 문서는 총 4개의 label이 있었으며 label별 class들의 분포가 매우 불균형한 데이터였다. 1. Long Document에 대한 효과적인 모델 찾기 첫번째 task를 위해서 총 3가지 모델을 비교하였다. ..

Fine애플
'Data Imbalance' 태그의 글 목록