huggingface 라이브러리에서 제공하는 tokenizer 결과를 정리해본다. kakaobrain의 KOGPT모델을 사용하였다.
0. Tokenizer
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16', # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'
)
1. Tokenizer 결과
tokenizer('점심메뉴 추천좀')
>>>>
{'attention_mask': [1, 1, 1, 1],
'input_ids': [29496, 15615, 3458, 7671],
'token_type_ids': [0, 0, 0, 0]}
tokenizer('점심메뉴 추천좀', '부대찌개 추천')
>>>>
{'attention_mask': [1, 1, 1, 1, 1, 1, 1],
'input_ids': [29496, 15615, 3458, 7671, 7023, 16877, 3458],
'token_type_ids': [0, 0, 0, 0, 1, 1, 1]}
tokenizer(['점심메뉴 추천좀', '부대찌개 추천'])
>>>>
{'attention_mask': [[1, 1, 1, 1], [1, 1, 1]],
'input_ids': [[29496, 15615, 3458, 7671], [7023, 16877, 3458]],
'token_type_ids': [[0, 0, 0, 0], [0, 0, 0]]}
tokenizer.encode('점심메뉴 추천좀')
>>>>
[29496, 15615, 3458, 7671]
tokenizer.encode_plus('점심메뉴 추천좀')
>>>>
{'attention_mask': [1, 1, 1, 1],
'input_ids': [29496, 15615, 3458, 7671],
'token_type_ids': [0, 0, 0, 0]}
728x90
'python 메모' 카테고리의 다른 글
[pandas] 셀의 모든 내용 출력하기 (0) | 2022.07.21 |
---|---|
[예외처리] try, except, finally (0) | 2022.07.18 |
[asyncio+aiohttp] 여러 API 비동기 호출 결과 얻기 (0) | 2022.02.10 |
[python] ProcessPoolExecutor로 분할+병렬 연산 (0) | 2022.01.17 |
[pandas] 특정 row들의 셀 병합하여 excel로 읽고 쓰기 (0) | 2021.11.19 |