python 메모

[transformers] tokenizer 결과

2022. 4. 4. 16:31
목차
  1. 0. Tokenizer
  2. 1. Tokenizer 결과

huggingface 라이브러리에서 제공하는 tokenizer 결과를 정리해본다. kakaobrain의 KOGPT모델을 사용하였다.

 

0. Tokenizer

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM 

tokenizer = AutoTokenizer.from_pretrained(
  'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16',  # or float32 version: revision=KoGPT6B-ryan1.5b
  bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'
)

 

1. Tokenizer 결과

tokenizer('점심메뉴 추천좀')

>>>>
{'attention_mask': [1, 1, 1, 1],
 'input_ids': [29496, 15615, 3458, 7671],
 'token_type_ids': [0, 0, 0, 0]}
tokenizer('점심메뉴 추천좀', '부대찌개 추천')

>>>>
{'attention_mask': [1, 1, 1, 1, 1, 1, 1],
 'input_ids': [29496, 15615, 3458, 7671, 7023, 16877, 3458],
 'token_type_ids': [0, 0, 0, 0, 1, 1, 1]}
tokenizer(['점심메뉴 추천좀', '부대찌개 추천'])

>>>>
{'attention_mask': [[1, 1, 1, 1], [1, 1, 1]],
 'input_ids': [[29496, 15615, 3458, 7671], [7023, 16877, 3458]],
 'token_type_ids': [[0, 0, 0, 0], [0, 0, 0]]}
tokenizer.encode('점심메뉴 추천좀')

>>>>
[29496, 15615, 3458, 7671]
tokenizer.encode_plus('점심메뉴 추천좀')

>>>>
{'attention_mask': [1, 1, 1, 1],
 'input_ids': [29496, 15615, 3458, 7671],
 'token_type_ids': [0, 0, 0, 0]}
728x90
저작자표시 비영리 변경금지 (새창열림)

'python 메모' 카테고리의 다른 글

[pandas] 셀의 모든 내용 출력하기  (0) 2022.07.21
[예외처리] try, except, finally  (0) 2022.07.18
[asyncio+aiohttp] 여러 API 비동기 호출 결과 얻기  (0) 2022.02.10
[python] ProcessPoolExecutor로 분할+병렬 연산  (0) 2022.01.17
[pandas] 특정 row들의 셀 병합하여 excel로 읽고 쓰기  (0) 2021.11.19
  1. 0. Tokenizer
  2. 1. Tokenizer 결과
'python 메모' 카테고리의 다른 글
  • [pandas] 셀의 모든 내용 출력하기
  • [예외처리] try, except, finally
  • [asyncio+aiohttp] 여러 API 비동기 호출 결과 얻기
  • [python] ProcessPoolExecutor로 분할+병렬 연산
Fine애플
Fine애플
이것저것
끄적끄적이것저것
Fine애플
끄적끄적
Fine애플
전체
오늘
어제
  • 분류 전체보기 (167)
    • 논문 및 개념 정리 (27)
    • Pattern Recognition (8)
    • 개발 (57)
    • python 메모 (45)
    • pytorch, tensorflow (5)
    • 알고리즘 (9)
    • Toy Projects (4)
    • 통계이론 (2)
    • Reinforcement Learning (10)

블로그 메뉴

  • 홈

공지사항

인기 글

태그

  • miniconda
  • tensorflow
  • Probability
  • ubuntu
  • 개발환경
  • PyTorch
  • pandas
  • GPU
  • python
  • Bert
  • 딥러닝
  • container
  • 자연어
  • BigBird
  • reinforcement learning
  • nlp
  • 알고리즘
  • transformer
  • Docker
  • 언어모델

최근 댓글

최근 글

hELLO · Designed By 정상우.
Fine애플
[transformers] tokenizer 결과
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.