기존에 존재하는 GPT 언어모델을 추가로 학습할 때 달라지는 양상을 확인한 내용을 정리하고자 한다.
0. Language Model
Skt GPT2 모델을 사용하였다. 모델크기는 125M로 상당히 작으며 40GB 한국어 데이터셋으로 학습되었다고 한다.
모델의 추가 pre-train 및 테스트를 위해 AI Hub의 감성 대화 말뭉치를 사용하였다.
1. 추가 pre-train 전 모델 성능
1) Perplexity
테스트셋 중 200여개 문장으로 측정하였으며, 기존 모델의 경우 40.1396으로 측정되었다.
# PPL
encodings = tokenizer("\n\n".join(test_ppl), return_tensors="pt")
max_length = model.config.n_positions
stride = 512
nlls = []
for i in tqdm(range(0, encodings.input_ids.size(1), stride)):
begin_loc = max(i + stride - max_length, 0)
end_loc = min(i + stride, encodings.input_ids.size(1))
trg_len = end_loc - i # may be different from stride on last loop
input_ids = encodings.input_ids[:, begin_loc:end_loc].to(model.device)
target_ids = input_ids.clone()
target_ids[:, :-trg_len] = -100
with torch.no_grad():
outputs = model(input_ids, labels=target_ids)
neg_log_likelihood = outputs[0] * trg_len
nlls.append(neg_log_likelihood)
ppl = torch.exp(torch.stack(nlls).sum() / end_loc)
print(ppl)
>>>> tensor(40.1396, device='cuda:0')
2) Generation
temperature 0.8, max_length 180으로 generate한 결과이다. Prompt와 관계없는 얘기만 하는 등 썩 좋은 언어모델은 아니다.
input(prompt) | output(generated) |
USER: 남편과 건강하게 오랫동안 살고 싶은데 남편이 당뇨병에 걸렸다. AI: 남편이 당뇨병에 걸려서 속상하고 슬프겠어요. USER: 원래 고혈압 질환이 있었는데 이번에 당뇨병까지 걸린 거야. AI: 고혈압과 당뇨병 치료에 좋은 방법이 있을까요? USER: 병원에서 권해주는 약을 잘 먹고 몸에 해로운 음식은 먹지 않는 게 좋겠어. AI: 몸에 해로운 음식을 먹지 않는 게 질병의 치료에 많은 효과가 있었으면 좋겠어요. |
</d> 한국예술종합학교 무용원 안무가 전영희(사진 왼쪽) 씨는 지난달 29일 서울 종로구 신문로 한국예술종합학교 무용원 교수회의실에서 열린 ‘예술과 예술교육’을 주제로 한 강연에서 “예술과 교육을 연계하는 것이야말로 예술교육이 해야 할 기본 임무”라며 이같이 말했다. 전 씨는 “예술과 교육이라는 두 축을 조화롭게 연결해야 한다”면서 “예술교육은 기본적으로 창의성, 인성, 이해력, 표현력, 표현력이 있어야 하지만 예술교육의 궁극적인 목표는 서로 서로 연결되는, 그래서 진정한 교류와 협력의 연결고리로 작동해야 한다”고 설명했다. 그는 이어 “예술교육과 교육이라는 두 축을 조화롭게 연결시키고 그 연결고리를 예술교육에 접목시키는 게 중요하다”고 강조했다. 전 씨는 “예술교육 역시 창의성과 인성, 표현력이 바탕이 되어야 한다”며 “예술교육을 통해 학생들이 진정으로 원하는 것을 얻고 다른 것을 배운다는 것을 깨닫게 할 수 있다”고 덧붙였다. 그는 또한 “ |
USER: 요즘 남편이 자꾸 집에 늦게 들어오네. AI: 그렇군요. 어떤 기분이 드시나요? USER: 솔직히 혼란스러워. 연락도 잘 안 되는 것 같고. 오늘 얘기 좀 해야겠어. AI: 네. 잘 해결되었으면 좋겠어요! |
</d> 마왕들 / 마왕들 / 마왕들 / 마왕들 / 마왕들 / 마왕들 / 마왕들 /????</d> 'Sunshine' : 'Sunshine'이나 'Strength' 등 원작의 등장인물들이 주로 등장하는 코믹스. 작중에 등장하는 등장인물은 모두 쟈크슈카이다. 마왕들 중 하나인 로그와 그 일행이 등장하는 코믹스. 쟈크슈카는 자신이 쟈크슈카를 만나고 싶어서 그를 찾아왔다고 한다. 또한 그 쟈크슈카의 친구라고 하는 걸 보면 로그의 친구일 수도 있다. 또한 마왕들 중 하나인 쟈그와 그 일행이 등장하는 코믹스. 원작에서 등장하지 않는다고 한 것도 마왕들인 로그와 그 일행이 나오는 코믹스인 만큼 쟈크슈카의 친구일 수도 있다. 쟈크슈카의 친구이자 친구인 쟈크슈카는 로그의 친구중 한명이다. 쟈크슈카의 동생인 로그와는 다르게 로그와는 달리 로그와는 소꿉친 |
USER: 나에게 오백만 원을 빌려간 김 영감은 십 년이 지나도록 갚지 않고 있어. AI: 돈을 빌리고 갚지 않아 억울하고 속상하시겠어요. USER: 빌릴 때 금방 돌려준다고 해놓고 모르쇠하고 있으니 너무 화가 나. AI: 이럴 때는 어떻게 하는 것이 좋을까요? USER: 관련 기관에 문의를 해봐야겠어. AI: 관련기관을 통해 문제를 해결하실 생각이시군요. |
</d> 이 사업은 서울시가 지원하는 사업으로 ‘서울형 스마트시티’로 조성되는 서울시 스마트시티에 입주할 공공건축물 중 공공부문이 자율적으로 설계하고 설계, 감리 및 시공하는 것을 의무적으로 적용하게 된다. 공공부문을 대상으로 선정된 디자인 및 스마트시공 분야는 ▲도시공간정보모델링 ▲전자신호처리 ▲디지털정보시스템 등이다. 서울시는 선정된 디자인 및 스마트시공 분야와 관련한 설계 및 시공 계약을 체결할 예정으로 서울형 스마트시티 사업 참여신청을 할 경우 오는 9월 10일까지 홈페이지(krd.seoul.go.kr)를 통해 지원신청을 할 수 있다. 한편 서울시는 지난해 건축 분야와 스마트시공분야로 각각 21억 원, 5억 원의 예산을 투입해 총 70개 공공건축물에 대한 설계를 완료했다.</d> 경기도 용인시 처인구 이동면 소재 (주)성일건축사사무소(대표 이근주)는 지난 99년부터 3년간 |
USER: 오늘 남편이랑 여행 가는 날인데 회사에서 급한 일이 생겼다고 연락이 왔어 어쩌면 좋지. AI: 남편분과의 약속된 여행을 취소할 수도 없고 회사 일을 거절할 수도 없어서 난감하시겠어요. USER: 오랜만의 여행이라서 취소하면 남편이 많이 실망할 테고 둘 다 포기할 수 없어서 혼란스러워. AI: 회사에 급한 일을 해결하고 여행도 갈 수 있는 좋은 방법이 있을까요? USER: 남편과 미리 시간을 조정하고 여행 일정에 지장 가지 않게 회사 일을 오전에 마무리해야겠어. AI: 딸을 빨리 만나 걱정을 덜었으면 좋겠어요. |
</d> 롯데쇼핑은 26일부터 다음달 5일까지 '2015년 세일을 위한 기획전'을 진행한다고 밝혔다. 세일 기간에는 전국 15개 백화점과 온라인 쇼핑몰에서 다양한 상품들을 선보인다. 롯데백화점은 이번 세일에 맞춰 지하 1층 식품관에서는 유명 브랜드 상품들을 최대 40% 할인 판매한다. 대표 상품으로는 '와인앤비어트랩' '코아플러스' '베베' '키위드' '오트밀크씨슬' '씨네21' '발렌타인애플' '엘르' 등이 있다. 또한 롯데슈퍼는 같은 기간 본점에서는 'K푸드 페스티벌'을 진행해 신선식품을 최대 30% 할인 판매한다. 이번 세일에는 홈쇼핑 방송 중 구매금 |
USER: 해도 너무 하지. 오늘 주어진 업무는 도저히 혼자 할 수 있는 양이 아니잖아. AI: 과도한 업무를 혼자서 처리하셔야 한다니 당혹스러웠겠군요. USER: 적어도 보조 해줄 사람이 한 명은 필요할 것 같아. 혼자서는 무리야. AI: 어떻게 하면 이 위기를 극복할 수 있을까요? USER: 혼자 끌어안는다고 달라지는 것 없으니 팀장님께 면담 신청해야겠어. AI: 팀장님과의 면담으로 이 상황이 해결되었으면 좋겠어요. |
</d> ■■■■■■■■□□□□□ ■■■■■■□□□□□ ■■■■■■□□□ ■■■■■■■■■□□□□ 자위대!!!! ■■■■■■■□□□□ ■■■□□□□□□ ■■■■■■□□ ■■■■■□□ ■■■■■■□□ ■■■■□□ ■■■■□□□□ ■■■■■■□□ ■■■■■□□ ■■■■■■ ■■■■□□ ■■■■■□□ ■■■■■□□ ■■■■■□□ ■■■■■■ ■■■■■ ■■■ |
2. 추가 Pre-train
대화데이터를 묶어서 학습데이터셋을 구성했으며 총 28605개 example로 3 epoch 학습하였다.
3. 추가 Pre-train 후 모델 성능
1) Perplexity
같은 테스트 셋으로 측정했을 때 14.0008이 나왔다. 매우 개선되었지만 billion 단위의 언어모델에 비해 성능은 많이 떨어진다.
2) Generation
같은 prompt을 사용했을 때 학습셋에 overfitting된 결과가 나오는 것 같다. 대화형태로 생성되며 여러 기분에 대한 대화가 섞여 나오게 된다.
input(prompt) | output(generated) |
USER: 남편과 건강하게 오랫동안 살고 싶은데 남편이 당뇨병에 걸렸다. AI: 남편이 당뇨병에 걸려서 속상하고 슬프겠어요. USER: 원래 고혈압 질환이 있었는데 이번에 당뇨병까지 걸린 거야. AI: 고혈압과 당뇨병 치료에 좋은 방법이 있을까요? USER: 병원에서 권해주는 약을 잘 먹고 몸에 해로운 음식은 먹지 않는 게 좋겠어. AI: 몸에 해로운 음식을 먹지 않는 게 질병의 치료에 많은 효과가 있었으면 좋겠어요. |
응. 나는 건강이 좋아지고 싶은데 남편은 그걸 원하지 않아. 어떻게 하면 건강에 도움이 될까요? 남편에게 솔직하게 말해야겠어. 남편에게 솔직한 심정을 이야기하려고 하시는군요. 나는 우리 과장님에 대해 신뢰가 가. 과장님에 대해 신뢰가 가는 이유가 있으셔요? 성실하고 성실한 것 같아. 성실한 직원이라는 건 정말 행운이지요. 남자친구랑 다퉜는데 아무래도 너무 화나는 일이야. 남자친구랑 다퉈서 기분이 많이 안 좋으시군요. 어떤 일이 있었는지 자세히 말해주실 수 있나요? 남자친구가 급한 일이 생겼다며 선물을 요구해. 화를 내면서 선물을 요구해서 너무 속상했어. 남자친구의 요구에 속상하시겠어요. 어떻게 하면 지금의 상황을 변화시킬 수 있을까요? 남자친구에게 선물을 안 준다고 하고 나중에 차근차 |
USER: 요즘 남편이 자꾸 집에 늦게 들어오네. AI: 그렇군요. 어떤 기분이 드시나요? USER: 솔직히 혼란스러워. 연락도 잘 안 되는 것 같고. 오늘 얘기 좀 해야겠어. AI: 네. 잘 해결되었으면 좋겠어요! |
남자친구가 갑자기 다른 남자를 만나자고 해서 당황스러워. 갑자기 다른 사람을 만나자고 해서 당황스러웠겠어요. 응. 갑자기 그러니까 당황스럽지. 갑자기 다른 사람을 만나자고 하니 당황스러우셨군요. 어떻게 해야 이 상황을 해결할 수 있을까요? 남자친구에게 솔직히 말해야겠어. 남자친구에게 솔직히 말하려고 하시는군요. 부모님의 이혼 소식이 들려왔어. 어떤 일인지는 알려주시겠어요? 부모님이 이혼하실 거라는 소식을 들었어. 부모님이 이혼하실 거라는 소식에 많이 속상하시겠어요. 부모님 몰래 내가 아르바이트를 시작해서 마련한 돈인데. 너무 화가 나서 어떻게 해야 할지 모르겠어. 갑작스러운 부모님과의 일로 많이 화가 나셨을 것 같아요. 건강하지 못해서 정말 비통해. 건강 때문에 속상하시군요. 건강관리를 어떻게 해야 한다고 생각하시나요? 건강검진을 받아보고 운동도 열심히 해야지. 건강관리를 위해 운동을 열심히 하실 생각이군요. 나 요즘 너무 우울해 |
USER: 나에게 오백만 원을 빌려간 김 영감은 십 년이 지나도록 갚지 않고 있어. AI: 돈을 빌리고 갚지 않아 억울하고 속상하시겠어요. USER: 빌릴 때 금방 돌려준다고 해놓고 모르쇠하고 있으니 너무 화가 나. AI: 이럴 때는 어떻게 하는 것이 좋을까요? USER: 관련 기관에 문의를 해봐야겠어. AI: 관련기관을 통해 문제를 해결하실 생각이시군요. |
응. 사실 내가 해결해야 할 문제인데 시간이 촉박해서 어떻게 얘기해야 할지 모르겠어. 시간이 촉박하군요. 시간이 촉박하다고 하셨군요. 선생님은 매번 친구 괴롭히는 걸 지켜보셔서 너무 슬퍼. 선생님이 괴롭히는 걸 지켜보셔서 슬프시군요. 선생님이 도와주실까? 어떻게 해야 할지 고민 중이시군요. 어떻게 하는 게 가장 좋은 방법일까요? 친구한테 사과해서 괴롭히지 말라고 해야겠어. 선생님과의 대화를 통해 문제가 해결되었으면 좋겠네요. 엄마는 내가 학교폭력 당하고 있는 걸 싫어해서 슬퍼. 엄마가 학교폭력 당하는지 안 좋아해서 슬프시군요. 나는 엄마랑 아빠한테 너무 실망스러워. 이 상황을 어떻게 극복할 수 있을까요? 엄마랑 아빠한테 내 마음을 얘기해 봐야겠어. 엄마와의 대화로 상황이 나아졌으면 좋겠 |
USER: 오늘 남편이랑 여행 가는 날인데 회사에서 급한 일이 생겼다고 연락이 왔어 어쩌면 좋지. AI: 남편분과의 약속된 여행을 취소할 수도 없고 회사 일을 거절할 수도 없어서 난감하시겠어요. USER: 오랜만의 여행이라서 취소하면 남편이 많이 실망할 테고 둘 다 포기할 수 없어서 혼란스러워. AI: 회사에 급한 일을 해결하고 여행도 갈 수 있는 좋은 방법이 있을까요? USER: 남편과 미리 시간을 조정하고 여행 일정에 지장 가지 않게 회사 일을 오전에 마무리해야겠어. AI: 딸을 빨리 만나 걱정을 덜었으면 좋겠어요. |
그렇지. 남편도 걱정하고 자기들도 불안해하는 상황이라 더 걱정이 커. 장거리 여행으로 더 스트레스를 받으시는군요. 남편분과 어떻게 대화해야 좋을까요? 여행 일정은 같이 조율해 보자고 말하고 싶어. 남편과 원만한 여행 일정이 되면 좋겠어요. 요즘 들어 몸이 아파서 여기저기 아픈 데가 많아. 몸이 아프셔서 힘드시군요. 어떻게 해야 할지 모르겠어. 몸이 아파서 몸도 아픈 상황이군요. 결혼할 나이가 되니까 이 사람이 맞는 건지 회의감이 들어. 결혼할 나이가 되니까 회의감이 드시는군요. 지금부터라도 운동을 해볼까 봐. 운동을 하려고 하시는군요. 어떻게 하실 건가요? 수영장에서 타면 분명 좋아질 거 |
USER: 해도 너무 하지. 오늘 주어진 업무는 도저히 혼자 할 수 있는 양이 아니잖아. AI: 과도한 업무를 혼자서 처리하셔야 한다니 당혹스러웠겠군요. USER: 적어도 보조 해줄 사람이 한 명은 필요할 것 같아. 혼자서는 무리야. AI: 어떻게 하면 이 위기를 극복할 수 있을까요? USER: 혼자 끌어안는다고 달라지는 것 없으니 팀장님께 면담 신청해야겠어. AI: 팀장님과의 면담으로 이 상황이 해결되었으면 좋겠어요. |
맞아. 난 이번 프로젝트가 좋은 해결책이 될 거라고 생각해. 그 해결책으로 팀장님께 면담을 신청하기로 하셨군요. 내가 이 나이 먹도록 내 몸 하나 돌보지 않은 게 후회스러워. 그런 생각을 하시는군요. 무슨 일 때문에 그러세요? 이 나이 먹도록 몸도 아프고 건강도 안 좋은데 나까지 아프니까. 많이 속상하시겠어요. 어떻게 하면 기분이 나아질 수 있을까요? 그냥 아무 생각 없이 푹 쉬고 싶어. 휴식을 통해 기분이 나아졌으면 좋겠어요. 결혼을 약속한 남자친구가 청첩장을 나 몰래 보냈어. 결혼을 약속한 남자친구의 청첩장을 몰래 보내서 기분이 안 좋으셨겠어요. 어떻게 알게 된 건지 알 수 있을까요? 결혼 준비하다가 청첩장을 몰래 보내버렸 |
728x90
'Toy Projects' 카테고리의 다른 글
[연구] 분류 Class가 많을 때 Softmax 개선 방법 (0) | 2021.12.20 |
---|---|
[문서분류 PoC] Long Document & Class Imbalance (0) | 2021.05.20 |
Selenium를 활용한 PAPAGO 번역 사용기 (0) | 2020.06.07 |