트위터 데이터 KoBERT 감정분류 결과정리

1.KoBERT 소개

KoBERT는 BERT 의 한국어버전입니다.

BERT(Bidirectional Encoder Representations from Transformers)는 구글이 공개한 인공지능(AI) 언어모델인데요,

일부 성능 평가에서 인간보다 더 높은 정확도를 보이며 2018년 말에 자연 언어 처리(NLP)에서 SOTA를 달성한 모델입니다.

BERT의 특징으로는 세 가지가 있습니다.

- 언어표현 사전학습의 새로운 방법

Wikipedia 나 BooksCorpus와 같은 대용량의 라벨링 되어 있지 않은 데이터(정답이 없는)로 모델을 pretraining 시킨 후,

특정 task를 가지고 있는 labeled data로 transfer learning을 하는 모델입니다.

- Bidirectional

이전의 모델들은 unidirectional하기 때문에 문장의 문맥적인 고려를 하지않아, language representation이 부족했습니다

하지만 BERT는 Bidirectional 하기 때문에 한쪽 방향이 아니라 양쪽 방향으로 학습하는 구조를 가지고 있어,

language representation 수준을 높였습니다.

-다양한 언어모델 제공

BERT는 영어 및 103 개 언어에 대한 사전 훈련 된 언어 모델을 제공하여 필요에 맞게 fine-tuning할 수 있습니다.

2. 데이터셋 소개

저희는 언어는 한국어, 그리고 위치는 한국기반으로 트위터데이터를 수집하였습니다.

사용한 API는 트위터 API 입니다.

수집한 데이터셋의 월별 갯수 현황을 보여드리겠습니다.

수집 된 데이터의 월별 현황 표입니다.

	12월	1월	2월	3월	합계
데이터갯수	166,268	175,226	167,009	306,402	814,905

다음은 수집 된 트위터 데이터의 갯수 그래프 입니다.

3월 28일에 트윗수가 급증했네요.. !

이유가 뭔지 잘 모르겠습니다. 좀 더 살펴볼 필요가 있어보입니다.

3. Model Parameter

•Train data : Naver sentiment movie corpus (positive, negative) 150K

•Test data : Naver sentiment movie corpus (positive, negative) 50K

•Model : KoBERT-nsmc

Learning_rate : 5e-5

Train_epochs : 5

Optimizer : Adam (epsilon : 1e-8)

Train_batch_size : 32

Eval_batch_size : 64

•Model Accuracy : 0.89 (Naver sentiment movie corpus 기준)

•Data – Tweet

Term : 2019.12.01 ~ 2020.03.31.

Location : Korea

Language : Korean

4. KoBERT를 통한 트윗 감정분류 결과

import pandas as pd
from pandas import DataFrame as df
import csv
df= pd.read_csv('./201912_tweet_sent.csv',encoding='euc-kr')
df

kobert로 긍 부정으로 라벨링된 데이터셋에서

날짜별로 각 라벨의 갯수를 count해 정리해보겠습니다.

import datetime

#timestamp 에서 날짜를 추출하는 함수
def to_yyyymmdd(timestamp):
    a = datetime.datetime.strptime(timestamp,'%Y-%m-%d %H:%M:%S')
    return str(a.year)+(str(0) if len(str(a.month))==1 else '')+str(a.month)+(str(0) if len(str(a.day))==1 else '')+str(a.day)

#날짜별로 긍부정 카운트
pos=0
neg=0
cur = 1
sent_list =[]
for i in range(0,len(df)):
    if to_day(df['timestamp'][i]) == cur:
        if df['label'][i] == 0:
            neg+=1
        else:
            pos+=1
    else:
        sent_list.append([to_yyyymmdd(df['timestamp'][i-1]),pos,neg])
        pos = 0
        neg = 0
        cur+=1
        if df['label'][i] == 0:
            neg+=1
        else:
            pos+=1
sent_list.append([to_yyyymmdd(df['timestamp'][i]),pos,neg])

sent_count_result = pd.core.frame.DataFrame(sent_list) #데이터프레임으로 데이터타입변경
sent_count_result.columns=['date','pos','neg'] #column 이름 변경
sent_count_result #결과 출력

#csv파일로 저장
sent_count_result.to_csv("./kobert_sent_count_result_feb.csv",header=True, index=False)

그 결과를 보기 좋게 표로 정리합니다.

다음은 월별로 긍정, 부정 트윗 갯수를 count한 표입니다

	12월	1월	2월	3월	합계
긍정	78,457	79,872	74,485	137,731	370,545
부정	87,811	95,354	92,524	168,671	444,360
합계	166,268	175,226	167,009	306,402	814,905

대체적으로 긍정보다는 부정의 트윗 수가 많다는 것을 확인하실 수 있습니다.

좀 더 직관적으로 보기 위해 월별 트윗 감정추이 그래프를 그려보았습니다.

코로나바이러스에 대한 사람들의 반응을 트위터데이터로 확인해보기 위해

수집한 트위터데이터로 KoBERT모델을 통한 감정분류를 진행하였습니다.

다음 과정은 LDA로 토픽 모델링을 한 후, '코로나' 토픽으로 분류된 트위터데이터만을 가지고

감정추이 그래프를 다시 한 번 그려볼 예정입니다.

감사합니다:)

'Projects > COVID-19 analysis' 카테고리의 다른 글

[데이터셋] Sentiment-analysis dataset (0)	2020.04.23
xml 데이터를 csv 파일로 수집 2 - 공공재난문자데이터 (2)	2020.03.11
xml 데이터를 csv 파일로 수집 - 공공재난문자데이터 (0)	2020.03.11

Inistory's devlog 💻

트위터 데이터 KoBERT 감정분류 결과정리

1.KoBERT 소개

2. 데이터셋 소개

3. Model Parameter

4. KoBERT를 통한 트윗 감정분류 결과

'Projects > COVID-19 analysis' 카테고리의 다른 글

티스토리툴바

트위터 데이터 KoBERT 감정분류 결과정리

1.KoBERT 소개

2. 데이터셋 소개

3. Model Parameter

4. KoBERT를 통한 트윗 감정분류 결과

'Projects > COVID-19 analysis' 카테고리의 다른 글

'Projects/COVID-19 analysis' 관련글

티스토리툴바