์ง๋ ํฌ์คํ ์์ ๋ง์ํด๋๋ ธ๋, ๋ถ๋ถ์ ์์ ํด๋ณด๋ คํฉ๋๋ค.
msg column์์ [๋๋๋ฌธ๊ตฌ์ฒญ] ์ด ๋ถ๋ถ์ ๋ค๋ฅธ ์ด๋ก ๋นผ๋ด๋ ์์ ์ ํด๋ณด๊ฒ ์ต๋๋ค.
1. ์์ค์ฝ๋
f = open('SOSmsg.csv','r')
rdr = csv.reader(f)
list_a = []
cnt = 0
for line in rdr:
a = line[3].replace('[', '',1)
a = a.split( ']' , 1 )
list_a.append([line[0],line[1],line[2],a[0],a[-1]])
ft = open('new.csv','w',newline='')
wr = csv.writer(ft)
wr.writerows(list_a)
f.close()
2. ์์ค์ฝ๋ ์ค๋ช
f = open('SOSmsg.csv','r')
์ง๋ ๋ฒ์ ์ ์ฅํ๋SOSmsg.csv ํ์ผ์ ์ฝ๊ธฐ๋ชจ๋๋ก ๋ถ๋ฌ์ต๋๋ค.
line[3].replace('[', '', 1 )
line[3] ๋ถ๋ถ์ด msg ์ ํด๋นํฉ๋๋ค. replace ๋ฅผ ์จ์ [ ๋ฅผ ๊ณต๋ฐฑ์ผ๋ก ๋์ฒดํด์ค๋๋ค. ์ด ํ์๋ฅผ ํ๋ฒ๋ง ํ ๊ฒ์ด๊ธฐ๋๋ฌธ์, 1
๋งจ ์์ [ ๋ฅผ ์ง์์ฃผ๊ธฐ ์ํ ๊ณผ์ ์ ๋๋ค.
a = a.split( ']' , 1 )
]๊ธฐ์ค์ผ๋ก, msg ๋ฐ์ดํฐ๋ฅผ split ํด์ค๋๋ค.
msg ์ค๊ฐ์ ]๊ฐ ๋์ค๊ธฐ๋ ํ๊ธฐ ๋๋ฌธ์ , ๊ทธ ๋๋ split ์ด ์๋ํ๋ ๊ฒ์ ๋ง์์ฃผ๊ธฐ ์ํด, split ํ์๋ 1๋ฒ์ผ๋ก ์ ํํฉ๋๋ค.
ft = open('SOSmsg_split.csv','w',newline='')
์๋ก์ด ํ์ผ์ธ SOSmsg_split.csv์ ์ ์ฅํฉ๋๋ค.
3. ๊ฒฐ๊ณผ ํ์ธ
'Projects > COVID-19 analysis' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
ํธ์ํฐ ๋ฐ์ดํฐ KoBERT ๊ฐ์ ๋ถ๋ฅ ๊ฒฐ๊ณผ์ ๋ฆฌ (11) | 2020.05.10 |
---|---|
[๋ฐ์ดํฐ์ ] Sentiment-analysis dataset (0) | 2020.04.23 |
xml ๋ฐ์ดํฐ๋ฅผ csv ํ์ผ๋ก ์์ง - ๊ณต๊ณต์ฌ๋๋ฌธ์๋ฐ์ดํฐ (0) | 2020.03.11 |