본문 바로가기

딥러닝/나 혼자 하는 프로젝트

텍스트 감정 분석 Text Sentiment Analysis 1

사이드 프로젝트 시작과 함께 전체 루프 예상

 

볼드체를 현재 게시글에서 서술

1. 프로젝트 기획 -> 데이터 준비 -> 데이터 라벨링 -> 학습 모델 만들기

2. 앱개발에 적용(순서 세분화 필요함)

 

게시 목표 : 여러 게시글에 거쳐 1 ~ 2번에 대한 과정 서술

 

본문 - 프로젝트 기획

텍스트로 감정 분석을 하려고 한다.

한 문단 정도의 텍스트의 감정을 분류를 목표로 한다.

학습용(책 또는 RNN 소개 등)으로는 [영화 리뷰 댓글]을 [금정/부정/중립]으로 나누는 정도이지만

진행하려는 프로젝트에서는 [일반 게시글]을 [즐거운/슬픈/두려운/분노/어이 없는/중립] 등 여러 종류로 분류하려고 한다.

관련 논문을 몇 개 찾을 수 있었으며 약 90% 이상의 정확도를 주장하고 있다.

논문1. https://koreascience.kr/article/CFKO202130060725835.pdf

논문2. https://koreascience.kr/article/CFKO202130060726836.pdf

 

0914수정

BERT라는 구글에서 제공하는 감정 분석 모델을 쉽게 찾을 수 있고,

BERT의 한국말 모델인  KoBERT, kcBERT, KorBERT 등이 있다.

필자는 이중. 예시 모델을 바로 사용 가능한 KoBERT를 활용한다.

본문 - 데이터 준비

자 그럼, 데이터는 어떻게 준비할 것인가?

1. 준비된 데이터 셋

2. 크롤링

3. 직접 수집

 

0914 수정

2, 3번도 좋지만, 온라인 어체로 감정 라벨링까지 끝난 데이터셋이 있었다.

AIHUB에서 최초 선택한 데이터인 [온라인 구어체 말뭉치] 대신 [한국어 감정 정보가 포함된 단발성 대화 데이터셋]을 선택하였다.

3만여개의 한 문장을 7개 감정으로 분류해놔서 바로 사용이 가능하다.

https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100 

 

AI-Hub

분야 유형 조회수 : 다운로드 : 용량 : 신청하기 관심데이터 등록 관심

aihub.or.kr

 

본문 - 데이터 라벨링

0914수정

대상을 이미 되어 있는 데이터로 변경하면서, 다른 라벨링이 되어 있지 않은 데이터를 선택한다면 라벨링이 필수가 되어야야겠다.

 

 

 

 

 

학습단계 링크

텍스트 감정 분석 Text Sentiment Analysis 2 (tistory.com)

 

텍스트 감정 분석 Text Sentiment Analysis 2

사이드 프로젝트 시작과 함께 전체 루프 예상 볼드체를 현재 게시글에서 서술 1. 프로젝트 기획 -> 데이터 준비 -> 데이터 라벨링 -> 학습 모델 만들기 2. 앱개발에 적용(순서 세분화 필요함) 본문

ymh-labs.tistory.com