사이드 프로젝트 시작과 함께 전체 루프 예상
볼드체를 현재 게시글에서 서술
1. 프로젝트 기획 -> 데이터 준비 -> 데이터 라벨링 -> 학습 모델 만들기
2. 앱개발에 적용(순서 세분화 필요함)
게시 목표 : 여러 게시글에 거쳐 1 ~ 2번에 대한 과정 서술
본문 - 프로젝트 기획
텍스트로 감정 분석을 하려고 한다.
한 문단 정도의 텍스트의 감정을 분류를 목표로 한다.
학습용(책 또는 RNN 소개 등)으로는 [영화 리뷰 댓글]을 [금정/부정/중립]으로 나누는 정도이지만
진행하려는 프로젝트에서는 [일반 게시글]을 [즐거운/슬픈/두려운/분노/어이 없는/중립] 등 여러 종류로 분류하려고 한다.
관련 논문을 몇 개 찾을 수 있었으며 약 90% 이상의 정확도를 주장하고 있다.
논문1. https://koreascience.kr/article/CFKO202130060725835.pdf
논문2. https://koreascience.kr/article/CFKO202130060726836.pdf
0914수정
BERT라는 구글에서 제공하는 감정 분석 모델을 쉽게 찾을 수 있고,
BERT의 한국말 모델인 KoBERT, kcBERT, KorBERT 등이 있다.
필자는 이중. 예시 모델을 바로 사용 가능한 KoBERT를 활용한다.
본문 - 데이터 준비
자 그럼, 데이터는 어떻게 준비할 것인가?
1. 준비된 데이터 셋 ✓
2. 크롤링
3. 직접 수집
0914 수정
2, 3번도 좋지만, 온라인 어체로 감정 라벨링까지 끝난 데이터셋이 있었다.
AIHUB에서 최초 선택한 데이터인 [온라인 구어체 말뭉치] 대신 [한국어 감정 정보가 포함된 단발성 대화 데이터셋]을 선택하였다.
3만여개의 한 문장을 7개 감정으로 분류해놔서 바로 사용이 가능하다.
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100
AI-Hub
분야 유형 조회수 : 다운로드 : 용량 : 신청하기 관심데이터 등록 관심
aihub.or.kr
본문 - 데이터 라벨링
0914수정
대상을 이미 되어 있는 데이터로 변경하면서, 다른 라벨링이 되어 있지 않은 데이터를 선택한다면 라벨링이 필수가 되어야야겠다.
학습단계 링크
텍스트 감정 분석 Text Sentiment Analysis 2 (tistory.com)
텍스트 감정 분석 Text Sentiment Analysis 2
사이드 프로젝트 시작과 함께 전체 루프 예상 볼드체를 현재 게시글에서 서술 1. 프로젝트 기획 -> 데이터 준비 -> 데이터 라벨링 -> 학습 모델 만들기 2. 앱개발에 적용(순서 세분화 필요함) 본문
ymh-labs.tistory.com
'딥러닝 > 나 혼자 하는 프로젝트' 카테고리의 다른 글
KoBERT 윈도우 환경 설치 (0) | 2022.09.25 |
---|---|
텍스트 감정 분석 Text Sentiment Analysis 2 (0) | 2022.08.21 |