PGR21.com
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다.
통합 규정을 준수해 주십시오. (2015.12.25.)
Date 2025/01/05 19:49:43
Name 호비브라운
Subject [질문] 자연어 기반 감정분석은 직접 배워서 할 수 있을까요?
석사 과정 논문 준비하면서 데이터 수집을 하고 있습니다.

국가별로 몇 천개 되는 기사를 바탕으로 제목을 자연어 분석해 해당 키워드에 어떤 긍정/부정 감정이 있는 기사인지 판별하는 작업입니다.

기사 수가 다 함치면 수천~수만개가 될 거 같습니다. 일부 샘플링해서 제가 일일이 감정분석을 해볼까 했는데, 일부만 추출해도 몇 천개를 들여다봐야하겠더라고요..
이건 같은 시간을 생산적으로 쓰는 거 같지 않아서 포기하고, 크몽에 있는 데이터/코딩 전문가에게 맡겨볼까 합니다.

지피티에게 물어보니 자연어 기반 감정 분석에 솔루션이 몇개 있는데, 파이썬이나 구글 클라우드를 이용해야 하더군요. 제가 학부가 문과이긴 하지만, 컴퓨터에 대한 이해는 쬐금 있는 편이고, 워낙 LLM 도움으로 코딩의 문턱도 낮아진 듯 해서 도전해볼까하는 생각도 들기도 합니다.

컴퓨터 전공하신 분들 눈에는 문과의 눈높이에서 짧은 시간에 배워서 직접할 수 있는 작업인지, 그냥 깔끔하게 돈 조금 써서 전문가에게 의뢰하는 게 나을지 판단해주시면 감사하겠습니다.

정확히는 각국의 언어로 된 수천개 기사 제목이 있는 CSV에서 각 항목이 어떤 감정인지 판단해서 CSV에 추가 기입하는 것입니다..

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
larrabee
25/01/05 20:03
수정 아이콘
파이썬만 어느정도 코드 읽으실 줄 아시면 크게 문제 없이 만드실 수 있을거같네요.
gpt api 끌고와서, 해당 쿼리에 대한 감정들 출력될 수 있도록 시스템프롬프트 구성하고 작동시키는건 예제만 보셔도 충분히 구현가능합니다.
문제는 정확도일거같은데.. 크몽을 생각하신다면 직접하시는게 나을거란 생각이 드네요.
호비브라운
25/01/05 20:33
수정 아이콘
https://huggingface.co/docs/transformers/index
요런 것도 있던데, 이런 게 말씀하신 그런 방법들이겠죠?
The Pooh
25/01/05 20:16
수정 아이콘
직접 판별해야하는 것이 아니면 윗분처럼 api호출을 이용하시면 됩니다
25/01/05 21:06
수정 아이콘
일단 GPT에 물어보신것은 잘하셨습니다. 여기서 코드 작성 해달라고 까지 하면 코드까지 작성해줍니다.
https://www.perplexity.ai/search/seogsa-gwajeong-nonmun-junbiha-aRhMPWPLRqWf4XDA.cNJNA
작성자분이 주신 글 그대로 perplexity에 물어보고 구글 자연어 API 써서 작성해달라고 하니 코드 작성까지 다 해주네요.

요거 직접해보시면서 트러블 슈팅도 GPT에 물어보시면 금새 하실 수 있을것 같습니다. GPT가 있어서 솔직히 이것도 금새 배울 수 있어서 크게 어렵지 않습니다.
호비브라운
25/01/05 21:38
수정 아이콘
와... 정말 LLM으로 다 되는 군요.. 대충 과정만 물어보고 내가 못할 거 같은데??라고 포기했는데, 그냥 그 과정을 차근차근 알려달라고 하니, 다 따라할 정도까지도 됩니다.
정말 감사드려요 몇십만원 내고 하려고 했는데, 돈 굳었습니다...
FlutterUser
25/01/05 21:29
수정 아이콘
openai api 사용하세요. function calling 사용하시면 정해진 포멧대로 결과값 돌려줄겁니다.
모델마다 가격이 다르고, fine tuning 하면 또 다르고 뭐 그런식으로 가격이 천차만별이긴 한데요.. openai api 자체가 기본적사양으로 사용할 경우 비싸진 않습니다.
콘칩콘치즈
25/01/05 23:20
수정 아이콘
그걸 손으로 할수는 없고요. lexicon 이라고 해서 감정사전이 언어별로 있어요. 그걸로 해야해요. 아니면 허깅페이스에 BERT모형중 한국어 학습시킨 Kobert나 Kcbert써야하는데 별로 신통찮더군요.

윗분들말씀대로 openai 에서 api로 땡겨와서 분석하는게 제가 해본중 제일 나았습니다. 데이터 사이즈가 얼마나 되는지모르지만 별로 비싸진않았어요 50달러 충전해서 몇백문장 돌리고 얼마 남았나보니 48달라 남았던가 그런식입니다

지금은 폰이라 코드가 없는데 내일봐서 여기에 코드 올려드릴게요. 한번 해보세요.
호비브라운
25/01/07 21:23
수정 아이콘
오 공유해주시면 감사하겠습니다. 다국어 지원도 되는 아래 솔루션으로 돌려보고 있습니다
Hugging Face Transformers:
사전 학습된 고성능 모델(BERT, GPT 등)을 활용.
회색사과
25/01/05 23:47
수정 아이콘
음… 

태스크를 잘 이해하지 못했는데 

기사 제목 - 에 긍정/부정 을 하나씩 태깅하면 되는 건가요?? 
(글쓰신 분은 컴공 석사과정은 아니신 거구요??) 

연구의 목표가 무엇일지요?? 

1. 만약 기사 + 긍/부정 태깅된 데이터를 만드는 것이 목표라면 태깅의 정확도에 대한 보증이 따라와야 하기 때문에 보통 3-5 명의 사람이 긍부정을 태깅하고 그 결과를 voting 하여 골드 레이블을 생성합니다. 

따라서 개인이, 혹은 특정 모델/프로그램/알고리즘이 생성한 데이터는 가치가 적어요.. 적어도 그 답에 대한 검증이 필요합니다. 

2. 그냥 하시는 연구에 긍/부정이 태깅된 기사 제목 데이터가 필요하신 거라면 이미 기구축된 데이터가 있을 수 있습니다. 그걸 찾아보시는게 나을 수 있습니다. 

3. 레이블의 정확도에 대한 검증이 필요 없다면, gpt api 사용해서 데이터를 구축하겠습니다. 기사 제목은 길이가 짧을 것이고 감정분석은 NLP 에서 워낙 대표적인 태스크라 정확도가 매우 높기는 할 거에요. 
호비브라운
25/01/07 21:26
수정 아이콘
키워드를 포함한 기사 리스트를 쭉 뽑고, 헤드라인 자연어 처리해서 감정 분석을 해서 그 기사가 키워드에 관한 어떤 감정을 가진 기사인지 판별하고 이 결과값을 가지고 지지고 볶아 다른 변인과 함께 시계열에 따른 의미를 도출할 예정입니다. 

1. 일종의 내용분석 방법론 말씀하신느 거죠? 일일이 사람이 하는 게 최소 몇천~만개 이상이 될 거 같아 물리적으로 불가능하다는 판단을 내렸습니다.
2. 윗분들이 말씀하신 사전 학습된 모델들이 있어서 그걸 편하게 활용하는 API를 활용하는 게 좋을 거 같습니다.

3. 네 이게 맞겠네요! NLP는 처음 들어봤는데 한번 찾아보겠습니다

고맙습니다!!
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
179269 [질문] 올해 미국주식장 어떨거라고 예측들하시나요 [21] 두억시니2232 25/01/06 2232
179268 [질문] 나쁜 일 혹은 좋은 일은 같이 오는 경향이 있다고 느끼시는지요..? [14] nexon2338 25/01/05 2338
179267 [질문] 미국 운전 난도가 어떻게 될까요(일반 SUV vs 대형SUV) [14] 른밸2478 25/01/05 2478
179266 [질문] PC 구입 이륙 허가 문의드립니다. [5] 하얀사신1778 25/01/05 1778
179265 [질문] 로보락 앱 질문 [2] 오늘은 좀 더1364 25/01/05 1364
179264 [질문] 중국 잘하시는분 질문입니다 떠들썩하던 扫韩行动组 번역에 해대서 [7] 삭제됨2283 25/01/05 2283
179263 [질문] 자연어 기반 감정분석은 직접 배워서 할 수 있을까요? [10] 호비브라운817 25/01/05 817
179262 [질문] 롤 부계정 키우는 팁 있을까요 [3] 욱상이947 25/01/05 947
179261 [질문] 이번달 5박6일 오사카+교토 여행(추천장소+쇼핑) [6] EY1055 25/01/05 1055
179260 [질문] 롯데리아 메뉴 추천 [5] 정 주지 마!1226 25/01/05 1226
179259 [질문] 로봇청소기 어때요? [15] Grundia1750 25/01/05 1750
179258 [질문] 화장지 추천 부탁드립니다 [15] 월터화이트1906 25/01/05 1906
179257 [질문] 연금저축계좌와 IRP 실물이전 [5] 힐러쫒는둠피2717 25/01/04 2717
179256 [질문] (사진혐주의) 무릎뒤 핏줄이 아픈 느낌이 듭니다 [5] Nal_rA[UoS]2930 25/01/04 2930
179255 [질문] 인터넷 연결 전체를 토어처럼 할순 없나요? 수쥬2144 25/01/04 2144
179254 [질문] 환불 불가가 합법인가요? [13] 퀴즈노스3592 25/01/04 3592
179253 [질문] 공유기를 방에서 거실로 뺄 방법이 없을까요? [14] wook982015 25/01/04 2015
179252 [질문] 맞고, 고스톱에 실력 요소가 얼마나 작용할까요? [9] 골드쉽1542 25/01/04 1542
179251 [질문] 보통 사람들은 유통기한 (소비기한)에 대해 어느 정도 민감한지가 궁금합니다 [13] pnr231238 25/01/04 1238
179250 [질문] 워터파크 종일권 끊고 오후쯤 중간에 밖에 나갔다 오기 [3] 바보영구1201 25/01/04 1201
179249 [질문] 전세 거주 기간 질문입니다 [2] 정유미894 25/01/04 894
179248 [질문] 전세대출은 케이뱅크가 짱인가요? [1] 호비브라운1472 25/01/04 1472
179247 [질문] 접촉사고 후 처리과정 질문드립니다. [1] 검정치마948 25/01/04 948
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로