:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
22/06/08 10:11
일단 화자 수가 영어가 압도적이기도 하고 한국어 같은 경우는 조사 때문에 연구 난이도가 높은 것으로 알고 있습니다.
단적인 예로 영어는 단어가 대부분 공백으로 구분되지만 한국어는 은는이가 부터 떼고 생각해야 하죠.. 그래서 분석을 위해 문장을 배열로 변환하실 거면 단어를 어절로 구분하여 분석하는 fasttext를 추천드립니다. 이름대로 속도도 빠른 편입니다. https://fasttext.cc 위키백과 기준 한국어 데이터는 만들어져 있고 위키백과 데이터 덤프에 분석에 특화된 corpus를 추가하시어 커스텀 모델을 생성하셔도 좋습니다.
22/06/08 10:15
LDA는 통계학 쪽 테두리에 있는 모델로 사용하시려면 문서에서 단어 추출이 필요합니다. LDA 자체는 언어에 영향을 받는 모델이 아닙니다. 분석하고자 하는 언어마다 단어 추출 난이도가 다를 뿐이죠. 이를 위해 주로 사용하는 것이 형태소 분석기인데, mecab, hannanum 형태소 분석기 등이 있으며 파이썬 konlpy 패키지에서 대부분 지원하고 있습니다.
22/06/08 10:22
아무래도 화자와 데이터 수는 비례하는 요소이다 보니 최근 연구에서는 언어 모델을 개발할 때 영어/중국어/나머지 언어로 접근하는 것 같습니다. 예전에 잠깐 찾아봤을 때 BERT라는 언어 모델이 제시되어 그 파생이 많이 나왔는데 미리 학습된 모형은 대충 English/Chinese/Multilingual 로 나옵니다.
그래도 한국전자통신연구원에서는 https://aiopen.etri.re.kr/service_dataset.php 같은 한국어 언어모델을 만들었습니다. 텍스트 데이터를 많이 소유한 기업에서도 내부적으로 개발을 진행하고 있지 않을까 합니다. 네이버만 봐도 네이버 쇼핑에서 쇼핑 후기에 강조 처리를 하고 있죠.
22/06/08 12:27
NAVER CLOVA의 hyperCLOVA 논문같은걸 보시면 한글의 경우 tokenization 하는 것에 있어서 좀더 트릭이 필요합니다. 그 뒤로는 영어 데이터랑 크게 다를바는 없구요.
연구레벨에서 아무래도 minor하다보니 정보가 적어보이는거구요. google이나 deepmind의 multilingual model들의 경우에 한글도 대응은 되는데, 아무래도 web에서 긁어온거라 한글 데이터가 일부밖에 안됩니다. 일부만 가지고도 multi-lingual모델의 low-resource language 성능이 꽤 좋다는 결과도 많긴 하지만, 그래봐야 한글데이터 제대로 넣은거랑 차이가 좀 있습니다. SK나 카카오에서도 모델 공개를 하고 있으니 참고를 해보실수 있을겁니다.
|