utagger_4
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
다음 판 | 이전 판 | ||
utagger_4 [2023/02/03 07:48] – 만듦 admin | utagger_4 [2023/02/14 11:00] (현재) – 바깥 편집 127.0.0.1 | ||
---|---|---|---|
줄 1: | 줄 1: | ||
==== UTagger 4 ==== | ==== UTagger 4 ==== | ||
- | 이 페이지에서 | + | * [[http:// |
+ | |||
+ | 유태거4는 기존의 토크나이저들이 그렇듯이 고속으로 작동될 수 있도록 설계되었으며, | ||
+ | |||
+ | 예를 들어 " | ||
+ | |||
+ | 공정한 비교가 아닐 수도 있지만 구글번역기나 파파고번역기와 유태거4를 비교해볼 수 있겠습니다. | ||
+ | 위의 예에서 ' | ||
+ | 그러나 " | ||
+ | |||
+ | 유태거4는 CRF 처럼 얕은 학습 모델로 분류될 수 있으나 미학습패턴에서도 강건하게 동작하기 위해서 단어를 백터화하는 기술을 추가적으로 사용하고 있습니다. 이 백터의 형태는 딥러닝의 그것과는 다르며, 백터를 얻거나 백터를 활용하는 모든 과정에서 딥러닝이 사용되지 않았고, 딥러닝과 비교하면 월등히 저렴하고 빠릅니다. | ||
+ | |||
+ | 유태거4의 백터 기술은 미학습 패턴에 대해서 아무런 자질이 재현되지 못하더라도 정답에 유사한 답을 도출하도록 도움을 줍니다. | ||
+ | 예를 들어서 배(pear)의 백터와 사과(apple)의 백터가 유사하다고 가정하고 " | ||
+ | |||
+ | 이러한 백터 기술은 신조어를 등록할 때에도 사용할 수 있으며, 실제로 작동하는 것을 확인하였습니다. 예를 들어 ' | ||
+ | |||
+ | 학습된 문장패턴이 존재할 경우에 유태거4의 백터 기술은 문장패턴을 이용한 처리 보다는 부정확한 편입니다. 따라서 몬스터 2~3의 경우에 이미 대량으로 학습된 ' | ||
+ | |||
+ | 우리는 유태거4의 성능을 알아보기 위해 세종말뭉치 1,100만 어절에서 80%(880만 어절)와 사전(우리말사전 등. 뜻풀이나 용례가 아닌 형태소 등재 용도로만 사용)을 학습하고, | ||
+ | |||
+ | 유태거4는 총 3개의 모듈로 구성되는데 각각 A, B, 백터기술 이라고 부를 수 있습니다. A만 사용하면 12초가 소요되었고 이 때 정확률은 96.9% 입니다. A+B를 사용하면 약 17초가 소용되며 정확률은 97.2%입니다. A+B+백터기술에서 50~60초가 소요되고 97.4% 입니다. | ||
+ | |||
+ | 이렇게만 보면 A+B만 사용하는 것이 현명한 것 같으나 실제 사용감은 상당히 다릅니다. 우리(울산대학교 한국어처리 연구실)가 직접 사용해보았을 때에는 백터기술까지 적용하였을 때에 월등히 더 정확하게 느껴졌습니다. 그 이유는 세종말뭉치를 8:2로 나눌 때 문장을 5개씩 잘라서 4개를 학습하고 1개를 남기기를 반복하였기 때문입니다. 이런식으로 실험환경을 구축하며 미학습 문장이라 하더라도 그 앞 뒤 문장을 학습하였기 때문에 미학습패턴 자체가 거의 존재하지 않게 됩니다. 그래서 이러한 방법으로는 강건한 백터기술의 정확한 가치를 측정하기 어렵고, 이와 달리 우리가 즉흥적으로 직접 입력한 완전히 새로운 문장들에서는 큰 차이를 느낄 수 있었습니다. 특히 유태거4데모와 유태거3데모를 직접 사용해보면 굉장히 큰 차이 볼 수 있습니다. | ||
+ | |||
+ | 이 정확률들은 모두 형태소 분석 및 동형이의어 번호를 어절 단위로 측정한 것입니다. 그래서 주의할 점은 상술한 백터기술단독 정확률이 순수하게 " | ||
+ | |||
+ | ( 실제로 작동 중인 데모는 다양한 말뭉치를 학습하였고 하이퍼파라메타에 약간의 차이가 있습니다. ) | ||
+ | |||
+ | |||
+ | === 잘못 붙여쓴 문장을 분석하는 방법 === | ||
+ | |||
+ | 유태거는 " | ||
+ | |||
+ | 선교정-후분석을 할 경우에 " | ||
+ | |||
+ | |||
+ | |||
+ | \\ | ||
+ | |||
+ | === 다양한 표현으로 ' | ||
+ | |||
+ | 차를 받았는데 맛있더라. 차를 받았는데 속도가 빠르네. 차를 받았는데 낡았어. 차를 받았는데 너무 달아. | ||
+ | |||
+ | \\ | ||
+ | |||
+ | === 얼마나 멀리 있는 문맥을 이해할 수 있는지에 대한 테스트 예제 === | ||
+ | |||
+ | 차를받았는데좀마셔볼까? | ||
+ | |||
+ | 차를 가져왔어 어서 몰아보자. | ||
+ | |||
+ | 차를 가져왔어 어서 마셔보자. | ||
+ | |||
+ | === 기타 === | ||
+ | |||
+ | 나야말로말을타는자의말로를말로들었다 | ||
+ | |||
+ | 접시를사기로한손님은사기로만들어진접시를사기위해사기행위로물건값을깍았고나의사기를꺾었다. | ||
+ | |||
+ | 두모자가모자를사려는데돈이모자란다 | ||
+ | |||
+ | 장기를두는데한쪽장기가아파와병원에가려고하니운전이장기인친구가장기간장기적으로도와주겠단다. | ||
+ | |||
+ | 나는은으로만든은메달은은근히은은한향이나서싫다. | ||
+ |
utagger_4.1675410510.txt.gz · 마지막으로 수정됨: 2023/02/03 07:48 저자 admin