UTagger(유태거)는 한국어 형태소 분석기과 동형이의어 분별을 동시에 수행, 품사태그는 세종테그셋을 쓰고 있다.
세종태그셋 : https://jchern96.tistory.com/12375684
동형이의어 번호 체계는 세종을 기준으로 하며, 대체로 국립국어원의 표준국어대사전과 일치한다.
표준국어대사전 : http://stdweb2.korean.go.kr/main.jsp
현재 정확률은 어절단위로 96.5%이다.
기본적으로는 세종말뭉치를 학습하여 작동하며, 다른 도메인에 대한 특화 기능을 “사용자 말뭉치”라는 기술로 제공하고 있다.
“사용자 말뭉치”를 이용하여 신조어, 용언의 활용형, 인접 두 어절간의 새로운 문맥을 실시간으로 학습.
이력
국립국어원 국어정보처리시스템 경진대회에서 2차례(2011, 2013년) 대상을 수상
대표적인 논문 : http://www.dbpia.co.kr/Journal/ArticleDetail/NODE01873335
최근 UWordMap와 USenseVector를 이용하여 동형이의어 분별하는 모델 개발)
해마다 20회 가량 기술이전(연구용 무료, 기업 시제품개발용 무료)이 되고 있다.
데모 (형태소 분석, 품사 태깅, 다의어 WSD, 영어 대역어, 의존관계, 한자 변환 병기 등)
무료 공개용 2013년 버전 : 다운로드
무료 공개용 2016년 버전 UTaggerTCM : 다운로드
오픈소스 2011년 버전
다운받는 페이지 가기 : http://203.250.77.242:5900/UTaggerSource/UTaggerSourcePage.aspx
※ dll 로드 오류시 2013 C++ 재배포 패키지를 설치하셔야 합니다.
다운로드 링크 : 2013 C++ 재배포 패키지
이 외에 특수한 목적으로 최신 라이브러리 등을 원하시면 ducksjc@nate.com, okcy@ulsan.ac.kr 으로 개별 연락 바랍니다.