start
python용 UTagger 설치
- pip install pyutagger
- pip install pyutagger –upgrade
- OS(윈도우즈, 리눅스)와 UTagger version에 따라 자동으로 필요한 라이브러리와 학습사전을 다운
- UTagger version: UTagger3(ANSI 기반), UTagger4(unicode 기반), UTagger4hj(고어형태소분석기)
형태소 분석기 Demo
-
- 유니코드 기반, UTagger 3 대비 높은 정확률
-
- ANSI코드 기반, 빠른 속도·높은 안정성
- 한국어에서 11개국어로 다의어 단위 대역어 서비스 제공
- 알려줘 한국어, 구글 및 iPhone app. store에서 “한통이”(Han-Tong-E) 검색
-
- 옛한글 형태소 분석기
- 모든 UTagger는 UWordMap의 의미 번호 체계를 따릅니다.
UWordMap 어휘의미망
-
- 표준국어대사전 기반의 어휘의미망(Lexical Semantic Network)
연구실적물
- UWordMap (한국어 어휘지도)
- UTagger (형태소분석, 동형이의어/다의어 WSD, 의존관계분석)
- USenseVector/UConceptVector (어휘지도와 국어사전으로 구축한 단어 의미 임베딩)
- UCorpus (울산대 말뭉치)
파일 다운로드 안내
한번에 대용량 파일을 (600메가바이트 이상) 받으려고 하면 끝까지 다운로드가 안 될 수 있습니다. 본 홈페이지에서 일부 파일은 200메가 단위로 분할압축하여 제공하고 있습니다. 분할압축이란? 하나의 대용량 zip파일로 압축하지 않고, 여러개의 파일로 분할하여 압축하는 기술입니다.
주의사항
- 모든 파일을 다 받은 다음에 압축해제를 하여야만 완전히 파일을 얻을 수 있습니다.
- 한번에 하나씩 다운 받으셔야 합니다. 동시에 여러개의 파일을 받으려고하면 “대용량을 한번에 받다가 실패하기”와 동일한 현상이 발생할 수 있습니다.
다운로드 링크 모음
- 아래 태깅프로그램(윈도우즈용) 및 오픈소스는 교육 및 연구용으로 제한없이 사용할 수 있습니다.
- UTagger 라이브러리(윈도우즈/리눅스, C/C++/C#/JAVA/Python3/R), UWordMap API(C/C++/C#/JAVA/Python3/R), 말뭉치 등은 기술이전(연구용 무료, 상업용 유료)이 필요함
-
- UTagger3.0 파이썬용2019.07(윈도우) 미러 100어절당 1초의 추가 딜레이가 주어집니다.
- UTagger3.0 파이썬 2018(윈도우, 우분투, 센토스) 미러 100어절당 1초의 추가 딜레이가 주어집니다.
- 유태거 오픈소스 2011 다운로드 페이지로 가기 : http://203.250.77.242:5900/UTaggerSource/UTaggerSourcePage.aspx
-
- UWordMap, 상표출원, 45-2016-0003295 (2016.04.21), 상표등록, 45-0073592 (2017.05.16)
start.txt · 마지막으로 수정됨: 2024/10/25 01:44 저자 127.0.0.1