울산대학교
한국어처리연구실

문서의 이전 판입니다!

UTagger 4

유태거4는 딥러닝 기술을 전혀 사용하지 않았습니다. 그리고 3과 달리 조금 떨어진 어절들을 문맥으로 사용할 수 있고, 미학습 문장 패턴에서도 어느정도 정답을 구분하는 기능을 가지고 있습니다.

예를 들어 “차를 받았는데 아직은 마실만해. 차를 받았는데 아직은 작동하네.” 에서 '차'와 핵심 단서 어절이 떨어져있더라도 '차'의 의미를 추정하는데 사용됩니다. 이 거리는 마치 어텐션 처럼 상황마다 다르고 최대 거리에 대한 제한도 있는데, 얕은 학습만을 사용하였습니다. 그래서 딥러닝 보다 덜 정확할 수 있지만 일반적으로 알려진 딥러닝 모델들의 속도와 비교해서는 월등히 빠르고 저렴한데도 딥러닝의 결과물과 비교될만한 수준을 기대할 수 있습니다.

공정한 비교가 아닐 수도 있지만 구글번역기나 파파고번역기와 유태거4를 비교해볼 수 있겠습니다. 위의 예에서 '차'는 모두 의미를 잘 구분합니다. 그러나 “사과를 받았지만 그걸 먹자니 걱정이다. 사과를 받았지만 그걸 이해할 수 없다.” 에서는 현재(2023년 2월 9일) 번역기들이 모두 apology로 번역하고 있고, 유태거4는 각각 apple과 apology로 구분합니다. 그러나 이런 현상이 늘 나타나는 것은 아니며, 일반적으로 더 무겁고 비용이 높은 모델(딥러닝)이 더 정확한 편입니다.

유태거4는 CRF 처럼 얕은 학습 모델로 분류될 수 있으나 미학습패턴에서도 강건하게 동작하기 위해서 단어를 백터화하는 기술을 추가적으로 사용하고 있습니다. 이 백터의 형태는 딥러닝의 그것과는 다르며, 백터를 얻거나 백터를 활용하는 모든 과정에서 딥러닝이 사용되지 않았고, 딥러닝과 비교하면 월등히 저렴하고 빠릅니다.

유태거4의 백터 기술은 미학습 패턴에 대해서 아무런 자질이 재현되지 못하더라도 정답에 유사한 답을 도출하도록 도움을 줍니다. 예를 들어서 배(pear)의 백터와 사과(apple)의 백터가 유사하다고 가정하고 “사과를 썰어서”를 학습했다면 “배를 썰어서”도 이해할 수 있는 식입니다. 실제로 학습 말뭉치에는 “배를 썰…” 패턴이 존재하지 않으며, 백터 기술을 적용하지 않으면 boat(배2)로 구분됩니다. 그러나 이 백터 기술을 적용하면 pear(배3)으로 교정됩니다.

이러한 백터 기술은 신조어를 등록할 때에도 사용할 수 있으며, 실제로 작동하는 것을 확인하였습니다. 예를 들어 '몬스터'는 '괴물'이라는 뜻 1개 뿐이여서 의미번호가 존재하지 않습니다. 여기에 에너지 드링크 몬스터를 '몬스터2'라고 정의하고 이 백터를 '음료'와 같다고 등록할 수 있습니다. 같은 방식으로 영화 타이틀 몬스터는 '몬스터3'으로 정의하고 '영화'를 백터로 등록할 수 있습니다. 이렇게 하면 2와 3은 학습 말뭉치 속에 전혀 나타난 적이 없지만 '음료'와 '영화'에 대한 학습 정보를 이용해 구분되어질 수 있습니다.

학습된 문장패턴이 존재할 경우에 유태거4의 백터 기술은 문장패턴을 이용한 처리 보다는 부정확한 편입니다. 따라서 몬스터 2~3의 경우에 이미 대량으로 학습된 '사과' 또는 '차'와 같은 수준을 기대하기는 어렵습니다. 다만 대량의 데이터를 새로 입력하는 비용을 들이지 않고도 구분 능력을 가질 수 있다는 것 입니다.

세종말뭉치 1,100만 어절에서 약 900만과 사전(우리말사전 등. 뜻풀이나 용례가 아닌 형태소 등재 용도로만 사용)을 학습하고, 나머지 200만으로 정확률을 측정했을 때 유태거4의 정확률은 97.4%, 백터 기술을 제외하면 97.2% 입니다. 백터 기술 단독은 95.6% 입니다. 백터 기술에는 원시 말뭉치도 필요한데 위키와 뉴스 등이 사용되었고, 실험용 세종말뭉치 200만 어절은 이 학습에서도 제외되었습니다.

( 실제로 작동 중인 데모는 다양한 말뭉치를 학습하였고 하이퍼파라메타에 약간의 차이가 있습니다. )

이 정확률들은 모두 형태소 분석 및 동형이의어 번호를 어절 단위로 측정한 것입니다. 그래서 주의할 점은 95.6%가 순수하게 “미학습 패턴에 대한 동형이의어 구분 능력”을 표현하는 것이 아니며, 몬스터 2~3을 구분하는 것에 그런 정확률을 기대하지 않는 것이 좋다는 것 입니다. 주관적이고 짧은 실험에서 유태거4는 몬스터2~3에서 약 70~90%의 정확률을 보였습니다.

다양한 표현으로 '차' 구분하기

차를 받았는데 맛있더라. 차를 받았는데 속도가 빠르네. 차를 받았는데 낡았어. 차를 받았는데 너무 달아.

얼마나 멀리 있는 문맥을 이해할 수 있는지에 대한 테스트 예제

차를받았는데좀마셔볼까? 차를받았는데좀몰아볼까?

차를 가져왔어 어서 몰아보자.

차를 가져왔어 어서 마셔보자.