형태소 예제

이 튜토리얼은 파이썬 nltk에서 다른 언어로 사용할 수있는 다른 줄기 를 볼 수 있습니다. 영어의 경우, 포터스태머 또는 랭커스터스태머, 포터스템머 중에서 선택할 수 있으며, 1979년에 처음 개발된 가장 오래된 언어입니다. 랭커스터스템머는 1990년에 개발되었으며 포터 형태소 분석 알고리즘보다 더 공격적인 접근 방식을 사용합니다. 의 단어를 줄기 위해 PorterStemmer를 시도하자, 그리고 그와 함께 당신은 단어를 형태소 분석하는 방법을 볼 수 있습니다. 이 튜토리얼은 포터 스템머와 랭커스터 스템머 (Paice-Husk 스템머)로 알려진 알고리즘에 깊이 가지 않을 것입니다,하지만 당신은 그들의 장점과 단점을 볼 수 있습니다. 새로운 단어가 발견되면, 그것은 새로운 연구 기회를 제시 할 수 있습니다. 종종 가장 좋은 결과는 단어의 기본 형태 형태인 lemma를 사용하여 얻을 수 있습니다. lemma를 찾기 위해 형태소 분석은 AI 시스템에서 사용할 수있는 개인 또는 알고리즘에 의해 수행됩니다. 형태소 분석은 다양한 접근 방식을 사용하여 어떤 굴절된 형태가 발생하든 단어를 기본으로 줄입니다. 형태소 분석과 달리 Lemmatization은 언어에 루트 단어가 속하도록 적절하게 활용되는 단어를 줄입니다.

Lemmatization 루트 단어에서 Lemma라고합니다. lemma (복수 명마 또는 lemmata)는 단어 집합의 정식 형태, 사전 형태 또는 인용 형태입니다. 확률 알고리즘은 확률을 사용하여 단어의 루트 형태를 식별하는 것을 포함합니다. 확률 알고리즘은 확률 모델을 개발하기 위해 형태 관계를 굴절시키기 위해 루트 형식 테이블에서 학습 («학습»)됩니다. 이 모델은 일반적으로 접미사 스트리핑 또는 lemmatisation에 있는 것과 본질적으로 유사한 복잡한 언어 규칙의 형태로 표현됩니다. 형태소 분석은 학습된 모델에 굴절된 형태를 입력하고 모델이 내부 규칙 집합에 따라 루트 양식을 생성하도록 함으로써 수행되며, 이는 접미사 제거 및 레머화와 유사합니다. 가장 적절한 규칙, 또는 단어를 줄기 그냥 같은 단어를 반환할지 여부, 또는 두 개의 서로 다른 규칙을 순차적으로 적용할지 여부는 출력 단어가 정확할 확률이 가장 높다는 이유로 적용됩니다(즉, 말하자면 , 일반적으로 측정되는 방법입니다 잘못된 것의 가장 작은 확률입니다). 이제 설치 후, 당신은 파이썬을 사용하여 형태소 분석 및 Lemmatization에 대한 nltk 라이브러리를 사용할 수 있습니다. 이것은 NLTK 패키지를 사용하여 파이썬에서 형태소 분석에 관한 것입니다. 이제 다음 섹션에서 Lemmatization에 대해 알아봅니다.

형태소 분석은 두 가지 방법 중 가장 간단합니다. 형태소 분석과 함께 단어는 단어 줄기로 줄어듭니다. 단어 줄기는 사전 기반 의 형태 루트와 같은 루트일 필요는 없으며, 단어의 형태와 같거나 더 작은 형태일 뿐입니다. 형태소 분석은 비슷한 기본 의미를 가진 단어를 함께 그룹화하기 위한 대략적인 방법으로 사용됩니다. 예를 들어 «수선화»를 언급하는 텍스트는 아마도 «수선화»를 언급하는 텍스트와 밀접한 관련이 있을 것입니다( s 제외). 그러나 어떤 경우에는 동일한 형태 학적 줄기를 가진 단어는 밀접하게 관련되지 않은 관용적인 의미를 가지고 있습니다 : «마케팅»을 검색하는 사용자는 «시장»을 언급하지만 «마케팅»이 아닌 대부분의 문서에 만족하지 않습니다. 전체 자습서를 통해 가고 후, 당신은 내가 형태소 분석과 레마티즈를 사용해야 할 때 자신을 요청할 수 있습니다? 대답 자체는이 튜토리얼에서 배운 무엇이든에 있습니다. 다음과 같은 점을 보았습니다: 이것은 두 가지 가능한 방법, 즉 형태소 분석과 레모티브화를 통해 달성될 수 있습니다. 두 프로세스의 목적은 동일합니다 : 공통 기반 또는 루트로 각 단어의 굴절 형태를 줄이는 것입니다. 그러나 이 두 가지 방법은 정확히 동일하지 않습니다. 이 문서에서는 몇 가지 예제와 함께 이러한 차이점을 다겠습니다.