티스토리 뷰

카테고리 없음

언어 모델링의 구조와 중요성

나르샤테크 2022. 11. 27. 08:33
반응형

언어 모델링이란?

언어 모델링이란? 언어 모델링은 다양한 통계적 및 확률적 기법을 사용하여 문장에서 발생하는 단어의 특정 시퀀스의 확률을 결정하는 것입니다. 언어 모델은 텍스트 데이터의 본문을 분석하여 단어 예측의 기초를 제공합니다. 자연어 처리 응용 프로그램, 특히 출력으로 텍스트를 생성하는 응용 프로그램에서 사용됩니다. 이러한 어플리케이션에는 기계번역, 질문응답 등이 있습니다. 이러한 언어 모델링의 구조에 대해서 알아보자면 언어 모델은 텍스트 데이터를 분석하여 단어 확률을 결정합니다. 그들은 자연어로 문맥 규칙을 확립하는 알고리즘을 통해 데이터를 해석합니다. 그런 다음에 이 모델은 언어 작업에 이러한 규칙을 적용하여 정확하게 예측하거나 새로운 문장을 만듭니다. 이 모델은 기본적으로 기본 언어의 특징과 특성을 학습하고 이러한 특징을 사용하여 새로운 문구를 이해합니다. 모델링 언어에는 몇 가지 다른 확률론적 접근방식이 있으며 이는 언어 모델의 목적에 따라 달라집니다. 기술적 관점에서 분석되는 텍스트 데이터의 양과 분석하기 위해 사용하는 수학에 따라 다양한 유형이 다릅니다. 예를 들어 자동 트위터 봇을 위해 문장을 생성하도록 설계된 언어 모델은 검색 쿼리의 가능성을 결정하기 위해 설계된 언어 모델과는 다른 방법으로 다른 계산을 사용하여 텍스트 데이터를 분석할 수 있습니다. 일반적인 통계 언어 모델링 유형은 다음과 같습니다. 먼저 N그램입니다. N그램은 언어 모델에 대한 비교적 간단한 접근법입니다. 이들은 n의 시퀀스에 대한 확률 분포를 만들고 n은 임의의 숫자가 될 수 있으며 그램의 크기 또는 확률을 할당받는 단어의 시퀀스를 정의합니다. 예를 들어, n이 5인 경우에 1그램은 다음과 같이 보일 수 있습니다. 그런 다음 모형은 크기가 n개인 시퀀스를 사용하여 확률을 할당합니다. 기본적으로 n은 모델이 고려하도록 지시된 컨텍스트의 양으로 간주할 수 있습니다. 어떤 종류의 n그램은 유니그램, 빅그램, 트리그램 등입니다. 그리고 유니그램입니다. 유니그램은 가장 단순한 언어 모델입니다. 계산에서는 어떤 조건화 컨텍스트도 조사하지 않습니다. 각 단어 또는 용어를 독립적으로 평가합니다. 유니그램 모델은 일반적으로 정보 검색과 같은 언어 처리 작업을 처리합니다. 유니그램은 쿼리 가능성 모델이라고 불리는 보다 구체적인 모델 바리안트의 기초입니다. 이 모델에서는 정보 검색을 사용하여 문서 풀을 검사하고 가장 관련성이 높은 것을 특정 쿼리에 일치시킵니다. 다음으로 양방향입니다. 텍스트를 한 방향으로 분석하는 N그램 모델과 달리 양방향 모델은 텍스트를 앞뒤로 분석합니다. 이 모델들은 텍스트에 있는 모든 다른 단어를 사용함으로써 문장이나 텍스트 본문에 있는 모든 단어를 예측할 수 있습니다. 텍스트를 양방향으로 검사하면 결과 정확도가 높아집니다. 이 유형은 종종 기계 학습 및 음성 생성 애플리케이션에 사용됩니다. 예를 들어 구글은 양방향 모델을 사용하여 검색 쿼리를 처리합니다. 다음으로 지수형입니다. 최대 엔트로피 모델이라고도 하며 이 유형은 n그램보다 복잡합니다. 간단히 말해서 모델은 특징 함수와 N그램을 결합한 방정식을 사용하여 텍스트를 평가합니다. 기본적으로 이 유형은 원하는 결과의 특징과 매개 변수를 지정하며 N그램과 달리 분석 매개 변수는 더 모호합니다. 예를 들어 개별 그램 크기를 지정하지 않습니다. 이 모델은 엔트로피가 가장 큰 확률 분포가 최선의 선택이라는 엔트로피의 원리를 기반으로 합니다. 즉, 가장 혼란스럽고 추측할 여지가 적은 모형이 가장 정확합니다. 지수 모델은 교차 엔트로피를 최대화하도록 설계되어 통계적 가정을 최소화할 수 있습니다. 이를 통해 사용자는 이러한 모델에서 얻은 결과를 더욱 신뢰할 수 있습니다. 연속 공간이러한 유형의 모델은 뉴럴 네트워크에서 가중치의 비선형 조합으로 단어를 나타낸다. 단어에 가중치를 할당하는 과정은 단어 삽입이라고도 합니다. 이 유형은 데이터 세트가 커질수록 특히 유용합니다. 데이터 세트가 클수록 고유 단어가 더 많이 포함되기 때문입니다. 고유하거나 거의 사용되지 않는 단어가 많으면 N그램과 같은 선형 모형에 문제가 발생할 수 있습니다. 이는 가능한 단어 시퀀스의 양이 증가하고 결과를 알려주는 패턴이 약해지기 때문입니다. 이 모델은 비선형 분산 방식으로 단어에 가중치를 부여함으로써 근사 단어에 대해 학습할 수 있으므로 알 수 없는 값에 현혹되지 않습니다. 주어진 단어에 대한 이해는 N그램 모델에서처럼 바로 주변 단어에 단단히 얽매이지 않습니다. 위에 열거된 모델은 보다 구체적인 변종 언어 모델이 파생된 보다 일반적인 통계 접근법입니다. 예를 들어 N그램 설명에서 언급했듯이 쿼리 우도 모델은 N그램 접근법을 사용하는 보다 구체적이거나 전문화된 모델입니다. 모델 유형은 서로 함께 사용할 수 있습니다. 기재된 모델은 복잡도도도 크게 다릅니다. 대체로 언어 자체는 매우 복잡하고 항상 진화하기 때문에 보다 복잡한 언어 모델이 NLP 태스크에 더 적합합니다. 따라서 지수 모델 또는 연속 공간 모델은 언어의 모호성과 변동을 고려하도록 설계되었기 때문에 NLP 작업에 대한 N그램보다 나을 수 있습니다. 좋은 언어 모델은 또한 텍스트의 멀리 떨어진 다른 부분에서 발생하는 단어에서 의미를 얻을 수 있는 단어들을 다루면서 장기적인 의존성을 처리할 수 있어야 한다. LM은 특정 고정 이력 내에서 항상 근접 단어에 의존하는 것이 아니라 원거리에서 단어가 다른 단어를 참조할 때 이해할 수 있어야 합니다. 이를 위해서는 보다 복잡한 모델이 필요합니다. 이러한 언어 모델링은 현대 NLP 애플리케이션에서 매우 중요합니다. 이것이 기계가 질적인 정보를 이해할 수 있는 이유입니다. 각 언어 모델 유형은 어떤 식으로든 질적 정보를 양적 정보로 변환합니다. 이것은 사람들이 서로와 같이 제한된 범위 내에서 기계와 통신할 수 있게 해줍니다. 기술, 금융, 의료, 교통, 법률, 군사 및 정부를 포함한 다양한 산업에서 직접 사용됩니다. 또한, 이 글을 읽는 대부분의 사람들은 구글 검색, 자동 완성 텍스트 기능, 음성 비서 기능 등 하루 중 어느 시점에서든 어떤 방식으로든 언어 모델과 상호작용을 했을 것입니다. 오늘날 존재하는 언어 모델링의 뿌리는 1948년으로 거슬러 올라갈 수 있습니다. 그 해에 클로드 섀넌은 소통의 수학적 이론이라는 제목의 논문을 발표했습니다. 이 책에서 그는 마르코프 연쇄라고 불리는 확률적 모델의 사용을 상세하게 설명하여 영어 텍스트에서 글자의 시퀀스에 대한 통계적 모델을 만들었습니다. 이 논문은 전기통신산업에 큰 영향을 미쳐 정보이론과 언어모델링을 위한 토대를 마련했습니다. 마르코프 모델은 오늘날에도 여전히 사용되고 있으며 특히 N그램은 개념과 매우 밀접하게 관련되어 있습니다. 이렇게 언어 모델링의 구조와 중요성에 대해서 살펴봤습니다.

반응형
댓글