doc2vec 예제

By August 2, 2019Uncategorized

“신용 보고”로 태그가 지정된 불만 제기 이야기예인 교육 항목의 모습입니다. 문서를 로드한 후 doc2vec 모델을 빌드할 수 있습니다. 예, 한 줄만 있습니다. 우리는 문서에 전달하고 하이퍼 매개 변수를 할당 할 수 있습니다. 메서드에 대한 전체 버전은 여기에서 찾을 수 있습니다 6. dm = 0이면 dbow 모델을 훈련하고 있습니다. 크기 = 20은 문서 벡터의 차원을 정의합니다. 우리가 여기에 문서를 전달하여 초기화하는 경우, 우리는 어휘를 구축 할 필요가 없습니다, 그것은 그 자체로 이루어집니다. 학습 속도 (알파)를 변경 하 여 다양 한 시대에 대 한 훈련 수 있습니다. 이 개체는 기본적으로 단어와 포함 사이의 매핑을 포함 합니다. 교육 후 다양한 방법으로 해당 포함을 쿼리하는 데 직접 사용할 수 있습니다. 예제는 모듈 수준 문서 문자열을 참조하십시오.

당신이 word2vec을 이해한다면 word2vec의 확장이기 때문에 Doc2vec을 이해하는 것이 더 쉬울 것입니다. 따라서 doc2vec의 목적은 코퍼스의 모든 단어에 대한 기능 벡터를 계산하는 word2vec과 달리 문장 / 단락 / 문서의 수치 표현을 만드는 것입니다. doc2vec에 의해 생성 된 벡터는 문장 / 단락 / 문서 사이의 유사성을 찾는 등의 작업에 사용할 수 있습니다 실제로, 내 “문서”문장의 일종이다. 여기에 당신이 예입니다 : 1dMfLpLde 1dLfLpMde 1dLfLpLde 1dLfHpLgh 1dHfLpLde 1dLfMpLlde 1dLfMpLth 1dLfMpLlth 1dLfMpLde 1dLfLpLde 1dLfLfLde 1dLfLfLDe 1dLfLfHpLgLg l 1dLfHpLgh 1dMfLpMde 1dHfLpLde 1dLfLpLde 1dLfHpLgh 1dLfLpLde 1dLfHpMgh 1dLfMpMbh 1dLfHpHgl 1dLfLpMde 1dLfLpMde 1dLfFHpMmgh 1dLfHpMgh 1dLfMpLgl 1dMFLpMde 1dLfLpMde 1dLfMpLbh 1dLfLpLlde 1dLfHpLMde 1dLfLpLde 1dLfHpLgh 1dLfLLLLbl 1dLfHpLgh 1dLfMpLgl 1dLfHpLgh 1dLfLL1LfPMpLbh 1dLfHpMgl 1dLfHpMgl 1dLfHpLgh 1dLfHpLgh 1dLfHpLgh 하자 불만의 몇 가지 예를 살펴 보자 내러티브 및 관련 제품. DBOW는 word2vec의 건너 뛰기 그램 모델과 유사한 doc2vec 모델입니다. 단락 벡터는 단락에서 임의로 샘플링된 단어를 주어진 단락에서 단어의 확률 분포를 예측하는 작업에 대한 신경망을 훈련시킴으로써 얻어진다. Quora는 다른 위치에서 사용자에 의해 추가 되는 중복 된 질문을 많이 가져옵니다 및 Quora의 주요 의도 전문가 또는 질문 되 고에 대 한 그들의 의견을 제공 하는 다른 사용자에 의해 대답 될 수 있는 독특한 질문을 가지고. 이 대회의 주요 목표는 질문의 쌍을 통해 이동하고 그들이 동일한지 여부를 식별하는 것입니다. 예를 들어, 쿼리 “미국에서 가장 인구가 많은 상태는 무엇입니까?” 그리고 “미국에서 가장 많은 사람들이 있는 상태?” 둘 다 뒤에 의도 는 동일 하기 때문에 Quora에 별도로 존재 하지 않아야 합니다 지금 우리는 doc2vec를 사용 하 여 (Gensim를 사용 하 여) 그리고 찾을 수 있습니다. 중복 질문 쌍, Quora 안녕에 의해 Kaggle에 호스팅 경쟁 나는 모든 코드가 여기에 있는지 궁금했다 (또는 github에?). 나는 사용하는 참조가 확실하지 않다Model() PCA의 플롯에. doc2vec에 대한 좋은 설명, 명확하게 설명.

(초기) 알파에서 min_alpha로의 선형 학습 률 감소와 정확한 진행률 로깅을 지원하려면 total_example(문서 수) 또는 total_words(문서의 원시 단어 수)를 제공해야 합니다. 문서가 build_vocab() 이전에 제공된 것과 동일한 모음인 경우 total_examples=self.corpus_count를 간단히 사용할 수 있습니다. 다음 코드는 doc2vec 모델에 대한 입력으로 교육 및 테스트 문서를 만드는 동안 사용되는 토큰화를 위해 csv 및 함수에서 데이터를 읽는 것입니다. 데이터에는 2448 개의 행이 있으며 교육을 위해 처음 2000 행을 선택하고 나머지는 테스트를 위해 선택했습니다. doc2vec을 이해하려면 word2vec 접근 방식을 이해하는 것이 좋습니다. 그러나 전체 수학적 세부 정보는 이 문서의 범위를 벗어납니다. 당신이 word2vec 및 doc2vec에 새로운 경우, 다음 리소스는 시작하는 데 도움이 될 수 있습니다 : 나는 파이썬 3 (윈도우)에있어 doc2vectest.py 실행하려고 할 때 다음과 같은 오류를 얻을 : 이 문서의 경우, 그러나, 젠심의 튜토리얼에서, doc2vec을 훈련하기 위해 교육 세트를 사용 , 전체 데이터 세트는 교육에 사용되었다, 나는 우리의 소비자 불만 분류에 대한 doc2vec 분류기를 훈련하기 위해 전체 데이터 세트를 사용하여, 나는 70 %의 정확도를 달성 할 수 있었다, 그 접근 방식을 시도했다.