word2vec　相関　回帰分析

8 Mar 2021

0 Answers

2 Views (30 days)

0 votes

現在、word2vecの勉強中です。勉強の一環として、word2vecを用いて単語と満足度の相関を計算したいです。

今までは、単語の出現頻度（one-hot表現？）と製品の満足度の相関を取っていました。単語aと満足度の相関、単語bと満足度の相関、単語cと満足度の相関。以下の行列を作成して分析をしていました。

単語a 単語b 単語c ・・・満足度

A製品 2 1 0 5

B製品 3 2 3 3

C製品 1 1 1 2

・

今回は、単語の出現頻度ではなく、単語の出現頻度を元にword2vecを適用しその結果と満足度の計算したいのですが、そのようなことは可能でしょうか。

下記のURLを参考に試みました。

https://jp.mathworks.com/help/textanalytics/ref/wordembedding.writewordembedding.html#d120e46245

例えば、製品が10あれば、上記の行列のように10個の行が作成され、列は単語の種類によって増えると思います。

自身で用意したデータを「emb = trainWordEmbedding(documents)」を実行すると、36行×100列の結果となりました。

36行が単語の種類を表していると思いますが、100列はどこからきているのでしょうか。

もし、製品が10しかないのなら、36×10になると、単語の分散表現と満足度との相関が取れるのではと思いました。

MATLABではそのような分析を実施することは可能でしょうか。

0 Comments
Show -2 older comments Hide -2 older comments

Find the treasures in MATLAB Central and discover how the community can help you!