word2vec 相関 回帰分析
2 views (last 30 days)
Show older comments
現在、word2vecの勉強中です。勉強の一環として、word2vecを用いて単語と満足度の相関を計算したいです。
今までは、単語の出現頻度(one-hot表現?)と製品の満足度の相関を取っていました。単語aと満足度の相関、単語bと満足度の相関、単語cと満足度の相関。以下の行列を作成して分析をしていました。
単語a 単語b 単語c ・・・満足度
A製品 2 1 0 5
B製品 3 2 3 3
C製品 1 1 1 2
・
・
・
今回は、単語の出現頻度ではなく、単語の出現頻度を元にword2vecを適用しその結果と満足度の計算したいのですが、そのようなことは可能でしょうか。
下記のURLを参考に試みました。
https://jp.mathworks.com/help/textanalytics/ref/wordembedding.writewordembedding.html#d120e46245
例えば、製品が10あれば、上記の行列のように10個の行が作成され、列は単語の種類によって増えると思います。
自身で用意したデータを「emb = trainWordEmbedding(documents)」を実行すると、36行×100列の結果となりました。
36行が単語の種類を表していると思いますが、100列はどこからきているのでしょうか。
もし、製品が10しかないのなら、36×10になると、単語の分散表現と満足度との相関が取れるのではと思いました。
MATLABではそのような分析を実施することは可能でしょうか。
0 Comments
Answers (0)
See Also
Categories
Find more on Statistics and Machine Learning Toolbox in Help Center and File Exchange
Community Treasure Hunt
Find the treasures in MATLAB Central and discover how the community can help you!
Start Hunting!