Yuriy Vovanych (buriy) wrote,
Yuriy Vovanych
buriy

AdaGram.jl часть два.

Уменьшив alpha до 0.05, ограничив максимальное число значений до 4х, всё равно получил в среднем 3.7 значений на слово. Повлияло также окно размера 7 (больше размер окна -- ближе к семантике и дальше от синтаксиса) и две эпохи обучения. Вектора размерности 100.
Теперь могу уточнить своё знание о том, что за "значения" этот инструмент получает.
Ситуация с "четвергом" принципиально не поменялась, поэтому на этот раз возьмём для примера слово "Катар":
julia> nearest_neighbors(vm, dict, "Катар", 1, 35)

35-element Array{(Any,Any,Any),1}:
("ОАЭ",1,0.9297502f0)
("Кувейт",2,0.9148056f0)
("Бахрейн",1,0.90591645f0)
("Иордания",1,0.88294494f0)
("Арабский",1,0.86926484f0)
("Эмират",1,0.8660864f0)
("Объединить",3,0.8589845f0)
("Оман",1,0.8081826f0)
("Ливия",2,0.79273564f0)
("Египет",1,0.79228103f0)
("Нигерия",3,0.787652f0)
("Эквадор",1,0.7788765f0)
("Марокко",1,0.7755308f0)
("Аравия",4,0.72666585f0)
неплохой список стран региона Ближнего Востока.

julia> nearest_neighbors(vm, dict, "Катар", 2, 35)
35-element Array{(Any,Any,Any),1}:
("ОАЭ",3,0.84404665f0)
("Хамада",1,0.8335547f0)
("Доха",2,0.83066094f0)
("Тамим",1,0.8301116f0)
("шейх",1,0.82583797f0)
("Абу",2,0.82333213f0)
("Халиф",1,0.8216966f0)
("Абдулл",2,0.81679976f0)
("Тамить",1,0.81630695f0)
("бин",2,0.8128129f0)
включает правителей этих стран.

julia> nearest_neighbors(vm, dict, "Катар", 3, 35)
35-element Array{(Any,Any,Any),1}:
("2022",1,0.9275499f0)
("2018",2,0.8829051f0)
("ЧМ",2,0.8825042f0)
("хозяин",3,0.8703245f0)
("хозяйка",1,0.84868616f0)
("2026",2,0.84410655f0)
("мундиаля",1,0.80907196f0)
("чемпионат",2,0.80769455f0)
("организатор",2,0.80065596f0)
("мундиалея",1,0.7988202f0)
("мундиалей",1,0.7700517f0)
чемпионат мира по футболу в Катаре

julia> nearest_neighbors(vm, dict, "Катар", 4, 35)
35-element Array{(Any,Any,Any),1}:
("Аравия",2,0.85018635f0)
("Саудовский",1,0.8452133f0)
("монархия",1,0.83098644f0)
("КСА",1,0.81797254f0)
("Залив",2,0.7933519f0)
("Египет",1,0.7917517f0)
("саудит",2,0.78147614f0)
("аравийский",2,0.77139294f0)
("Саудит",1,0.76928663f0)
("Пакистан",2,0.7540018f0)
("Персидский",3,0.74907285f0)
("Йемен",4,0.7450608f0)
Страны персидского залива? В общем, близко к первому значению.
Там кстати была Аравия4, а здесь Аравия2, но Египет1 общий.



Таким образом, даже если значение слова одно и то же, но используется данное слово в разных контекстах, то разные значения этого слова попадают в области, зависимые от этих разных центров притяжения.
Система, не обладая знаниями смыслов реального мира, никак не может отличить эту ситуацию от действительно разных значений одного и того же слова.
Таким образом, становится непонятным, какую задачу данная технология на самом деле решает.
Более общие выводы напишу отдельным постом.
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments