julia での文字列集合の取り扱いと、2つの集合の類似性の指標となる係数の計算 julia での文字列集合の取り扱いと、2つの集合の類似性の指標となる Jaccard 係数、Simpson 係数、Dice 係数の係数の計算について記載します。R をご使用の方は、集合の入力部分を " 果物屋さんの商品 X と、八百屋さんの商品 Y の2つの集合と、八百屋さんの特売品 (Y の部分集合) である Z の全部で3つ集合を例にとります。 X = ["りんご" "みかん" "ぶどう" "マンゴー" "バナナ" "メロン" "ドラゴンフルーツ" "すいか"] Y = ["キャベツ" "ニンジン" "ゴボウ" "レンコン" "りんご" "バナナ" "みかん" "すいか"] Z = ["ニンジン" "ゴボウ" "りんご"] 基本的な集合演算は、どちらでにもある積集合 intersect(), 異なる差集合 setdiff() (順列があります)、すべての要素和集合 union() と、計算できます。 julia> intersect(X,Y) # 八百屋さんでも果物屋さんでも売っているもの 4-element Array{String,1}: "りんご" "みかん" "バナナ" "すいか" julia> setdiff(X,Y) # 果物屋さんでしか売っていないもの 4-element Array{String,1}: "ぶどう" "マンゴー" "メロン" "ドラゴンフルーツ" julia> setdiff(Y,X) # 八百屋さんでしか売っていな...