通过JAVA编程,使用余弦定理,相似度算法的实现
/**
* 计算带有权重的相似度
* @param dict1:Map<String,Integer>:Map<特征词,权重值>
* @param dict2:Map<String,Integer>:Map<特征词,权重值>
* @return
*/
public double similarity(Map<String,Integer> dict1,Map<String,Integer> dict2){
double similarity = 0.0, numerator = 0.0, denominator1 = 0.0, denominator2 = 0.0;
if(dict1.size()==0||dict2.size()==0){
similarity = 0.0;
return similarity;
}
int value1=0;
int value2=0;
int num = 0;
for(String keyword:dict1.keySet()){
value1 = dict1.get(keyword);
if(dict2.containsKey(keyword)){
value2 = dict2.get(keyword);
dict2.remove(keyword);
num++;
}else{
value2 = 0;
}
numerator += value1 * value2;
denominator1 += value1 * value1;
denominator2 += value2 * value2;
}
for(String keyword:dict2.keySet()){
value2 = dict2.get(keyword);
denominator2 += value2 * value2;
}
similarity = numerator / (Math.sqrt(denominator1 * denominator2));
return similarity;
}
分享到:
相关推荐
主要介绍了Java基于余弦方法实现的计算相似度算法,简单说明了余弦相似性的概念、原理并结合实例形式分析了java实现余弦相似性算法的相关操作技巧,需要的朋友可以参考下
Java 实现推荐系统 两个字符串 余弦相似度 算法。
主要介绍了java字符串相似度算法,是Java实现比较典型的算法,具有一定参考借鉴价值,需要的朋友可以参考下
Java之词义相似度计算(语义识别、词语情感趋势、词林相似度、拼音相似度、概念相似度、字面相似度)
JAVA查重算法,包括HanLP 相似度比较、二叉树、DFA算法实现、敏感词处理工具、IKAnalyzer中文分词工具、分词进行敏感词过滤等查重算法,可以计算海明距离、余弦相似性、莱文斯坦距离、Jaccard 相似度、Sorensen Dice...
使用JAVA编写的,分词、TFIDF相似度计算,K临近法聚类
用于个向量求相似度,main 函数里的int1,int2是编码,它们间的元素是可重复的。dou1是对应int1的值,dou2是对应int2的值。
基于字符串比较的高相似度检测算法,采用了字符索引、位置索引、后缀索引。java实现。测试通过。
两个字符串的相似度算法实现——编辑距离之Levenshtein距离
java 计算字符串相似度
Java基于协同过滤算法的电影推荐系统源代码,利用修正的余弦相似度算法做影片推荐
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
编辑距离:字符串的相似度 编辑距离的伪算法 java实现
javacv实现的用于实现两张图片相似度的算法
本代码通过Java代码计算DTW距离
java相似度源码 请查看我们的 3.0 版详细说明。 在Apache Spark上运行 JedAI 的代码可用。 可以使用用于运行 JedAI 的Web 应用程序。 提供了解释如何使用它的视频。 JedAI 也可用作Docker 映像。 请参阅下面的更多...
余弦相似性获取文章相似度的java实现,tf-idf算法实现
提出采用模式匹配中的基于字符串匹配的相似度算法,通过添加、删除、替换等操作还原文档,并计算文档间的相似距离,根据相似距离获得文档相似度,从而判断文档的抄袭比例。反抄袭算法的研究实现为遏制进一步恶化的抄袭...
Java字符串相似度 一个实现不同字符串相似度和距离度量的库。 当前实现了十二种算法(包括Levenshtein编辑距离和同级,Jaro-Winkler,最长公共子序列,余弦相似性等)。 查看下面的摘要表以获取完整列表... 下载 ...
公司名称相似度计算,公司名称相似度计算公司名称相似度计算公司名称相似度计算