推荐算法---peason相关系数

小编 2026-06-05 阅读:232 评论:0
#!/usr/local/bin/python2.7# encoding: utf-8impor...
#!/usr/local/bin/python2.7
# encoding: utf-8


import sys
import os

from argparse import ArgumentParser
from argparse import RawDescriptionHelpFormatter

from math import sqrt

import moivescore  # import module defined by yourself 
from rope.base.prefs import Prefs
from bokeh.models.tools import Scroll



# 利用欧几里德距离评价相关性
def sim_distance(prefs,p1,p2):
    si = {}  # mark the moive name that both appeared  p1 and p2
    for item in prefs[p1]:
#         print(item)
        if item in prefs[p2]:
            si[item] = 1
#             print(si)
    
    if len(si)==0: return 0  #  have no same moive
    
    # 利用欧几里德距离评价相关性
    sum_of_squares = sum([pow(prefs[p1][item]-prefs[p2][item], 2) for item in prefs[p1] if item in prefs[p2] ])
    
#     print(sum_of_squares)
    print(1/(1+sqrt(sum_of_squares)))
    
    return 1/(1+sqrt(sum_of_squares))
   
# 利用皮尔逊相关系数进行评价,可以修正评分中的夸大分值    
def sim_pearson(prefs,p1,p2):
    si = {}
    for item in prefs[p1]:
        if item in prefs[p2]:
            si[item] = 1
            
    if len(si)==0: return 0
    
    n = len(si)
    # EX
    sum1 = sum(prefs[p1][item] for item in si)
    # EY
    sum2 = sum(prefs[p2][item] for item in si)
    
    # EX2
    sqsum1 = sum(pow(prefs[p1][item],2) for item in si)
    # EY2
    sqsum2 = sum(pow(prefs[p2][item],2) for item in si)
    
    #EXY
    psum = sum(prefs[p1][item]*prefs[p2][item] for item in si)
    
    #EXY-EX*EY
    num = psum-(sum1*sum2/n)
    
    den = sqrt((sqsum1-pow(sum1,2)/n)*(sqsum2-pow(sum2,2)/n))
    
    if den == 0: return 0
    
    r = num/den
#     print(r)
    return r

# print(moivescore.critics['Lisa Rose']) # key and value

# print(moivescore.critics['Lisa Rose']['Lady in the Water'])

# sim_distance(moivescore.critics, 'Lisa Rose', 'Gene Seymour')
# sim_distance(moivescore.critics, 'Lisa Rose', 'Michael Phillips')
# sim_distance(moivescore.critics, 'Lisa Rose', 'Claudia Puig')
# sim_distance(moivescore.critics, 'Lisa Rose', 'Mick LaSalle')
# sim_distance(moivescore.critics, 'Lisa Rose', 'Jack Matthews')
# sim_distance(moivescore.critics, 'Lisa Rose', 'Toby')
# sim_distance(moivescore.critics, 'Lisa Rose', 'xiaoYu')
print('--------------------pearson--------------------------------')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Gene Seymour')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Michael Phillips')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Claudia Puig')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Mick LaSalle')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Jack Matthews')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'Toby')
# sim_pearson(moivescore.critics, 'Lisa Rose', 'xiaoYu')


# find the person who have the most likely taste with you
def topMatches(prefs,person,n=5,similarity=sim_pearson):
#     scores = [other for other in prefs if person!=other]
#     print(scores)
    scores = [(other,similarity(prefs,person,other)) for other in prefs if person!=other]
#     print(scores)
    scores.sort()
    scores.reverse()
    print(scores)
    print(scores[0:n])
    return scores[0:n] # return existing data from 0 to n
    
    
# topMatches(moivescore.critics, 'Lisa Rose', 1)

# use pearson to provide us a recommendation of the film
def getRecommendation(prefs,person,similarity=sim_pearson):
    totals={} # sum (similarity*score) all the movie which i havent see
    simSums={} # sum similarity of all the movie which i havent see
    for other in prefs:
        if other == person: continue
        sim = similarity(prefs,person,other)
        
        if sim<=0: continue
        
        for item in prefs[other]:
            # only estimate the movie this person never watched before, means he has no score on this movie
            if item not in prefs[person] or prefs[person][item]==0:
                totals.setdefault(item,0)
                # similarity*score
                totals[item]+=prefs[other][item]*sim
                
                simSums.setdefault(item,0)
                simSums[item]+=sim
                
                
    print(totals)
    print(simSums)
    
    # create a ranking list
    rankings = [(item,total/simSums[item]) for item,total in totals.items()]
    rankings.sort()
    rankings.reverse()
    print(rankings)
    return rankings
    
    
getRecommendation(moivescore.critics, 'Toby')
版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

热门文章
  • 机房智能化温湿度解决方式之POE供电以太网温湿度传感器

    机房智能化温湿度解决方式之POE供电以太网温湿度传感器
    机房智能化温湿度解决方式之POE供电以太网温湿度传感器 北京盈创力和电子科技有限公司 智能型TCP网口温湿度记录仪 北京IP网络温湿度记录仪厂家,北京盈创力和 北京智能型TCP网口温湿度记录仪IP网络温湿度记录仪是一种新型的基于TCP/IP协议双绞线以太网标准温湿度采集模块,利用它可以实现现场温度值、相对湿度值的采集,同时利用其自身的RJ45通信接口可以方便地和机房监控主机或交换机集线器进行联网。 工作于-40℃~85℃工业级带...
  • Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

    Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering
    Problem Statement 我们考虑一个具有马尔可夫性质、非线性、非高斯的状态空间模型(State Space Model):对于一个时间序列上的观测结果{yt,t∈N}\\{ y_t , t \\in N \\}{yt​,t∈N},我们认为每个观测结果yty_tyt​的生成依赖于一个无法直接观察的隐变量xt∈{xt,t∈N}x_t \\in \\{x_t , t \\in N \\}xt​∈{xt​,t∈N},即:p(...
  • HTTP状态保持的原理

    HTTP状态保持的原理
    a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied)服务接收到请求之后可以请 request 对象中取到cookie 判断当前用户是否登录  Http是无状态的,就是连接时数据互通,关闭后...
  • Hive 系统函数及示例

    Hive 系统函数及示例
    查看所有系统函数 show functions; 函数分类 内置函数【系统函数】 数学函数: floor、round、ceil、cos、log2等 字符串函数: length、reverse、trim、lower、get_json_object、repeat等 收集函数: size 转换函数: cast 日期函数: year、month、datediff、date、date_add等 条件函数: coalesce、case…w...
  • CSRF的原理和防范措施

    CSRF的原理和防范措施
    a)攻击原理:i.用户C访问正常网站A时进行登录,浏览器保存A的cookieii.用户C再访问攻击网站B,网站B上有某个隐藏的链接或者图片标签会自动请求网站A的URL地址,例如表单提交,传指定的参数iii.而攻击网站B在访问网站A的时候,浏览器会自动带上网站A的cookieiv.所以网站A在接收到请求之后可判断当前用户是登录状态,所以...
标签列表