• 2009-10-27

    臭味相投

    前一篇文章有很多错误,所以更正一下。

    如果是基于用户的协同过滤,使用勾股定律的那种空间距离算法。

    THE ART OF THE START     INFORMATION RULES

    BOB 8 7

    SARAH 6 9

    计算得BOB和SARAH的近似度为:根号下,|8-6|平方+|7-9|平方,得2.83.

    这是基于用户的协同过滤的基础算法,也就是说,即使BOB给THE ART OF THE START打了2分,协同过滤也会把同样打了两分的人挑出来的,毕竟他和BOB之间更为臭味相投。同样地讨厌THE ART OF THE START这本书,都给了差评。(从几何距离上来说,差评用户和差评用户之间的距离较近)

    基于用户的协同过滤从算法上就已经考虑了差评用户之间的臭味相投。

    但还是因为上一篇所说的问题,协同过滤的计算量太大,尤其是基于用户的协同过滤。10万用户和10万本书的计算量是150亿次。在SCOTT WHEELER的文章中引用了术语:“维度之咒”,很形象地描述了这个算法的瓶颈。所以商业应用的协同过滤都需要海量的分布式计算。

    文章最后提出了机遇【有向图】的更易于理解的一种实时算法,这种算法无需离线计算,按原文的说法,是一个冷门儿的推荐算法。

    ===============================

    PS:

    1、SCOTCHI.NET

    2、DIRECTEDEDGE.COM


    历史上的今天:

    融资难 2008-10-27