权重是什么意思（权重基本原理）

重量是什么意思(重量的基本原理)

电商在行业里干了很多年，在世代里也干了很多年。一直期待有一套理论能够系统的总结电商运营的本质，总结现象背后的原理，进而解释电商运营中的各种现象。从日常生活中提取智慧，再用智慧指导日常操作，最终形成知识的深度凝结和深度沉淀。我写这篇文章是为了抛砖引玉，希望能够冷静地建立和检验电子商务运营的理论体系。俗话说，辩出真知。如有不足，欢迎暴力拍砖。

- -

什么是重量？

作为电商运营，对于权重这个词并不陌生。我们经常听到刷单会减力，改标题会减力，改主图会减力等等。那么到底是什么重量呢？

先看百科上的解释:权重是指某一因素或指标相对于某一事物的重要性，不同于一般的比例。既反映了某一因素或指标所占的百分比，又强调了该因素或指标的相对重要性，倾向于贡献或重要。

我们常说的权重其实是搜索排名的决定因素。做电商， *** ，送货，售后等。相对容易解决。让大家觉得难的是获取流量。如果车水马龙，就坐在地上数钱就好了。想想也挺好玩的。想要在平台中获得大量的流量，就需要一个好的排名，而好的排名离不开更高的权重。

代王会怎么样？

我们先来思考一个问题——我们正在浏览的Paidai.com是如何解决帖子的排序问题的？

作为电商聚集地，代发的帖子总数现已超过36万，并以日均100条的速度持续高速增长。派代用什么 *** 筛选优质帖子？哪些在前面，哪些在后面，哪些会先推给卡友？这背后的逻辑是什么？

依靠派代网的员工把这30多万条帖子一条一条的看完然后人工整理肯定是不现实的，需要很大的人力物力成本。常见的做法是通过算法模型计算出每个帖子的权重，按照权重值降序排列，这样权重值更高的“更好”的帖子会先呈现给用户。

但是，重量计算离不开最基础的原材料——数据，那么数据从何而来呢？就拿我们的拍贷网来说吧:

数据收集-重量的基本原材料

用户打开派代。com，看到帖子列表，点击感兴趣的话题，浏览阅读，收集他们认为有价值的，在评论区呼唤有共鸣的，有问题在评论区讨论，点击作者头像，看是否有更多系列文章。这些是论坛中用户的主要行动轨迹。

基于以上行为，论坛会在后台统计每个用户的行为，进而形成多个数据纬度，如展示量、点击量、停留时长、收藏数、评论数、访问深度等。

在用户点击鼠标浏览的同时，论坛将用户的行为记录为计算机语言——数据。从计算机的角度来看，用户在它眼中看到的浏览行为如下:

用户打开 *** *** ，看到帖子列表——后台形成展示量数据。

选择感兴趣的话题，点击进入——点击数据在后台形成。

浏览和阅读-背景形成停留时间的数据。

觉得有价值的就会收藏——收藏号的数据在后台形成。

有共鸣的会在评论区打 *** ，有问题的会在评论区讨论——后台形成评论数。

如果你觉得作者写得很好，不喜欢看，你就点开作者的头像，看看有没有更多的系列文章——后台表单访问深度数据。

通过对这些数据进行加权，最终可以得到一个综合的权重分数，通过这个分数可以判断哪些帖子是高质量的，进而给予高质量的帖子更多的曝光机会。

至于帖子的内容，是生动有趣还是味道像嚼蜡，计算机不具备判断能力。他像个孩子一样站在我们面前。我们看帖子，他观察我们的态度:我们是看得津津有味还是看得敷衍了事？虽然他看不懂文章，但是他可以通过我们的态度来判断帖子的好坏。

算法是如何加权的？

如何用数据计算重量？让我们看一个简单的例子。

某中学初三有100名学生，期末考试成绩如下。通常的排名方式是直接将各科成绩相加得到总分，然后将总分按降序排列(由大到小)。总分排名的结果是学号为49的若愚排名年级之一，总分按降序排列如图:

现在学校需要选拔三个学生参加全国物理竞赛，成绩优秀的可以保送名牌大学。如果按照物理单科成绩降序排列，可以看到50号的邵会是物理单科之一名。

以总分排名或单项物理成绩排名来决定参赛人员要容易得多。你只需要拿到总分表或者物理成绩排名表的前三名。但是学校要考虑到，一方面要有好的物理成绩，这样才能在这次全国物理竞赛中取得优异的成绩，为学校争光。另一方面，要保证参赛学生的总成绩也是优秀的，否则真的清华走到北大那就是九牛一毛了。这时候就需要考虑物理单科成绩和总分两个数据维度了。谁将被派去参加比赛？当需要两个以上的数据维度来共同影响决策结果时，我们需要使用权重，对多个维度的数据计算总的权重分数，然后对权重分数进行排序，得到想要的结果。

学校的教导主任给出了最终的加权公式如下:

加权总成绩=数学*2+语文*2+英语*2+化学*1+生物*1+物理*5。

院长认为参加物理竞赛，物理分数最重要，分数乘以5倍。其次，数学、语文、英语为基础科目，分值乘以2，化学、生物不变，乘以1。即总权重分数等于2倍的标准化数学、语文、英语成绩，加上1倍的标准化生物、化学成绩，加上5倍的标准化物理成绩。

*说明各科成绩在乘以系数之前已经标准化了，因为数据和数据不一样。满分150分的科目(如英语、语文)考90分和满分100分的科目(物化生)考90分的意义是不同的。比如英语150分考了90分，但是改成百分制的时候刚刚及格(100分只有60分)。和满分100分的90分比起来，显然不是一个概念。所以我们需要将数据标准化，将所有科目的更高分和更低分映射到0-1 空的范围内，然后对所有科目的分数进行加权。

数据标准化公式:x*=(x-min)/(max-min)

最终的加权计算结果如下图所示:

根据院长的加权算法，结果是总成绩分别排名之一、第六、第十七，单项物理成绩分别排名第九、第四、之一的若愚、景琦、邵会三位同学将参加比赛。

这样通过对几个学科进行加权，得到加权权重分数，最终得到想要的结果:兼顾物理分数和总分；身体成绩最重要；同时，在总分中，语言外的分数比化学和生物的分数更重要。

物理成绩占加权权重分值的比例为39%。

导向器权重公式中的权重值可以自由定义。本文采用5、3、1的比例。不同的权重比例会导致不同的最终选择结果。这个权重计算小工具可以应用于关键字筛选。关键词有很多数据维度，如现金量、点击率、点击率、转化率等。当需要兼顾多个数据维度的筛选时，比如寻找转化率高、搜索热度高、点击率低的词，可以通过这种 *** 自定义多个数据维度的权重，筛选出我们想要的关键词。

真实排名算法——reddit网站的排名算法

上面的学生排名只是一个简单的例子。现实世界中的加权算法是什么样的？

以国外知名论坛reddit为例，了解算法是如何工作的。(为什么不用国内论坛解释？因为国内论坛算法不公开(可惜现在国内不能直接访问reddit))

- -

以下关于reddit网站排名算法的内容转载自阮一峰的博客。

原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ reddit.html

reddit网站的排名算法如下:

Reddit是美国更大的 *** 社区，它的每个帖子前面都有上下箭头，分别表示“是”和“否”。用户点击投票，Reddit根据投票结果计算出最新的“热门文章排行榜”。

怎样才能把赞成票和反对票结合起来计算出一段时间内更受欢迎的文章？如果A条100票赞成，5票反对，B条1000票赞成，950票反对，谁应该排之一？

Reddit的程序是开源的，用Python语言编写。排名算法的代码大致如下:

该代码考虑了以下因素:

(1)后t的新颖

T =发布时间-2005年12月8日7:46:43

t的单位是秒，用unix时间戳计算。不难看出，帖子一旦发布，T就是一个固定值，不会随时间变化。而且，帖子越新，T值越大。至于2005年12月8日，应该是Reddit成立的时间。

(2)赞成票和反对票之间的差额x

X =是-否

(3)投票方向Y

y是一个符号变量，表示文章的整体观点。如果赞成票多，y为+1；如果有多数反对票，Y为-1；如果赞成票和反对票相等，y为0。

(4)对z后的肯定(否定)程度

z代表赞成票和反对票之差的绝对值。对一个帖子的评价越片面，Z就越大。如果yes等于no，z等于1。

综合以上变量，Reddit最终得分计算公式如下:

这个公式可以分为两部分来讨论:

(一)

这部分表示赞成票和反对票之差Z越大，得分越高。

需要注意的是，这里用的是以10为底的对数，也就是说z=10可以得1分，z=100可以得2分。也就是说，前10个投票者的权重和后90个投票者(甚至是后900个投票者)的权重是一样的，也就是说，如果一个帖子特别受欢迎，你投的越晚，对分数的影响就越小。

当yes等于no时，z=1，所以这部分等于0，即不产生分数。

(二)

这部分表示T越大得分越高，即新帖会比旧帖得分高。它会自动拉低旧帖子的排名。

45000秒的分母等于12.5小时，也就是第二天的帖子会比前一天的帖子多得2分。结合前面的部分可以得出结论，如果前一天的帖子第二天还想保持原来的排名，那么这一天它的Z值必须增加100倍(净赞成票增加100倍)。

y的作用是产生加分或减分。当赞成票超过反对票时，这部分为正，起到加分作用；当赞成票数少于反对票数时，这部分为负数，起减分作用；当两者相等时，这部分为0。这样保证了净票数多的文章会排在前列；接近或等于反对票的文章会排在后面；获得净反对票的文章将排在最后(因为分数是负数)。

(3) 3)

这种算法的一个问题是，对于那些有争议的文章(正反意见非常接近)，不能排在最前面。假设有两篇帖子同时发布，文章A有1张赞成票(发帖人投票)和0张反对票，文章B有1000张赞成票和1000张反对票，那么A的排名就会高于B，这显然是不合理的。

总结一下，Reddit的排名基本上是由发帖时间决定的，超热门文章排在最前面，一般热门文章和争议性文章排名都不是很高。这就决定了Reddit是一个符合大众口味的社区，而不是一个可以展示小众思想的非常激进的地方。

以上关于reddit网站排名算法的内容转载自阮一峰博客。

原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ reddit.html

- -

加权算法的两个核心要素:数据+算法

*** 的数据

现在我们来看看 *** ，回忆一下买家在 *** 平台上的行动轨迹是什么样的:

买家有购买意向；打开 *** ；搜索关键词；点击感兴趣的商品；收藏和购买；比较多个宝贝；支付；等待收据；确认收货；评估蓝图…

同样， *** 平台也会将买家的行为记录为数据。截至目前，业务人员统计数据指标1960个(数据来源:业务人员-学院-帮扶中心)。当然，这还不包括直通车等营销工具的数据，还有一些数据是 *** 统计过但尚未公开的。

电商平台以购物为主，一切围绕产品。我们专注于产品相关的数据进行分析。业务人员中有39个与产品相关的已发布和可下载的数据维度(数据来源:业务人员-权限-商品)。这39个数据维度可以归为四大方向:呈现/访问/转换/交易。

数据分类脑图如下:

1.呈现/曝光:产品出现在消费者面前，比如搜索结果页、活动页。

2.访问/浏览:买家浏览店铺、产品、评价等页面。一次或多次，从呈现转变为流量。

3.转化/互动/沟通:买家收藏、添加、咨询、下单、支付等。对于感兴趣的产品，流程就变成了订单。

4.交易/评价:付款后，直至最终确认收货、退换货、打印评价等。，从秩序到金钱。

这四个方向是买家在整个购物过程中的关键节点。

*** 的算法

从前端消费者的角度来看， *** 有两种常用的排序方式:综合排序和销售排序(价格和信用排序的用户体验差，使用频率低，所以这些排序入口的流量很小，可以忽略不计)。不同的排序方式对应不同的算法。

销售排序算法:分数=确认收件人数。

销量排序只考察一个数据指标——确认收件人数。具体定义是:统计产品最近30天的成功交易次数，剔除重复购买，剔除退货和退款，剔除不计算销量的活动，汇总计算。

*** ，综合排序算法，没有公开。虽然很神秘，但也不是不可追查。综合搜索主要考察以下几个方面:

1.文本与类别的相关性:解决了是否可搜索的问题。只要能在销量排名下的关键词下搜索到产品，就说明没有问题。从平台的角度来说，这部分工作需要匹配文字信息(标题、属性、细节中的文字等。)的a .用b .产品ID和c .搜索关键词描述产品。

2.商品人气数据和搜索反馈数据等。:解决了谁先谁后的问题。由产品模型、门店模型、服务模型、物流模型、内容模型等多个数据维度综合加权计算得出。

3.作弊检测模型:解决了作弊商品的过滤问题。

销量排名和综合排名类似于前面提到的物理单科排名和综合加权总分排名。一个是单维度的排序:销量的排序，一个是多维度的排序:综合排序。单一维度是深思熟虑的，只考察了一个数据维度，而综合则是更全面更系统的考察。综合排序还包括 *** 平台对新品的支持和对飙升商品的助推。

如果说销售排名只是考察一个学生的最终总成绩，那么综合排名就像是考察学生每天的课堂表现，有没有迟到，每天的作业完成情况，平时的考试成绩等等。除了最后的总分。

有条件的话，更好优化各项数据指标，全面系统的提升整体竞争力。当然，这也需要更多的人力物力。如果条件不允许，作为中小卖家，我们会更侧重于销售排名这个维度。运营只需要专注销售一个数据指标，其他数据可以由别人来承载，可以达到很好的效果。换句话说，如果电商运营只能做一件事，那就是紧盯销售数据。之所以这样，是因为销量排名简单粗暴。我们的高考可以理解为销量排名，只考察高考总分的一个数据。换句话说，只要能过录取线，写作业写没写，去没去上课都不是录取的依据。只有高考总分才能谈英雄。

以及数据算法的运行机制。

上述与产品相关的四大类目是买家购物的四个节点，也是 *** 平台排名机制动态运行的四个节点:

1.显示/暴露

2.访问/浏览

3.转型/互动/沟通

4.结束/评估

一个循环周期是从1到4。

我们从1开始。展示，产品就暴露在买家面前。如果买家感兴趣，则进入第二阶段:点击访问，浏览产品主图、详情、评价等。如果买方认可该产品，它将收集、购买并下单付款。此时，第三阶段完成；卖家组织发货，快递，买家签收。如果没有退货，买家会确认收货。此时支付资金从支付宝转入卖家账户，交易全过程完成，即完成第四阶段。然后根据2、3、4三个阶段买家的数据反馈，平台决定1，也就是商品展示的位置，于是开始新的循环，这就是 *** 搜索的商业逻辑。

在这个循环的过程中，由于每个产品的数据表现不尽相同，有的产品暴涨，有的则掉头。

运营的核心:控制数据

数据决定了一个产品的生死，那么它是如何影响的呢？如何管理数据？

运营者的核心工作是控制数据，数据是由购买者的行为产生的，所以要通过引导购买者的行为来影响数据的增长。比如我们要采集采购数据，就加一句“采集采购优先发货”；如果想要点击率数据，我们会 *** 和优化产品主图，满足买家的期望，吸引买家的点击；如果要打印评估数据，我们将制定打印奖励的激励机制。

这些数据需要达到多少？人员控制数据的目标和参考系统是什么？

数据级的根源。

当只有一个事物独立存在时，就没有好坏之分。好与坏都是相对的，都是比较的结果。

身高180cm？身高是相对于身高而言的。和小学生相比，180的身高相当于一个巨人。当站在NBA球员中间，这个同样是180身高的人瞬间变成了“小学生”。

一个产品每月卖5000件。这个优优资源网是销量很高的产品吗？看同行，同行是更低1万块起步，还是每月更高1000块卖出。

数学和英语三门都是96。这是优等生吗？你看同学们，不管同学们是双百还是90分起步都是更高分。

所有的数据指标都没有固定的参考值，比如500或者10000。在 *** 平台，作为一个对比系统，取同行业平均值作为参考值。每个子行业都会有不同行业的特点，每个行业的标准也来源于这个行业的整体表现，所以相对公平客观。 *** 的数据有两个参考值，一个是同行业平均，一个是同行业优秀。同级别优秀是指行业前10%的平均值，假设总共有100人，则是前10名成绩的平均值；同水平的平均值是指行业前40%的平均值。假设总共100人，指的是成绩前40名的平均值。

同等级是指平台根据店铺的销量分为7个等级(1-7)。就像打游戏一样，青铜和黄金是指定的。青铜是青铜，黄金是黄金。我们匹配销量相近、水平相同的竞争对手。无论行业市场如何波动，同一级别的商家都是相似的起点，看在同样的环境下谁跑得更快，谁跑得更稳。

产品或店铺是涨是跌，对比两条参考线就一目了然了。比如产品数据虽然每天都在飙升，但是飙升的速度小于行业平均速度，如果逆水行舟就会回落。当以行业平均水平为水平线时，上升速度B在走下坡路，如下图所示。

该算法的目的是消除高度。好不好，数据说了算。数据是增加还是减少，买家说了算。其实数据是成千上万买家共同决策的结果，数据的高低决定了排名顺序。

差距是怎么产生的？

以 *** 平台为例，比赛从展会一开始就开始了。我们以200展为例，模拟一下产品是如何一步步拉开差距的。

| Exposition(曝光度):统计时间内某商品在搜索中显示的次数。

在这里，我们模拟搜索结果页面中的前40个商品，假设买家搜索关键词后会出现在买家面前，买家最终会选择其中一个点击。200个显示，换句话说，200个买家同时到达这个页面。所有40个产品都可以看到，但只有一个产品被点击。这是200名买家在到达搜索结果页面后选择不同产品的模拟结果。

我们可以发现，在第1页的同一个位置，同样的200个买家到了这个页面后，每个产品得到的是200个展示的数据(40个产品全部被看到)。强势产品带走了大量点击(如图最多20次)，弱势产品甚至没有任何展示。有些人很富有，有些人半饥饿。40个产品同时到达了第1页的位置，但是不同的数据表现在将决定它们的下一个排名位置。在这40款产品中，点击率排名前3的分别是1号产品20、5号产品18、2号产品16，对应的点击率分别是1号产品10%、2号产品9%、3号产品8%。

这200个展示周期后，按照点击率降序排列，得出新的排名。这时候每个产品获得点击率的能力有高有低，也决定了这些产品未来的命运:这40个产品的成绩在全年级排名:尖子生分到强化班打清华北大，优秀生要好好培养。普通学生要多努力才能进二本，成绩差的学生要考一个比较好的专业。关键是这就是清华北大学霸和专科生的差距是怎么拉开的。区分学霸和学渣的，与其说是高考成绩，不如说是决定学霸和学渣的日常表现。

权重回归算法

通过数据购买者的对比，平台根据业务逻辑设计加权算法，最终通过产品的数据表现总结出产品的竞争力。就好像年级总分排名不仅仅是分数一样。分数是一个学生学习能力的一部分，最终目的是用分数排名对学生的学习能力进行排名。最后的排名其实就是综合竞技能力的排名。

所有加权算法的原材料都是反映买家真实意愿的基础数据，比如点击量、付费人数等。通过对比生成数据，然后根据数据汇总权重。加权算法的目的是通过数据勾勒出产品竞争力，并以此作为决策的依据，将竞争力强的产品排在前列。

获得一个好的排名并不是最终目的。有一个好的排名只是完成了一半。另一半更重要的是证明你配得上现在的排名，配得上更好的排名，配得上更高的名次。这是一个自我证明的动态过程。

每个人都是审计员。

Pai，reddit， *** ，最后每一个帖子，每一件商品都会人工审核，但是负责审核的人分布在全国各地，不收任何报酬。其实这些人就是作为用户的你我。我们是平台里负责审核帖子或产品的“工人”。我们是付款人。平台会设置检查点，收集整理我们在每个检查点留下的数据，通过数据加权算法最终确定帖子或产品的质量。每一个用户都“无私奉献”自己的时间参与产品审核，同时每一个用户都可以享受到千万用户审核的劳动成果，轻松找到经过多次审核测试的优质产品。这个时候，我们就是受益者。这是互联网时代的一大创举。每个人都可以在付出的同时享受。是一种互助互利的方式。

通过平台权重算法，越来越多的人不断反复验证——到底是骡子还是马。真金不怕火炼，群众的眼睛是雪亮的，真正优秀的产品一定会被挖掘出来。他们是否优秀，时间会给出答案。