Additive smoothing
概述
- 在统计学中,加法平滑(也称为拉普拉斯平滑(不要与图像处理中使用的拉普拉斯平滑混淆)或Lidstone平滑是用于平滑分类数据的技术。
- 鉴于一个观察来自一个具有N次试验的多项分布,数据的“平滑”版本给出了估算器。
- 在公式中伪距是一个平滑参数,对应没有采用平滑。
- 加法平滑是一种收缩估计,因为得到的估计将在经验概率(相对频率)与和均匀概率之间。
- 从贝叶斯的观点来看,这对应于后验分布的期望值,使用具有参数α作为先验分布的对称Dirichlet分布。 在类别数为2的特殊情况下,这相当于使用Beta分布作为二项分布参数的共轭先验。
历史
当他试图估计明天太阳升起的可能性时,拉普拉斯想出了这种平滑技术。 他的理由是,即使有太阳升起的大量日子,我们仍然不能完全确定明天太阳仍会升起(称为日出问题)
伪距
伪距是一个量(通常不是整数)被添加到观察到的案例的数量,以便在不知道为零时改变那些数据的模型中的预期概率。之所以如此命名是因为粗略地说是伪计数值与后验分布类似,具有附加计数的每个类别。如果每个条目i的频率来自于N个样本,那么事件i的经验概率为:。加性平滑后的后验概率是
Additive smoothing
概述
- 在统计学中,加法平滑(也称为拉普拉斯平滑(不要与图像处理中使用的拉普拉斯平滑混淆)或Lidstone平滑是用于平滑分类数据的技术。
- 鉴于一个观察来自一个具有N次试验的多项分布,数据的“平滑”版本给出了估算器。
- 在公式中伪距是一个平滑参数,对应没有采用平滑。
- 加法平滑是一种收缩估计,因为得到的估计将在经验概率(相对频率)与和均匀概率之间。
- 从贝叶斯的观点来看,这对应于后验分布的期望值,使用具有参数α作为先验分布的对称Dirichlet分布。 在类别数为2的特殊情况下,这相当于使用Beta分布作为二项分布参数的共轭先验。
历史
当他试图估计明天太阳升起的可能性时,拉普拉斯想出了这种平滑技术。 他的理由是,即使有太阳升起的大量日子,我们仍然不能完全确定明天太阳仍会升起(称为日出问题)
伪距
伪距是一个量(通常不是整数)被添加到观察到的案例的数量,以便在不知道为零时改变那些数据的模型中的预期概率。之所以如此命名是因为粗略地说是伪计数值与后验分布类似,具有附加计数的每个类别。如果每个条目i的频率来自于N个样本,那么事件i的经验概率为:。加性平滑后的后验概率是