深度学习数学基础概率与信息论

　　前言概率论学科定义
　　概率论是用于表示 不确定性声明的数学框架 。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性 声明 （ statement  ）的公理。概率论的知识在机器学习和深度学习领域都有广泛应用，是学习这两门学科的基础。概率与信息论在人工智能领域的应用
　　在人工智能领域，概率论主要有两种用途。 首先，概率定律告诉我们  AI   系统应该如何推理，基于此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的  AI   系统的行为。
　　虽然概率论允许我们在存在不确定性的情况下 做出不确定的陈述和推理 ，但信息论允许我们量化概率分布中不确定性的数量。 3.1，为什么要使用概率论
　　这是因为机器学习必须始终 处理不确定的量 ，有时可能还需要处理随机（非确定性）的量，这里的不确定性和随机性可能来自多个方面。而使用使用概率论来量化不确定性的论据，是来源于 20 世纪 80 年代的 Pearl (1988) 的工作。
　　不确定性有三种可能的来源: 被建模系统内在的随机性。 不完全观测。 不完全建模：使用了一些必须舍弃某些观测信息的模型。 3.2，随机变量
　　随机变量 （ random variable  ）是可以随机地取不同值的变量，它可以是离散或者连续的。
　　离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数; 它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意，随机变量只是对可能状态的描述；它必须与指定这些状态中的每一个的可能性的概率分布相结合。
　　我们通常用无格式字体 ( plain typeface  ) 中的小写字母来表示随机变量本身，而用手写体中的小写字母来表示随机变量能够取到的值。例如， x_1x1 和 x_2x2 都是随机变量 	extrm{x}x 可能的取值。对于向量值变量，我们会将随机变量写成 mathbf{x}x，它的一个可能取值为 boldsymbol{x}x。
　　中文维基百科用 X  X   表示随机变量，用 f_{X}(x)  fX  (  x  ) 表示概率密度函数，本文笔记，不同小节内容两者混用。  3.3，概率分布
　　概率分布（probability distribution  ）是用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
　　如果狭义地讲，它是指随机变量的概率分布函数。具有相同概率分布函数的随机变量一定是相同分布的。连续型和离散型随机变量的概率分布描述方式是不同的。3.3.1，离散型变量和概率质量函数
　　离散型变量的概率分布可以用概率质量函数（probability mass function  , PMF  ，也称概率密度函数）来描述。我们通常用大写字母 PP 来表示概率质量函数，用 	extrm{x} sim P(	extrm{x})x∼P(x) 表示随机变量 	extrm{x}x 遵循的分布。
　　虽然通常每一个随机变量都会有一个不同的概率质量函数，但是概率质量函数也可以同时作用于多个随机变量，这种多个变量的概率分布被称为联合概率分布（joint probability distribution  ）。 P(	extrm{x} = x, 	extrm{y} = y)P(x=x,y=y) 表示 	extrm{x} = xx=x 和 	extrm{y} = yy=y 同时发生的概率，有时也可简写为 P(x，y)P(x，y)。
　　如果一个函数 PP 是随机变量 	extrm{x}x 的 PMF  ，必须满足以下条件：PP 的定义域必须是 	extrm{x}x 所有可能状态的集合。forall x in 	extrm{x}, 0 leq P(x)leq 1∀x∈x,0≤P(x)≤1。不可能发生的事件概率为 0  ，能够确保一定发生的事件概率为 1  。sum_{x in 	extrm{x}}P(x)=1∑x∈xP(x)=1，归一化（normalized  ）。
　　常见的离散概率分布族有：伯努利分布二项分布：一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。几何分布Poisson   分布（泊松分布）：Poisson   近似是二项分布的一种极限形式。离散均匀分布：即对于随机变量 	extrm{x}x，因为其是均匀分布(uniform distribution  )，所以它的 PMF   为 P(	extrm{x}=x_{i}) = frac{1}{k}P(x=xi)=k1，同时 sum_{i}P(	extrm{x} = x_{i}) = sum_{i}frac{1}{k} = frac{k}{k} = 1∑iP(x=xi)=∑ik1=kk=1。3.3.2，连续型变量和概率密度分布函数
　　连续型随机变量的概率分布可以用概率密度函数（probability desity function, PDF  ）来描述。
　　通常用小写字母 pp 来表示随机变量 	extrm{x}x 的概率密度函数 PDF  ，其必须满足以下条件：pp 的定义域必须是 	extrm{x}x 所有可能状态的集合。forall x in 	extrm{x}, p(x)geq 0∀x∈x,p(x)≥0。注意，并不要求 p(x)leq 1p(x)≤1。int p(x)dx=1∫p(x)dx=1。
　　概率密度函数 p(x)p(x) 给出的是落在面积为 delta xδx 的无限小的区域内的概率为 p(x)delta xp(x)δx。
　　因此，我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地，xx 落在集合 mathbb{S}S 中的概率可以通过 p(x)p(x) 对这个集合求积分来得到。在单变量的例子中，xx 落在区间 [a,b][a,b] 的概率是 int_{[a,b]}p(x)dx∫[a,b]p(x)dx。
　　常见的连续概率分布族有：均匀分布正态分布：连续型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中muμ 是平均值，sigmaσ 是标准差。正态分布是一种理想分布。{f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{left(-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}right)}}f(x)=σ2π1e(−21(σx−μ)2)伽玛分布指数分布3.4，边缘概率
　　边缘概率好像应用并不多，所以这里理解定义和概念即可。 边缘概率的通俗理解描述，来源于 数学篇 - 概率之联合概率、条件概率、边缘概率和贝叶斯法则(笔记)。
　　有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution  )。
　　对于离散型随机变量 	extrm{x}x 和 	extrm{y}y，知道 P(	extrm{x}, 	extrm{y})P(x,y)，可以依据下面的求和法则（sum rule  ）来计算边缘概率 P(	extrm{x})P(x)：
　　forall x in 	extrm{x},P(	extrm{x}=x)=sum_{y}P(	extrm{x}=x, 	extrm{y}=y)∀x∈x,P(x=x)=∑yP(x=x,y=y)
　　＂边缘概率＂的名称来源于手算边缘概率的计算过程。当 P(x,y)P(x,y) 的每个值被写在由每行表示不同的 xx 值，每列表示不同的 yy 值形成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果 P(x)P(x) 写在每行右边的纸的边缘处。
　　连续性变量的边缘概率则用积分代替求和：
　　p(x) = int p(x,y)dyp(x)=∫p(x,y)dy3.5，条件概率
　　条件概率（conditional probability  ）就是事件 A 在事件 B 发生的条件下发生的概率，表示为 P(A|B)P(A∣B)。
　　设 AA 与 BB 为样本空间 Ω 中的两个事件，其中 P(B)P(B) > 0。那么在事件 BB 发生的条件下，事件 AA 发生的条件概率为：
　　P(A|B)={frac {P(Acap B)}{P(B)}}P(A∣B)=P(B)P(A∩B)
　　花书中期望的条件概率定义（表达式不一样，但意义是一样的，维基百科的定义更容易理解名字意义，花书中的公式更多的是从数学中表达）:
　　将给定 	extrm{x} = xx=  x   时， 	extrm{y} = yy=  y   发生的条件概率记为 P(	extrm{y} = y|	extrm{x} = x)  P  (y=  y  ∣x=  x  )，这个条件概率的计算公式如下： P(	extrm{y}=y|	extrm{x}=x)=frac{P(	extrm{y}=y, 	extrm{x}=x)}{P(	extrm{x}=x)}  P  (y=  y  ∣x=  x  )=  P  (x=  x  )  P  (y=  y  ,x=  x  ) 条件概率只在 P(	extrm{x}=x)geq 0  P  (x=  x  )≥0 时有定义，即不能计算以从未发生的事件为条件的条件概率。  3.5.1，条件概率的链式法则
　　任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式，这个规则被称为概率的链式法则（chain rule  ）。条件概率的链式法则如下:
　　begin{aligned} P(a,b,c) &= P(a|b,c)P(b,c)  P(b,c) &= P(b|c)P(c)  P(a,b,c) &= P(s|b,c)P(b|c)P(c)  end{aligned}P(a,b,c)P(b,c)P(a,b,c)=P(a∣b,c)P(b,c)=P(b∣c)P(c)=P(s∣b,c)P(b∣c)P(c)3.6，独立性和条件独立性
　　两个随机变量 	extrm{x}x 和 	extrm{y}y，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 	extrm{x}x 另一个因子只包含 	extrm{y}y，我们就称这两个随机变量是相互独立的（independent  ）：
　　forall x in 	extrm{x},y in 	extrm{y},p(	extrm{x}=x, 	extrm{y}=y)=p(	extrm{x}=x)cdot p(	extrm{y}=y)∀x∈x,y∈y,p(x=x,y=y)=p(x=x)⋅p(y=y)
　　两个相互独立的随机变量同时发生的概率可以通过各自发生的概率的乘积得到。
　　如果关于 xx 和 yy 的条件概率分布对于 zz 的每一个值都可以写成乘积的形式，那么这两个随机变量 xx 和 yy 在给定随机变量 zz 时是条件独立的(conditionally independent):
　　forall x in ,y in 	extrm{y},z in 	extrm{z}, p(	extrm{x}=x, 	extrm{y}=y|z in 	extrm{z})= p(	extrm{x}=x|z in 	extrm{z})cdot p(	extrm{y}=y|z in 	extrm{z})∀x∈,y∈y,z∈z,p(x=x,y=y∣z∈z)=p(x=x∣z∈z)⋅p(y=y∣z∈z)
　　采用一种简化形式来表示独立性和条件独立性: 	extrm{x}perp 	extrm{y}x⊥y 表示 	extrm{x}x 和 	extrm{y}y 相互独立，	extrm{x}perp 	extrm{y}|	extrm{z}x⊥y∣z 表示 	extrm{x}x 和 	extrm{y}y 在给定 	extrm{z}z 时条件独立。3.7，条件概率、联合概率和边缘概率总结条件概率（conditional probability  ）就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为 P(A|B)P(A∣B)，读作＂A 在 B 发生的条件下发生的概率＂。联合概率表示两个事件共同发生的概率。A   与 B   的联合概率表示为 P(Acap B)P(A∩B) 或者 P(A,B)P(A,B) 或者 P(AB)P(AB)。仅与单个随机变量有关的概率称为边缘概率。3.8，期望、方差和协方差
　　为了便于理解，本章中的期望和方差的数学定义主要采用中文维基百科中的定义。
　　在概率分布中，期望值和方差或标准差是一种分布的重要特征，期望、数学期望、均值都是一个意思。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数，其意义和概率分布中的方差是不一样的。3.8.1，期望
　　在概率论和统计学中，一个离散性随机变量的期望值（或数学期望，亦简称期望，物理学中称为期待值）是试验中每次可能的结果乘以其结果概率的总和。换句话说，期望值像是随机试验在同样的机会下重复多次，所有那些可能状态平均的结果，也可理解为该变量输出值的加权平均。期望数学定义
　　如果 XX 是在概率空间 (Omega ,F,P)(Ω,F,P) 中的随机变量，那么它的期望值 operatorname{E}(X)E(X) 的定义是：
　　operatorname {E}(X)=int_{Omega }X {d}PE(X)=∫ΩXdP
　　并不是每一个随机变量都有期望值的，因为有的时候上述积分不存在。如果两个随机变量的分布相同，则它们的期望值也相同。
　　1，如果 XX 是离散的随机变量，输出值为 x_{1},x_{2},ldots x_{1},x_{2},ldotsx1,x2,…x1,x2,…，和输出值相应的概率为 {displaystyle p_{1},p_{2},ldots }p_{1},p_{2},ldotsp1,p2,…p1,p2,…（概率和为 1  ）。
　　若级数 sum_{i}p_{i}x_{i}∑ipixi 绝对收敛，那么期望值 operatorname {E}(X)E(X) 是一个无限数列的和。
　　operatorname {E}(X)=sum_{i}p_{i}x_{i}E(X)=∑ipixi
　　2，如果 XX 是连续的随机变量，且存在一个相应的概率密度函数 f(x)f(x)，若积分 int _{-infty }^{infty }xf(x),mathrm {d} x∫−∞∞xf(x)dx 绝对收敛，那么 XX 的期望值可以计算为：
　　operatorname {E} (X)=int _{-infty }^{infty }xf(x),mathrm {d} xE(X)=∫−∞∞xf(x)dx
　　虽然是针对于连续的随机变量的，但与离散随机变量的期望值的计算算法却同出一辙，由于输出值是连续的，所以只是把求和改成了积分。
　　期望值 EE 是线性函数:
　　operatorname {E}(aX+bY)=aoperatorname {E}(X)+boperatorname {E}(Y)E(aX+bY)=aE(X)+bE(Y)
　　XX 和 YY 为在同一概率空间的两个随机变量（可以独立或者非独立），aa 和 bb 为任意实数。花书中期望的数学定义（表达式不一样，但意义是一样的）:
　　1，某个函数 f(x)  f  (  x  ) 相对于概率分布 P(x)  P  (  x  ) 的期望（期望值）是当从 P  P   中抽取 x  x   时 f  f   所取的平均或平均值。对于离散型随机变量，期望可以通过  求和  得到： mathbb{E}_{	extrm{x}sim P}[f(x)] = sum_{x} P(x)f(x)Ex∼  P  [  f  (  x  )]=∑  x    P  (  x  )  f  (  x  )
　　2，对于连续型随机变量可以通过求  积分  得到： mathbb {E}_{	extrm{x}sim p}[f(x)] = int p(x)f(x)dxEx∼  p  [  f  (  x  )]=∫  p  (  x  )  f  (  x  )  dx  期望应用在统计学中，估算变量的期望值时，经常用到的方法是重复测量此变量的值，再用所得数据的平均值来估计此变量的期望值。在概率分布中，期望值和方差或标准差是一种分布的重要特征。总体均值数学定义
　　一般而言，一个有限的容量为 NN、元素的值为 x_{i}xi 的总体的总体均值为：
　　mu = frac{sum_i^N x_{i}}{N}μ=N∑iNxi3.8.2，方差
　　在概率论和统计学中，方差（英语：variance  ）又称变异数、变方，描述的是一个随机变量的离散程度，即该变量离其期望值的距离，是随机变量与其总体均值或样本均值的离差的平方的期望值。
　　方差差是标准差的平方、分布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表示有 sigma^2σ2、s^2s2、operatorname {Var} (X)Var(X)、displaystyle V(X)V(X)，以及 displaystyle mathbb {V} (X)V(X)。
　　方差作为离散度量的优点是，它比其他离散度量（如平均差）更易于代数运算，但缺点是它与随机变量的单位不同，而标准差则单位相同，这就是计算完成后通常采用标准差来衡量离散程度的原因。
　　方差的正平方根称为该随机变量的标准差。
　　有两个不同的概念都被称为＂方差＂。一种如上所述，是理论概率分布的方差。而另一种方差是一组观测值的特征，分别是总体方差（所有可能的观测）和样本方差（总体的一个子集）。方差数学定义
　　设 XX 为服从分布 FF 的随机变量，如果 operatorname{E}[X]E[X] 是随机变量 XX 的期望值（均值 mu=operatorname{E}[X]μ=E[X]），则随机变量 XX 或者分布 FF 的方差为 XX 的离差平方的期望值:
　　operatorname{E}(X) = operatorname{E}[(X - mu)]^2 = operatorname{E}[X - operatorname{E}(X)]^2E(X)=E[(X−μ)]2=E[X−E(X)]2
　　方差的表达式可展开如下：
　　begin{aligned} operatorname{Var}(X) &=operatorname{E} left[(X-operatorname {E} [X])^{2}right]  &=operatorname{E} left[X^{2}-2Xoperatorname {E} [X]+operatorname{E}[X]^{2}right]  &=operatorname{E} left[X^{2}right]-2operatorname{E}[X]operatorname{E}[X]+operatorname{E}[X]^{2}  &=operatorname{E} left[X^{2}right]-operatorname{E}[X]^{2}  end{aligned}Var(X)=E[(X−E[X])2]=E[X2−2XE[X]+E[X]2]=E[X2]−2E[X]E[X]+E[X]2=E[X2]−E[X]2
　　也就是说，XX 的方差等于 XX 平方的均值减去 XX 均值的平方。总体方差数学定义
　　一般而言，一个有限的容量为 NN、元素的值为 x_{i}xi 的总体的总体方差为：
　　sigma^{2} = {frac {1}{N}}sum _{i=1}^{N}left(x_{i}-mu right)^{2}σ2=N1∑i=1N(xi−μ)2
　　花书中方差的定义:   方差  （  variance  ）衡量的是当我们对 xx 依据它的概率分布进行采样时，随机变量 	extrm{x}x 的函数值会呈现多大的差异，或者说一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。方差定义如下： Var(f(x)) = mathbb{E}[(f(x) - mathbb{E}[f(x)])^2]Var(f(x))=E[(f(x)−E[f(x)])2]3.8.3，期望与方差的运算性质
　　期望与方差运算性质如下:
　　来源: 知乎文章-【AP统计】期望E(X)与方差Var(X)。  3.8.4，协方差
　　协方差也叫共变异数（英语：Covariance），在概率论与统计学中用于衡量两个随机变量的联合变化程度。协方差数学定义
　　期望值分别为 operatorname E(X)=muE(X)=μ 与 operatorname E(Y)= uE(Y)=ν 的两个具有有限二阶矩的实数随机变量 XX 与 YY 之间的协方差定义为：
　　operatorname {cov} (X,Y)=operatorname {E} ((X-mu )(Y- u ))=operatorname {E} (Xcdot Y)-mu  ucov(X,Y)=E((X−μ)(Y−ν))=E(X⋅Y)−μν
　　协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。
　　协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很 远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方 差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于 取得相对较小的值，反之亦然。其他的衡量指标如 相关系数(correlation  )将每个变 量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。3.9，常用概率分布
　　下表列出了一些常用概率分布的方差。
　　3.9.1，伯努利分布
　　伯努利分布（英语：Bernoulli distribution  ），又名两点分布或者 0-1   分布，是一个离散型概率分布，为纪念瑞士科学家雅各布·伯努利而命名。若伯努利试验成功，则伯努利随机变量取值为 1  。若伯努利试验失败，则伯努利随机变量取值为 0  。记其成功概率为 0leq pleq 10≤p≤1，失败概率为 q = 1-pq=1−p。其有如下性质:其概率质量函数为:
　　f_{X}(x) = p^{x}(1-p)^{1-x} = leftlbracebegin{matrix} p quad if ;x = 1  1-p quad if ; x = 0 end{matrix}right.fX(x)=px(1−p)1−x={pifx=11−pifx=0其期望值为:
　　operatorname {E} [X] = sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = pE[X]=i=0∑1xifX(x)=0+p=p其方差为:
　　begin{aligned} Var[X] &= sum_{i=0}^{1} (x_{i}-operatorname {E} [X])^2f_{X}(x)  &= (0-P)^2(1-P) + (1-P)^2P  &= p(1-p)  &= pcdot q  end{aligned}Var[X]=i=0∑1(xi−E[X])2fX(x)=(0−P)2(1−P)+(1−P)2P=p(1−p)=p⋅q3.9.2，Multinoulli 分布
　　Multinoulli   分布(多项式分布，也叫范畴分布 categorical dis- tribution  )是一种离散概率分布，它描述了随机变量的可能结果，该随机变量可以采用 kk 个可能类别之一，概率为每个类别分别指定，其中 kk 是一个有限值。3.9.3，高斯分布
　　有几种不同的方法用来说明一个随机变量。最直观的方法是  概率密度函数  ，这种方法能够表示随机变量每个取值有多大的可能性。
　　高斯分布 Gaussian distribution  （也称正态分布 Normal distribution  ）是一个非常常见的连续概率分布。高斯分布在统计学上十分重要，经常用在自然和社会科学来代表一个不确定的随机变量。
　　若随机变量 XX 服从一个位置参数为 muμ 、尺度参数为 sigmaσ 的正态分布，记为：
　　X sim N(mu,sigma^2)X∼N(μ,σ2)
　　则其概率密度函数为 f(x;mu, sigma) = frac {1}{sigma {sqrt {2pi }}};e^{-{frac {left(x-mu right)^{2}}{2sigma ^{2}}}}f(x;μ,σ)=σ2π1e−2σ2(x−μ)2。
　　正态分布的数学期望值 muμ 等于位置参数，决定了分布的位置；其方差 sigma^2σ2 的开平方或标准差 sigmaσ 等于尺度参数，决定了分布的幅度。
　　正态分布概率密度函数曲线呈钟形，也称之为钟形曲线（类似于寺庙里的大钟，因此得名）。我们通常所说的标准常态分布是位置参数 mu = 0μ=0，尺度参数 sigma ^{2} = 1σ2=1 的正态分布（见右图中红色曲线）。
　　采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实 数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，其中有两个原因。第一，我们想要建模的很多分布的真实情况是比较接近正态分布的。第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最 的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。3.9.4，指数分布和 Laplace 分布
　　在概率论和统计学中，指数分布（Exponential distribution  ）是一种连续概率分布，表示一个在 x = 0x=0 点处取得边界点 (sharp point  ) 的分布，其使用指示函数(indicator function  ) 1_{xgeq0}1x≥0 来使得当 xx 取负值时的概率为零。指数分布可以等同于形状母数 alphaα为 11的伽玛分布。
　　指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、电话打进客服中心的时间间隔等。
　　若随机变量 XX 服从母数为 lambdaλ 或 betaβ 的指数分布，则记作
　　Xsim {	ext{Exp}}(lambda )X∼Exp(λ) 或 Xsim {	ext{Exp}}(beta )X∼Exp(β)
　　两者意义相同，只是 lambdaλ 与 betaβ 互为倒数关系。指数分布的概率密度函数为：
　　f(x;{color {Red}lambda })=leftlbrace{begin{matrix}{color {Red}lambda }e^{-{color {Red}lambda }x}&xgeq 0,&,;x<0.end{matrix}}right.f(x;λ )={λ e−λ x0x≥0,,x<0.
　　指数分配概率密度函数曲线如下所示。
　　3.10，常用函数的有用性质
　　深度学习中的概率分布有一些经常出现的函数，比如 logistic sigmoid   函数:
　　sigma(x) = frac{1}{1+exp(-x)}σ(x)=1+exp(−x)1
　　logistic sigmoid   函数通常用来产生伯努利分布的参数 pp，因为它的范围是 (0, 1)(0,1)，位于 pp 参数值的有效范围内。下图 3.3 给出了 sigmoid   函数的图示。从图中可以明显看出，sigmoid   函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate  )现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。
　　sigmoid   函数的一些性质在后续学习 BP   算法等内容时会很有用，我们需要牢记：
　　begin{aligned} sigma(x) &= frac{exp(x)}{exp(x)+exp(0)}  frac{d}{dx}sigma(x) &= sigma(x)(1 - sigma(x))  1 - sigma(x) &= sigma(-x)  end{aligned}σ(x)dxdσ(x)1−σ(x)=exp(x)+exp(0)exp(x)=σ(x)(1−σ(x))=σ(−x)3.11，贝叶斯定理
　　本小节只是简单介绍基本概念和公式，更全面和深入的理解建议看《机器学习》书籍。
　　贝叶斯定理（英语：Bayes＂ theorem  ）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。比如，如果已知某种健康问题与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出某人有某种健康问题的概率。
　　通常，事件 A 在事件 B 已发生的条件下发生的概率，与事件 B 在事件 A 已发生的条件下发生的概率是不一样的。但是，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。
　　作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断，是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。
　　来源中文维基百科-贝叶斯定理  3.11.1，贝叶斯定理公式
　　贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理。
　　P(Amid B)={frac {P(A)P(Bmid A)}{P(B)}}P(A∣B)=P(B)P(A)P(B∣A)
　　其中 A 以及 B 为随机事件，且 P(B)P(B) 不为零。P(Amid B)P(A∣B) 是指在事件 B 发生的情况下事件 A 发生的概率。
　　在贝叶斯定理中，每个名词都有约定俗成的名称：P(Amid B)P(A∣B) 是已知 B 发生后，A 的条件概率。也称作 A 的事后概率。P(A)P(A) 是 A 的先验概率（或边缘概率）。其不考虑任何 B 方面的因素。P(Bmid A)P(B∣A) 是已知 A 发生后，B 的条件概率。也可称为 B 的后验概率。某些文献又称其为在特定 B 时，A 的似然性，因为 P(Bmid A)=L(Amid B)P(B∣A)=L(A∣B)。P(B)P(B)是 B 的先验概率。3.11.2，贝叶斯理论与概率密度函数
　　贝叶斯理论亦可用于概率分布，贝叶斯理论与概率密度的关系是由求极限的方式建立：
　　P(	extrm{x}|	extrm{y}) = frac{P(	extrm{x})P(	extrm{y}|	extrm{x})}{P(	extrm{y})}P(x∣y)=P(y)P(x)P(y∣x)
　　注意到 P(y)P(y) 出现在上面的公式中，它通常使用 P(	extrm{y}) = sum_{x} P(	extrm{y}|x)P(x)P(y)=∑xP(y∣x)P(x) 来计算所以我们并不需要事先知道 P(	extrm{y})P(y) 的信息。
　　中文维基百科中贝叶斯理论与概率密度关系定义: f(x|y)={frac {f(x,y)}{f(y)}}={frac {f(y|x),f(x)}{f(y)}}  f  (  x  ∣  y  )=  f  (  y  )  f  (  x  ,  y  )=  f  (  y  )  f  (  y  ∣  x  )  f  (  x  )  3.12，连续型变量的技术细节
　　连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theory  )的相关内容来扩展概率论，测度论超出了本书范畴。
　　原书中有测度论的简要介绍，本笔记不做记录和摘抄，感兴趣的可以阅读原书。3.13，信息论-相对熵和交叉熵
　　信息论是应用数学、电子学和计算机科学的一个分支，早期备用在无线通信领域。在深度学习中，主要是使用信息论的一些关键思想来表征(characterize  )概率分布或者量化概率分布之间的相似性。
　　信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。
　　定义一个事件 	extrm{x} = xx=x 的自信息(self-information) 为
　　I(x) = -	ext{log}P(x)I(x)=−logP(x)
　　在本文中，我们总是用 	ext{log}log 来表示自然对数，其底数为 ee。因此我们定义的 I(x)I(x) 单位是奈特(nats)。一奈特是以 frac{1}{e}e1 的概率观测到一个事件时获得的信息量。其他的材料中可能使用底数为 2 的对数，单位是比特(bit)或者香农(shannons); 通过比特度量的信息只是通过奈特度量信息的常数倍。
　　自信息只处理单个的输出。我们可以用香农熵(Shannon entropy  )来对整个概率分布中的不确定性总量进行量化:
　　H(P) = H(	extrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)]H(P)=H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
　　换句话说，一个概率分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
　　如果我们对于同一个随机变量 	extrm{x}x 有两个单独的概率分布 P(	extrm{x})P(x) 和 Q(	extrm{x})Q(x)，则可以用 KL 散度（ Kullback-Leibler (KL) pergence  ，也叫相对熵）来衡量这两个概率分布的差异：
　　D_{KL}(Pparallel Q) = mathbb{E}_{	extrm{x}sim p}begin{bmatrix} log frac{P(x)}{Q(x)} end{bmatrix} = mathbb{E}_{	extrm{x}sim p}[log P(x) - log Q(x)]DKL(P∥Q)=Ex∼p[logQ(x)P(x)]=Ex∼p[logP(x)−logQ(x)]
　　KL 散度有很多有用的性质，最重要的是它是非负的。KL 散度为 0 当且仅当 PP 和 QQ 在离散型变量的情况下是相同的概率分布，或者在连续型变量的情况下是 ＂几乎处处＂ 相同的。
　　一个和 KL 散度密切联系的量是交叉熵(cross-entropy  )H(P, Q) = H(P) + D_{KL}(P||Q)H(P,Q)=H(P)+DKL(P∣∣Q)，其计算公式如下:
　　H(P, Q) = -mathbb{E}_{	extrm{x}sim p}log Q(x)H(P,Q)=−Ex∼plogQ(x)
　　和 KL 散度相比，少了左边一项，即熵 H(P)H(P)。可以看出，最小化 KL 散度其实就是在最小化分布之间的交叉熵。
　　上式的写法是在前面所学内容  数学期望  的基础上给出的，还有一个写法是《机器学习-周志华》书中附录 C 中给出的公式，更为直观理解： KL(Pparallel Q) = int_{-infty }^{+infty} p(x)log frac{p(x)}{q(x)} dx  KL  (  P  ∥  Q  )=∫−∞+∞  p  (  x  )  logq  (  x  )  p  (  x  )  dx   其中 p(x)  p  (  x  ) 和 q(x)  q  (  x  ) 分别为 P  P   和 Q  Q   的概率密度函数。 这里假设两个分布均为连续型概率分布，对于离散型概率分布，只需要将积分替换为对所有离散值遍历求和。
　　KL   散度满足非负性和不满足对称性。将上式展开可得： 	ext{KL 散度} KL(Pparallel Q) = int_{-infty }^{+infty}p(x)logp(x)dx - int_{-infty }^{+infty}p(x) logq(x)dx = -H(P) + H(P,Q)KL 散度KL(P∥Q)=∫−∞+∞p(x)logp(x)dx−∫−∞+∞p(x)logq(x)dx=−H(P)+H(P,Q) 	ext{交叉熵} H(P,Q) = mathbb{E}_{	extrm{x}sim p} log Q(x) = - int_{-infty }^{+infty} p(x) logq(x)dx交叉熵H(P,Q)=Ex∼plogQ(x)=−∫−∞+∞p(x)logq(x)dx
　　其中，H(P)  H  (  P  ) 为熵（  entropy  ），H(P,Q)H(P,Q) 为交叉熵（cross entropy  ）。
　　在信息论中，熵 H(P)  H  (  P  ) 表示对来自 P  P   的随机遍历进行编码所需的最小字节数，而交叉熵 H(P,Q)  H  (  P  ,  Q  ) 表示使用 Q  Q   的编码对来自 P  P   的变量进行编码所需的字节数。因此 KL 散度可认为是使用基于 Q  Q   的编码对来自 P  P   的变量进行编码所需的＂额外字节数＂；显然，额外字节数非负，当且仅当 P=Q  P  =  Q   时额外字节数为   0  。3.14，结构化概率模型
　　略参考资料zh.m.wikipedia.org/zh-hans/%E6…《深度学习》《机器学习》
　　本文内容大多来自《深度学习》（花书）第三章概率与信息论。

开通会话存档私有化的一般是什么企业？会话存档相信对于企业微信用户而言并不陌生，首先会话存档是企业查看并保存员工聊天记录的工具。那么会话存档私有化是什么意思呢？一般是什么企业会选择开通会话存档私有化功能？下面，由企小码国际物流专线有什么优势，国际物流专线有哪些特点国际物流专线是指在两个或两个以上的国家独立进行生产和消费时，为克服生产和消费之间的空间距离和时间距离，将货物进行物理移动，从而达到国际商品交易的最终目的，即卖方交付单证货物并收取货香港理大首推香港金融科技普及指数中新社香港11月2日电香港理工大学（下称理大）会计及金融学院联同人工智能投资初创公司Asklora推出香港金融科技普及指数（FAI），旨在量度港人对金融科技的接受程度和对相关体验的1288元起，华为可换壳新形态智能手表WATCHGTCyber正式发布IT之家11月2日消息，今日，华为PocketS及全场景新品发布会上，华为WATCHGTCyber正式发布。这也是华为首款闪变换壳手表，拥有业界首款可拆卸设计的智能机芯，提供六种表这个双十一最值得买的8款蓝牙耳机真无线头戴式一网打尽今年的双11购物节已经正式开启，不知道小伙伴都拿下了多少心仪之物吗？本期推荐数款非常值得入手的耳机单品，其中包括真无线蓝牙耳机系列以及传统的头戴式耳机系列。真正让你远离尘世间的浮躁2022世界VR产业大会亮点提前看视频加载中2022世界VR产业大会将于11月12日至13日在南昌举行。本届大会将推出元宇宙会场虚拟主持人江小薇会场AR实景导航特效空间视频演艺等六个创新应用场景，这也是非常值得关注完成亿元级天使轮融资，号外发布高性能一体化智能底盘电摩11月1日，HORWIN（号外）对外发布基于一体化智能底盘打造的首台高性能电动城市ADV（UrbanADV）和全球首台电动超级旅行车（HyperGT）。同时，号外宣布完成亿元级天使孙策打仗有多厉害？一战斩杀仇敌三万大军，吓得一郡太守不战而降作者握中悬璧，授权读史发布。百年东吴连载16建安四年（199年）冬，孙策于江夏鄂县附近的西塞击溃刘勋。此时西征大军阵容强盛，麾下有周瑜吕范程普韩当黄盖董袭等名将，又因连战连捷，气势专家文章美亚太政策难获地区国家信任香港亚洲时报网站10月31日发表题为拜登印太战略中的盲点的文章，作者为美国国家利益中心特聘研究员芝加哥全球事务学会客座高级研究员保罗希尔。文章摘编如下印太地区的多数国家在地区议事日卡塔尔发布世界杯期间关于多哈市中心地区的交通建议为保障2022国际足联卡塔尔世界杯的成功交付，11月1日至12月19日期间，多哈滨海大道及与之相连的各条道路将只允许行人通行。多哈市民和访卡球迷，可以乘坐多哈地铁和公交车等公共交通遇见新黄河！山西临汾因河而生，生生不息中国小康网独家专稿文小康中国小康网记者刘彦华因黄河而兴，因黄河而活，因黄河而旺。如今，临汾正在形成传承一方文化，促进一方经济，推动一方发展造福一方百姓的良好效应。共襄盛会9月18日

<<<<<<－>>>>>>

横店群演日活3万，校花遍地走，懒汉随处见，幻想一夜成名头条创作挑战赛众所周知，演员很赚钱，某爽日薪206万，某小鲜肉一部戏报价8千万，粉丝拥护，百万代言拿到手软。做着轻松的活，拿着天价工资，这样的工作谁会不爱，也让无数年轻人幻想有朝一他是坑爹的星二代，十五岁无证驾驶兼打人，十七岁轮奸醉酒女中国自古就有父是英雄儿好汉，虎父无犬子之说，然而现实生活中，却总有父是龙，儿是虫的真实存在。这些凭实力坑爹的人，如发生在娱乐圈，就会让人们津津乐道。2003年，张默痛打女友，把女友脱口秀大会把鲁豫都请来了？能做脱口秀大会领笑员的人，都不简单。在脱口秀大会的最新预告里，他们把鲁豫请来当领笑员。鲁豫开场说，李诞是个特别会假客气的人，他问我要不要参加脱口秀大会，我说真的吗？我去。真的吗？我谢楠否认吃醋段奕宏，力挺吴京的兄弟情，自认是两人的CP粉传媒樱桃派系头条理娱君特约作者，看娱乐热点深度解读，认准理娱君！娱乐圈的CP总是让人欲罢不能，不仅是作品里的搭档让观众们忘乎所以，许多好友之间的配搭也都引人入胜。这其中就包括了吴京极限竞速地平线5或即将支持NVIDIADLSS根据NVIDIA的官方图表，极限竞速地平线5可能很快就会支持其DLSS技术。另外由于这张图表是针对即将推出的RTX4090，所以地平线5很可能会获得最新版本DLSS的支持，即DLS家用大屏优选65寸海信电视65E5H选家用大屏电视，65寸海信电视65E5H是一款值得推荐的产品，这款电视采用多分区背光，并搭载有120Hz高刷MEMC以及4K超高清分辨率和丰富的游戏资源，家里配上它能全面提升用户的散文二老孔和他的菜园子于喜京燕翅山山村散文系列之一在我很小的时候，时常跟着母亲到山里去。母亲是队里的妇女队长，她领着她的大小三军到田里忙农活去了，我便在荒草坡上玩。甩石子搬石块捋野花捉蚂蚱看蚂蚁筑巢，或者躺在草地上打滚儿，静听山间当黄牛真惨！被iPhone14上完课后，华为Mate50系列也来凑热闹了如果黄牛懂一点数码知识，这一次在华为Mate50系列上面就不会输的那么惨，以前麒麟9000绝代你这么玩还行，现在用骁龙8帮高通清库存，你还这么玩就有点过分？数码盖饭觉得当下各种情况云南省人大财经委原主任委员王长勇被开除党籍据云南省纪委监委消息日前，经云南省委批准，云南省纪委监委对云南省人大财经委原主任委员王长勇严重违纪违法问题进行了立案审查调查。经查，王长勇身为党员领导干部，违反政治纪律和政治规矩，外媒Mate50的发布，成功帮助华为迎来了拐点我在头条搞创作第二期外媒Mate50的发布，成功帮助华为迎来了拐点！老美的相关限制来的这么迅猛，主要原因来自于华为，在5G芯片上的成就，超出了可控范围，甚至已经实现了对美企的赶超，电脑C盘爆满，变红，教你4步彻底清理，一看就会大家好，我是科技熊一个专注与黑科技，数码产品开箱体验以及使用技巧分享up主。在我的媒体账号私信里好多朋友都会有这样一个提问，比如说我们在使用电脑的时候，c盘容易爆满，容易变红，不知