逻辑回归原理小结 – 刘建平Pinard

    逻辑回归是第一分级算法,它可以处置两元分级和多元分级。。固然它名字外面有“回归”两个字,却过失第一回归算法。那为什么有“回归”到这地步给错误的劝告性的词呢?关于个人的简讯以为,固然逻辑回归是分级从前的,只它的规律外面却残留着回归从前的的探索,本文对逻辑回归规律做第一总结。

1. 从长度的回归到逻辑回归

    我们的知情,长度的回归的从前的是求出输出特点带菌者Y和输出范本矩阵X当中的长度的相干系数\(\theta\),满足的(Mthbf {y) = X\theta}\)。在这点上,我们的的Y是延续的。,因而是回归从前的。也许我们的愿望Y是团圆的,我能做什么?思惟它的一种方式是。,让我们的为到这地步Y做另第一功用替换。,变为(g(y))。也许我们的在实在区间内尝试(g(y))的值,则为A类。,在另第一抬出去区间中,它是B类。,依此类推,我们的迎将了第一分级从前的。。也许仅有的两种后果,这是第一两钱的分级从前的。。逻辑回归的原点执意从这来的。下面我们的开端引入二元逻辑回归。

2. 二元逻辑回归的从前的

    上一节我们的提到对长度的回归的后果做第一在职务g上的替换,可以变化为逻辑回归。到这地步职务g在逻辑回归中我们的普通取为sigmoid职务,表格如次:

    \(g(z) = \frac{1}{1+e^{-z}}\) 

    它有纤细的的倾向。,也执意说,当Z关闭正无穷大时。,(g(z))旨趣于1,当Z关闭负无穷大时,(g(z))旨趣于0,这是完全适合于我们的的分级概率从前的。。别的,它还具有良好的导出的美质。:

    \(g^{”}(z) = g(z)(1-g(z))\) 

    这从容的经过职务对(g(z))。,他日我们的将运用到这地步公式集。。

    也许我们的在Z(G)中创造Z:\({z = x\theta}\),这样的事物就迎将了二元逻辑回归从前的的普通体现:

    \(h_{\theta}(x) = \frac{1}{1+e^{-x\theta}}\) 

    在那里面,X是范本输出。,\(h_{\theta}(x)\)为从前的输出,它可以被听说为第一类别的概率上胶料。。和(\θ)是分级从前的所需的从前的决定因素。。向从前的输出(H{{theta }(x)),我们的让它和我们的的二元范本输出y(假说为0和1)有这样的事物的对应相干,也许(H{{theta }(x)) >\) ,即\(x\theta > 0\), Y是1。。也许(H{{theta }(x)) < \),即\(x\theta < 0\), 则y为0。y=是临界情况,此时\(x\theta = 0\)为, 从逻辑回归从前的本身无法确定分级。

    (H{{theta }(x))的值越小,分级的概率越高,则为0。,倒地,看重越高,分级概率越高1。。也许它在转变点在起作用的,分级细致的将投下。。

    在这一点上我们的也可以把矩阵从前的化为矩阵。:

    \(h_{\theta}(X) = \frac{1}{1+e^{-X\theta}}\) 

    在那里面,(H{{theta }(x))是从前的的输出。,为 MX1的维数。X是范本特点矩阵。,MXN的维数。分级从前的系数,NX1航向。

    听说了二元分级回归的从前的,之后我们的将论述从前的的损伤职务。,我们的的目的是最少的化损伤职务来迎将对应的从前的系数\(\theta\)。

3. 二元逻辑回归的损伤职务

    回忆下长度的回归的损伤职务,鉴于长度的回归是延续的,到这地步,我们的可以运用从前的背离的平方和来构成释义损伤职务。。只逻辑回归过失延续的,心净长度的回归损伤职务构成释义的体验就用不上了。不过,我们的可以从最大似然法衍生物出损伤职务。。

    我们的知情,由于瞬间节二元逻辑回归的构成释义,假说我们的的范本输出是0或1。。之后我们的有:

    \(P(y=1|x,\theta ) = h_{\theta}(x)\)

    \(P(y=0|x,\theta ) = 1- h_{\theta}(x)\)

     把这两个公式集写成第一公式集。,执意:

    \(P(y|x,\theta ) = h_{\theta}(x)^y(1-h_{\theta}(x))^{1-y}\)

    Y的值仅为0或1。。

    迎将了y的概率散布职务的说法。,我们的就可以用似然职务极大值化来求解我们的必要的从前的系数\(\theta\)。

    为了出恭处理,在这一点上我们的极大值化对数似然职务。,对数似然职务的逆是我们的的损伤职务(j)。在那里面:

    似然职务的代数说法:

    (Lθ) = \prod\limits_{i=1}^{m}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}\)

    M是范本数。。

    似然职务对数的逆说法,也执意说,损伤职务说法是:

    (j(θ)) = LNL(\θ) = -\sum\limits_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))\)

损伤职务采取矩阵法更扼要的。:

    (j(θ)) = -Y^T\bullet logh_{\theta}(X) – (E-Y)^T\bullet log(E-H{{theta }(x))

    E是1个带菌者。,使成团块)点积。

4. 二元逻辑回归的损伤职务的使最优化方式

    向二元逻辑回归的损伤职务最少的化,有很多方式。,最经用的方式是梯度投下法。,坐标轴投下法,等牛顿法等。。梯度投下法(\θ)的每回迭代公式集为D。鉴于代数方式衍生物的多相,我实习用矩阵法举行损伤职务的使最优化。,在这一点上规定矩阵法衍生物二元逻辑回归梯度的褶皱。

    向(j(θ)) = -Y^T\bullet logh_{\theta}(X) – (E-Y)^T\bullet log(E-H{{theta }(x)),我们的用(j(θ))\)对\(\theta\)带菌者起源可获:

    \(\frac{\partial}{\partial\theta}J(\theta) = X^T[\frac{1}{h_{\theta}(X)}\odot h_{\theta}(X)\odot (E-h_{\theta}(X))\odot (-Y)] + X^T[\frac{1}{E-h_{\theta}(X)}\odot h_{\theta}(X)\odot (E-h_{\theta}(X))\odot (E-Y)]\)

    在到这地步走近中,我们的运用带菌者衍生物的链式规律。,和矩阵体现的三个根本衍生物公式集。:

    \(\frac{\partial}{\partial x}logx = 1/x\)

    \(\frac{\partial}{\partial z}g(z) = g(z)(1-g(z))   (g(z)是乙状职务) \) 

    \(\frac{\partial x\theta}{\partial \theta} =  x\) 

    我们的可以助长衍生物公式集。:

    \(\frac{\partial}{\partial\theta}J(\theta) = X^T(h_{\theta}(X) – Y )\)

    到这地步,在梯度投下法中,每一步VEC的迭代公式集。:

    \(\theta = \theta – \alpha X^T(h_{\theta}(X) – Y )\)

    在那里面,α是梯度投下法的步长。

    抬出去中,我们的通常不必要撕咬使最优化。,非常机具念书库都内置了各式各样的逻辑回归的使最优化方式,不过,强迫知情至多一种使最优化方式。。

5. 二元逻辑回归的权威的化

    逻辑回归也会表面过安装成绩,因而我们的也必要思索正态化。。L1权威的化和L2权威的化是罕见的。。

    逻辑回归的L1权威的化的损伤职务说法如次,相形普通的逻辑回归损伤职务,附带说明L1规范作为惩办,超决定因素(α-α)作为惩办系数,健康状态惩办签订协议的上胶料。

    二元逻辑回归的L1权威的化损伤职务说法如次:

    (j(θ)) = -Y^T\bullet logh_{\theta}(X) – (E-Y)^T\bullet log(E-h_{\theta}(X)) +\alpha θ1

    在那里面\(θ1为\(\theta\)的L1规范。

    逻辑回归的L1权威的化损伤职务的使最优化方式经用的有坐标轴投下法和最小角回归法。

    二元逻辑回归的L2权威的化损伤职务说法如次:

    (j(θ)) = -Y^T\bullet logh_{\theta}(X) – (E-Y)^T\bullet log(E-h_{\theta}(X)) + \frac{1}{2}\alpha||\theta||_2^2\)

    在那里面(θθθ2)是(θ)的L2规范。

    逻辑回归的L2权威的化损伤职务的使最优化方式和普通的逻辑回归近亲关系。

6. 二元逻辑回归的范围:多元逻辑回归

    后面几节我们的的逻辑回归的从前的和损伤职务都限于二元逻辑回归,抬出去上二元逻辑回归的从前的和损伤职务从容的范围到多元逻辑回归。诸如,我们的永远以为些许典型是身体前部的。,剩的是0个值。,这种方式是最经用的一种方式。,OVR。略号

    另类的多元逻辑回归的方式是Many-vs-Many(MvM),它会选择影片分级别的范本和另影片分级别的范本来做逻辑回归二分级。最经用的是单向双系列对应的(OVO)。。OVO是MVM的第一特殊表壳。。每回我们的选择两类范本来做二元逻辑回归。

    在这一点上只引见多元逻辑回归的softmax回归的一种特殊表壳衍生物:

    率先回忆下二元逻辑回归。

    \(P(y=1|x,\theta ) = h_{\theta}(x) =  \frac{1}{1+e^{-x\theta}} = \frac{e^{x\theta}}{1+e^{x\theta}}\)

    \(P(y=0|x,\theta ) = 1- h_{\theta}(x) = \frac{1}{1+e^{x\theta}}\)

    Y结果却取0和1。。则有:

    \(ln\frac{P(y=1|x,\theta )}{P(y=0|x,θ) = x\theta\)

    也许我们的要范围到多元逻辑回归,之后,从前的必要稍微延伸。。

    我们的假说它是第一K元分级从前的。,也执意说,范本输出y具有1的值。,2,。。。,K。

    比照二元逻辑回归的体验,我们的有:

    \(ln\frac{P(y=1|x,\theta )}{P(y=K|x,θ) = x\theta_1\)

    \(ln\frac{P(y=2|x,\theta )}{P(y=K|x,θ) = x\theta_2\) 

    …

    \(ln\frac{P(y=K-1|x,\theta )}{P(y=K|x,θ) = x\theta_{K-1}\) 

    下面有K-1方程。。

    概率为1的方程如次。:

    \(\sum\limits_{i=1}^{K}P(y=i|x,\theta ) = 1\)

    我们的迎将K方程。,外面有K个逻辑回归的概率散布。

    到这地步K方程被求解。,迎将K元逻辑回归的概率散布如次:

    \(P(y=k|x,\theta ) =  e^{x\theta_k} \bigg/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}\)  k = 1,2,…K-1

    \(P(y=K|x,\theta ) =  1 \bigg/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}\)

    多元逻辑回归的损伤职务衍生物于是使最优化方式和二元逻辑回归近亲关系,我在这一点上不累。。

7。总结

    逻辑回归最最二元逻辑回归是完全罕见的从前的,锻炼一步完全快。,固然运用起来无支援带菌者机(SVM)这么占主流,只处理罕见的分级成绩就十足了。,锻炼一步比SVM更快。。也许你想包含机具念书分级算法,这么第第一霉臭念书的分级算法关于个人的简讯觉得霉臭是逻辑回归。听说了逻辑回归,另一边分级算法不霉臭这么难学。。

(迎将转载),请表明转载的根源。。迎将交流与交流: liujianping-ok@) 

发表评论

电子邮件地址不会被公开。 必填项已用*标注