神经网络优化 1
神经网络优化 1
Outline ·6.1信息熵 ·6.2模型优化中的目标函数 ·6.3模型优化中常用的经验损失函数 哈尔滨工业大学计算机学院刘远超 2
Outline • 6.1信息熵 • 6.2 模型优化中的⽬标函数 • 6.3 模型优化中常⽤的经验损失函数 哈尔滨工业大学计算机学院 刘远超 2
信息论中的熵(entropy) ●热力学中的熵:是表示分子状态混乱程度 的物理量 ·信息论中的熵:用来描述信源的不确定性 的大小 ·经常使用的熵概念有下列几种: ·信息熵 ●交叉熵 ●相对熵 克劳德·艾尔伍德,香农(Claude Elwood Shannon 1916年4月30日一2001年2月24日)是美国数学家、 ●条件熵 信息论的创始人。1936年获得密歇根大学学士学 位。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 ●互信息 概念,为信息论和数字通信奠定了基础。 哈尔滨工业大学计算机学院刘远超
信息论中的熵(entropy) l 热⼒学中的熵: 是表示分⼦状态混乱程度 的物理量 哈尔滨工业大学计算机学院 刘远超 3 l 经常使⽤的熵概念有下列⼏种: l 信息熵 l 交叉熵 l 相对熵 l 条件熵 l 互信息 克劳德·艾尔伍德·香农(Claude Elwood Shannon , 1916年4月30日—2001年2月24日)是美国数学家、 信息论的创始人。1936年获得密歇根大学学士学 位 。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 概念,为信息论和数字通信奠定了基础。 l 信息论中的熵:⽤来描述信源的不确定性 的⼤⼩
信息熵 ●信源信息的不确定性函数∫通常满足两个条件: 1)是概率p的单调递减函数。 2)两个独立符号所产生的不确定性应等于各自不确定性之和,即 f(p1,p2)=f(p1)+f(p2)。 ·对数函数同时满足这两个条件:fp)=log=-1ogp ●信息熵:要考虑信源所有可能发生情况的平均不确定性。若信源符号有 n种取值:U1,…,U,Un,对应概率为p1,…,p…,卫n,且各种出现彼此 独立。此时信源的平均不确定性应当为单个符号不确定性-1ogP:的统计 平均值(),称为信息熵,即 H0=E-logl=-∑nogm=∑,nlog合 哈尔滨工业大学计算机学院刘远超 4
信息熵 l 信源信息的不确定性函数 � 通常满⾜两个条件 : 1)是概率 � 的单调递减函数。 2)两个独⽴符号所产⽣的不确定性应等于各⾃不确定性之和,即 � �!, �" = � �! +� �" 。 l 对数函数同时满⾜这两个条件:� � = ��� ! # = −��� � l 信息熵:要考虑信源所有可能发⽣情况的平均不确定性。若信源符号有 n种取值: �1 , … ,�� , … ,��,对应概率为�1, … , �� , … , ��,且各种出现彼此 独⽴。此时信源的平均不确定性应当为单个符号不确定性−log �$的统计 平均值(E),称为信息熵,即 � � = � − log �$ = −1$%! & �$����$ = 1�%� � �����( � �� ) 哈尔滨工业大学计算机学院 刘远超 4
交叉熵(cross entropy) ·定义:交叉熵是信息论中一个重要的概念,用于表征两个变量概率分布 P,Q(假设P表示真实分布,Q为模型预测的分布)的差异性。交叉熵越 大,两个变量差异程度越大。 ●交叉熵公式: .Pogc) 哈尔滨工业大学计算机学院刘远超 5
交叉熵(cross entropy) l 定义:交叉熵是信息论中一个重要的概念, 用于表征两 个变量概率分布 P, Q(假设P表示真实分布, Q为模型预测的分布)的差异性 。交叉熵越 大 , 两个变量差异程度越大。 l 交叉熵公式: � �, � = − 1 �∈� � � ���� � = 1 �∈� � � ��� � � � 哈尔滨工业大学计算机学院 刘远超 5