可靠性和区别性 可靠性( Reliabilit!y)和可区别性( discrimination) 为了有效地推导一个特征,我们希望通过模 型的其它特征来预测它,把这些特征分成等 价类便于我们预测新的数据。 ·分类特征越多,对未知分布的目标特征的预 测就更精确,即有较好的可区别性,但是这 样对每一个分类其实例就较少,统计的数据 就不可靠,所以在划分等价类时要在可靠性 和可区别性之间找一个折衷点
可靠性和区别性 • 可靠性(Reliability )和可区别性(discrimination) • 为了有效地推导一个特征,我们希望通过模 型的其它特征来预测它,把这些特征分成等 价类便于我们预测新的数据。 • 分类特征越多,对未知分布的目标特征的预 测就更精确,即有较好的可区别性,但是这 样对每一个分类其实例就较少,统计的数据 就不可靠,所以在划分等价类时要在可靠性 和可区别性之间找一个折衷点
长度问题 vn;∑eanp(w)=1→ °∑n=1.eanp(w)>>1(→>∞) ·我们试图对所有的词序列建立模型 对于固定长度的任务,没有问题,n一旦固定,累 计和为1 比如 Tagging等 对于变长的任务,需要对比较短的句子进行折扣 般模型 对于长度为n的词序列 P(w=mp(w), ∑anp(w)= 从数据中估计λn
长度问题 • n; wn p(w)=1 • n=1… wn p(w) >> 1 (→) • 我们试图对所有的词序列建立模型 – 对于固定长度的任务,没有问题,n一旦固定,累 计和为1 • 比如Tagging等 – 对于变长的任务,需要对比较短的句子进行折扣 • 一般模型 – 对于长度为n的词序列 • P’(w)=np(w), n=1… n=1 • n=1… wn p’(w)=1 • 从数据中估计n