CARMA模块中的基本概念 upport Support=3/4×100%=75% 它的定义和 instances很接 近,不同的是 support描述 四条记录中只有一条既包含了前项 的不是数量,而是比例 bread,又包含了后向milk,所以 Rule support=1/4X100%=25% Rule support ID PI P2 P3 P4 它在 Support定义的基础 bread eese butter water 上更进一步,它指的是 所有记录中既包含某规 water milk bread noodle 则的 antecedent,又包含 I noodle meat beer consequent的记录所占 的比例。 fish softer/ frozen bread nk
CARMA模块中的基本概念 • Support 它的定义和instances很接 近,不同的是support描述 的不是数量,而是比例。 • Rule Support 它在Support定义的基础 上更进一步,它指的是 所有记录中既包含某规 则的antecedent,又包含 consequent的记录所占 的比例。 ID P1 P2 P3 P4 1 bread cheese butter water 2 water milk bread noodle 3 orang e noodle meat beer 4 fish softdri nk frozenm eal bread Support=3/4×100%=75% 四条记录中只有一条既包含了前项 bread,又包含了后向milk,所以 Rule Support=1/4×100%=25%
CARMA模块中的基本概念 Confidence 根据规则“面包=》牛奶”, 那么购买了面包的第一、二及 Confidence 四行都会被预测购买了牛奶, 但事实上这三个预测只有第二 Rule support / Support 个是正确的,所以 该指标反映的是规则预测的 confidence=1/3X100%=33. 3% 准确程度。 Deployability ID P1 P2 P3 P4 ch bread butter water Deployabilit 2 water milk bread noodle Support Rule support meat eer 它的作用与 confidence类似 3 orangnoodl fish softdr frozen bread ink meal
CARMA模块中的基本概念 • Confidence Confidence = Rule Support / Support 该指标反映的是规则预测的 准确程度。 • Deployability Deployability = Support – Rule Support 它的作用与confidence类似。 ID P1 P2 P3 P4 1 bread chees e butter water 2 water milk bread noodle 3 orang e noodl e meat beer 4 fish softdr ink frozen meal bread 根据规则“面包=》牛奶”, 那么购买了面包的第一、二及 四行都会被预测购买了牛奶, 但事实上这三个预测只有第二 个是正确的,所以 confidence=1/3×100%=33.3%
CARMA模块中的基本概念 ·Lift 如果采 在已知某规则的 的规 是有的么时 consequent发生 车6 66% 猜测图 50% 少呢??? 的先验概率的情况 下,某规则的Lift 被定义为 Confidence P1 P2 P3 P4 和该先验概率的比 chees rea butter water e 率值。 2 water milk bread noodle 已知有50%的人 3 milk noodl meat beer 购买了牛奶:) softer frozen fish eal bread ink
CARMA模块中的基本概念 • Lift 在已知某规则的 consequent发生 的先验概率的情况 下,某规则的Lift 被定义为Confidence 和该先验概率的比 率值。 ID P1 P2 P3 P4 1 bread chees e butter water 2 water milk bread noodle 3 milk noodl e meat beer 4 fish softdr ink frozenm eal bread 那么对于一条记录,那么不 采用任何规则进行预测,随 便猜测该顾客是否该买牛奶 的正确率是50% 已知有50%的人 购买了牛奶:) 如果采用“面包=》牛奶” 的规则进行预测的话,正 确率,即 confidence=33.3%比随便 猜测的正确率还低。 那么此时的 Lift值为多 少呢??? Lift=33.3%/50%=66.6%<1 所以只有那些Lift>1 的规则才是有意义的 规则☺
源数据格式 CARMA模块能够处理一下两种格式的数据 Tabular数据格式 Transactional数据格式 Customer purchase Customer Jam Bread Milk Jam T 123 2 milk T T bread am bread milk
源数据格式 • CARMA模块能够处理一下两种格式的数据 • Tabular数据格式 Transactional数据格式
案例研究之购物篮分析 数据准备 使用数据为 clementine自带的 Basketsln数据集; 该数据集样本量为1000,每笔交易包含了顾客的卡 号、性别、年龄、收入、付款方式等一系列个人信 息,以及其购买的各种食品清单: 该数据集为 Tabular格式的数据。 研究目的 为超市货架的摆放提供科学的依据 为超市商品促销决策提供支持
案例研究之购物篮分析 • 数据准备 • 使用数据为clementine自带的Baskets1n数据集; • 该数据集样本量为1000,每笔交易包含了顾客的卡 号、性别、年龄、收入、付款方式等一系列个人信 息,以及其购买的各种食品清单; • 该数据集为Tabular格式的数据。 • 研究目的 • 为超市货架的摆放提供科学的依据; • 为超市商品促销决策提供支持