项目概况 ·影响耐热导线加工过程的因素很多,这些因素或多或少还存在一定的相关 性,它们之间的关系使用数学函数表示,也是非常复杂的非线性函数,但 分析不同工序质量指标的相关性,在很大程度上可以调节不同工序的加工 要求,使最终产品的合格率提高。此外,有一部分成品的质量规格超过的 国家标准较多,这说明第一道工序中存在着“质量冗余”,需要通过分析 工序之间的关系,在产品合格的基础上使质量指标达到一个较合适的标准 以消除冗余,降低成本 限于篇幅以及保密原因,这里仅讨论单线线径与所选用杆强度之间的关系 即是否有必要按照单线线径的范围来选择相应的杆强度范围
项目概况 • 影响耐热导线加工过程的因素很多,这些因素或多或少还存在一定的相关 性,它们之间的关系使用数学函数表示,也是非常复杂的非线性函数,但 分析不同工序质量指标的相关性,在很大程度上可以调节不同工序的加工 要求,使最终产品的合格率提高。此外,有一部分成品的质量规格超过的 国家标准较多,这说明第一道工序中存在着“质量冗余”,需要通过分析 工序之间的关系,在产品合格的基础上使质量指标达到一个较合适的标准 ,以消除冗余,降低成本 • 限于篇幅以及保密原因,这里仅讨论单线线径与所选用杆强度之间的关系 ,即是否有必要按照单线线径的范围来选择相应的杆强度范围
耐热导线生产质量数据预处理 ·耐热导线生产的原材料是铝杆,公司接到订单,确定生产某种具体规格的 铝线后,根据杄材流转使用规定选择相应的铝杄,并检査铝杄是否符合相 应的要求。然后进入铝线的生产工序一拉丝工序。经过高速拉丝后,通过 检验铝线的线径、表面质量等指标,对铝线的质量进行控制 数据来源为耐热导线工厂提供的自2014年3月开始至2016年2月底两年的铝 线生产线生产数据,包括原材料检测数据50万条,成品检测数据70万条, 制造执行系统MES)中各条生产线的制造数据总计150多万条
耐热导线生产质量数据预处理 • 耐热导线生产的原材料是铝杆,公司接到订单,确定生产某种具体规格的 铝线后,根据杆材流转使用规定选择相应的铝杆,并检查铝杆是否符合相 应的要求。然后进入铝线的生产工序—拉丝工序。经过高速拉丝后,通过 检验铝线的线径、表面质量等指标,对铝线的质量进行控制 • 数据来源为耐热导线工厂提供的自2014年3月开始至2016年2月底两年的铝 线生产线生产数据,包括原材料检测数据50万条,成品检测数据70万条, 制造执行系统(MES)中各条生产线的制造数据总计150多万条
耐热导线生产质量数据预处理 耐热导线工厂提供的数据来自于原来的项目执行单表、轧机生产日报表 拉丝生产日报表、绞线生产日报表、各类成品检测表、各类半成品检测表 各类原材料检测表、机台设备信息表、班组信息表等。数据量大且较为 分散,需要的信息分散在多个数据表里。为了根据目标铝线选择相应的铝 杆,就需要通过耐热铝线的编号追溯到铝杆的各项数据。通过将订单编号 与项日执行单进行关联,项目执行单与轧机生产日报表、拉丝生产日报表 绞线生产日报表通过相同合同编号进行连接,进行关联的方式,追溯铝 杆的生产数据 这里主要采用 SQL Server中的T-SQL语句 nner join、 left join、 right join等将 多表进行连接整合,得到与铝杆相关的数据主要包括铝杆的重量、实测外 径、抗拉强度、拉断力、伸长率、正向/反向电阻值、20°时电阻率、室温 以及与铝线相关的主要参数铝线的线径与抗拉强度等。整合后得到目标铝 杆参数、铝线参数表
耐热导线生产质量数据预处理 • 耐热导线工厂提供的数据来自于原来的项目执行单表、轧机生产日报表、 拉丝生产日报表、绞线生产日报表、各类成品检测表、各类半成品检测表 、各类原材料检测表、机台设备信息表、班组信息表等。数据量大且较为 分散,需要的信息分散在多个数据表里。为了根据目标铝线选择相应的铝 杆,就需要通过耐热铝线的编号追溯到铝杆的各项数据。通过将订单编号 与项日执行单进行关联,项目执行单与轧机生产日报表、拉丝生产日报表 、绞线生产日报表通过相同合同编号进行连接,进行关联的方式,追溯铝 杆的生产数据 • 这里主要采用 SQL Server中的T-SQL语句 Inner join、 left join、 right join等将 多表进行连接整合,得到与铝杆相关的数据主要包括铝杆的重量、实测外 径、抗拉强度、拉断力、伸长率、正向/反向电阻值、20℃时电阻率、室温 以及与铝线相关的主要参数铝线的线径与抗拉强度等。整合后得到目标铝 杆参数、铝线参数表
耐热导线生产质量数据预处理 在耐热导线的数据分析过程中,主要使用了导线加工过程各工序的质量检 测数据,而加工设备、生产工艺以及人员的数据因为保密、数据收集不全 等原因暂时没有使用 ·发现了耐热导线生产过程中数据收集的一些不足,如有些数据人工输入错 误或者测量有误差,某些有用的数据暂时没有收集或缺失 耐热导线工厂提供了近两年耐热导线检测的数据,涉及多个合同、多个批 次以及多个加工机台 经过上述数据整理的步骤之后,数据中还存在着“脏数据”。所谓脏数据 ,就是数据中存在噪声数据、错误数据、缺失数据以及冗余数据等问题。 数据清理在数据预处理阶段花费时间占比最大,但同时它也是最重要的步 骤,该步骤可以有效减少脏数据造成的低质量分析结果
耐热导线生产质量数据预处理 • 在耐热导线的数据分析过程中,主要使用了导线加工过程各工序的质量检 测数据,而加工设备、生产工艺以及人员的数据因为保密、数据收集不全 等原因暂时没有使用 • 发现了耐热导线生产过程中数据收集的一些不足,如有些数据人工输入错 误或者测量有误差,某些有用的数据暂时没有收集或缺失 • 耐热导线工厂提供了近两年耐热导线检测的数据,涉及多个合同、多个批 次以及多个加工机台 • 经过上述数据整理的步骤之后,数据中还存在着“脏数据”。所谓脏数据 ,就是数据中存在噪声数据、错误数据、缺失数据以及冗余数据等问题。 数据清理在数据预处理阶段花费时间占比最大,但同时它也是最重要的步 骤,该步骤可以有效减少脏数据造成的低质量分析结果
噪声数据处理 噪声数据是指数据中存在着错误或偏离期望值的数据,引起噪声数据的原 因可能是硬件故障、编程错误、拼写错误或者识别程序中的乱码。对于噪 声数据,尤其是孤立点或异常数据,不能随便删除,这些数据很可能是数 据分析中的异常数据 在耐热导线生产数据(这里主要是各工序成品质量检测数据)中,主要存在的 数据噪声形式有缺失值、异常值、冗余值等 缺失值主要存在生产过程记录的数据中,并不是每一项指标的数据都有记录,同一批铝杆拉 出的铝线,时常会出现某个铝线线径空缺的情况,这主要与工厂的生产线记录管理有关 异常值是指存在一些明显不符合常规的数据,如有些记录中铝线的线径数值达到了423mm 而这个数实际可能取值是4.23mm,属于手工录入错误 冗余主要表现为同一生产批次的数据重复出现,这往往是数据整合过程中产生的问题
议程噪声数据处理 • 噪声数据是指数据中存在着错误或偏离期望值的数据,引起噪声数据的原 因可能是硬件故障、编程错误、拼写错误或者识别程序中的乱码。对于噪 声数据,尤其是孤立点或异常数据,不能随便删除,这些数据很可能是数 据分析中的异常数据 • 在耐热导线生产数据(这里主要是各工序成品质量检测数据)中,主要存在的 数据噪声形式有缺失值、异常值、冗余值等 – 缺失值主要存在生产过程记录的数据中,并不是每一项指标的数据都有记录,同一批铝杆拉 出的铝线,时常会出现某个铝线线径空缺的情况,这主要与工厂的生产线记录管理有关 – 异常值是指存在一些明显不符合常规的数据,如有些记录中铝线的线径数值达到了423mm ,而这个数实际可能取值是4.23mm,属于手工录入错误 – 冗余主要表现为同一生产批次的数据重复出现,这往往是数据整合过程中产生的问题