为您找到相关结果约1

  • 光伏产业链数据挖掘与预测(上篇)【SMM分析】

    研究介绍 此研究主要分上、中、下篇。本文为上篇;本文主要运用Apriori关联规则算法 启发式 地挖掘光伏产业链月度同比数据之间增减的关系。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为2021年1月31日到2022年9月30日。研究发现,多晶硅致密料平均价在算法中具有较高支持度与置信度,且价格当月同比数据的更新时间比其他同比数据提早一个月,所以价格当月同比数据具有一定的趋势预测能力。中篇涉及预测,而下篇主要展示因子的特征重要性。通过算法挖掘发现,多晶硅致密料平均价同比增加大概率会触发太阳能发电量、光伏组件净出口金额的当月同比增长。 Apriori算法术语介绍 术语 解释 关联分析(Association Analysis) 在大规模数据集中寻找有趣的关系。 频繁项集(Frequent Item Sets) 经常出现在一块的事件的集合,即包含0个或者多个项的集合称为项集。 支持度(Support) 支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。 置信度(Confidence) 置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度太低,则说明A的出现与B是否出现关系不大。 关联规则(Association Rules) 暗示两个事件之间可能存在很强的关系。形如A->B (from A to B) 的表达式,规则A->B的度量包括支持度和置信度   Apriori算法步骤 1、数据根据阀值生成字符串 2、找出所有的频集,这些项集出现的支持度大于等于预定义的最小支持度。 3、由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度,本文均设为20%。 4、使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,筛选出B端(A->B)事件为单一事件的关联规则。在本文中,B端包含多晶硅致密料平均价、光伏组件净出口数量、光伏组件净出口金额、光伏组件净出口金额的其中一个,A为所有产业链数据 5、最后筛选出A端不存在B端字符串,确立为强关联规则库   数据描述与处理 当月同比数据统计描述 同比数据共有21行月度数据(2021年1月31日到2022年9月30日),17个数据特征(列),表1与表2描述如下: 1、数据分布为非正态分布,数据单位皆为百分百(%) 2、多晶硅价格与产量、光伏组件进出口数据来源于SMM,其他数据来源于国家统计局 3、多晶硅的价格同比数据更新时间比其他同比数据早1个月 4、非同比数据转换处理:以价格时间轴为准向前填充缺失值,每个数据点以前250的数据进行同比计算;最后取多晶硅产量为时间轴,数据再次向前填充缺失值 特征之间的相关性热力图 图1为同比数据相关性热力图,多晶硅致密料等平均价当月同比数据与PPI、中国光伏组件进口金额、太阳能发电量、太阳能电池产量的同比数据具有强正相关性,且与电力、热力和供应业资产、全社会工业用电量具有强负相关性。   特征工程 数据输入算法前,需要根据一定阀值,将数据转化为事件(字符串),之后再转换为布尔值。阀值根据特征各自的75%,50%,25%分位数来设定;同比增加或减少的幅度根据阀值及分类条件将分类为大幅或小幅。最终会产生5类特征:同比大幅增加、同比小幅增加、同比持平、同比小幅减少、同比大幅减少。分类条件及阀值如下: 若当月同比数据的25%分位数小于0: 若当月同比数据的25%分位数大于0: 阀值: 表2与表3的筛选条件与往期报告《SMM分析:关联规则算法挖掘铝价、库存和产量同比规律》(可点击 链接 查看)中的筛选条件一致。     强关联规则 》点击查看SMM数据库 表4描述了一系列强关联规则,强关联规则根据置信度由大到小排列。归纳出以下四条: 1、多晶硅致密料平均价当月同比 增长 与PPI、光伏组件进口金额(或净出口金额)、太阳能发电量、全社会工业用电的当月同比增长有密切关系; 2、太阳能发电量同比 增长 与PPI、多晶硅月度产量、光伏组件出口金额、 多晶硅致密料平均价 有密切关系。 3、光伏组件净出口金额当月同比 增长 与PPI、 多晶硅致密料平均价 、太阳能发电量、全社会工业用电、多晶硅月度产量的当月同比增长有密切关系; 4、光伏组净出口数量当月同比 减少 与多晶硅月度产量、太阳能光伏电池产量、光伏组件进口金额的当月同比增长有密切关系; 本文根据强关联规则归纳出以上流程图,如图2所示。PPI、光伏组件进口金额(或净出口金额)、太阳能发电量、全社会工业用电的当月同比增长可能会导致多晶硅致密料平均价格同比增加;然后,多晶硅致密料平均价格同比增加又可能会导致太阳能发电量和光伏组件净出口金额同比增加。 中篇预计下周发布。此研究的中篇将参考上篇启发式发掘的规律,运用数据处理算法和预测模型对B端数值进行预测和A端数据的趋势进行预测;数据处理算法包括拉格朗日插值法、z-score标准化处理算法;预测模型包括随机森林模型、LASSO回归模型、灰色模型。   注意:本文仅供参考,不构成投资建议

微信二维码今日有色
微信二维码

微信扫一扫关注

下载app掌上有色
掌上有色

掌上有色下载

返回顶部返回顶部
publicize