为您找到相关结果约5个
研究介绍 此研究分为上、中、下篇。本文为下篇;本文主要运用随机森林和LASSO回归模型输出因子重要性。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为2021年1月31日到2022年9月30日。研究发现,在随机森林模型中,太阳能电池产量和多晶硅产量对光伏组件净出口的金额与数量影响较大;多晶硅产量对太阳能发电量和多晶硅致密料平均价影响较大;太阳能电池产量对电力热力生产和供应业资产影响较大;PPI当月同比对太阳能电池产量影响较大。在LASSO回归模型中,多晶硅产量对光伏组件净出口产量负向影响,对金额则是正向影响;电力热力生产与供应资产和PPI当月同比对太阳能发电量是正向影响;多晶硅产量对多晶硅致密平均价是(间接)正向影响;多晶硅产量对电力热力生产与供应资产和太阳能电池产量是正向影响。在光伏产业链量化研究系列中,上篇涉及关联规则算法挖掘,而中篇主要是模型的剖析与预测结果展示。 随机森林特征重要性计算 LASSO 回归特征重要性计算 LASSO回归的特征重要性就是LASSO回归对应的自变量系数。在系数中,会出现系数为0的现象;系数为0的自变量代表此类变量在回归模型降维时被剔除出去。 随机森林特征重要性展示 在随机森林模型中,太阳能电池产量和多晶硅产量对光伏组件净出口的金额与数量影响较大;多晶硅产量对太阳能发电量和多晶硅致密料平均价影响较大;太阳能电池产量对电力热力生产和供应业资产影响较大;PPI当月同比对太阳能电池产量影响较大。 LASSO 回归特征重要性展示 在LASSO回归模型中,多晶硅产量对光伏组件净出口产量负向影响,对光伏组件进出口金额则是正向影响;电力热力生产与供应资产和PPI当月同比对太阳能发电量是正向影响;多晶硅产量对多晶硅致密平均价是(间接)正向影响;多晶硅产量对电力热力生产与供应资产和太阳能电池产量是正向影响。间接影响的原因是因为在《光伏产业链数据挖掘与预测(上篇)》(可点击此 链接 查看)的关联规则挖掘中,多晶硅产量首先通过影响光伏组件净出口和金额或太阳能发电量后,进而影响多晶硅致密平均价,所以为间接影响。 总结 通过上篇的关联规则算法挖掘,我们初步得知了宏观与基本面数据对多晶硅复投料平均价、太阳能发电量、光伏组件净出口数量与金额的影响逻辑链。在中篇,我们通过随机森林、LASSO回归和灰色模型对光伏产业链数据的值预测以及涨跌趋势预测。随机森林与LASSO回归的模糊预测范围均覆盖了真实值,但灰色预测模型的效果不太理想,原因是数据的涨跌幅度过大,无法通过级比测试。在下篇中,随机森林与LASSO回归的特征重要性基本与关联规则所挖掘出的逻辑链相符;特别是LASSO的特征重要性方向与大部分关联规则所挖掘出来的逻辑链一致;不同模型之间的验证进一步增强了关联规则模型逻辑链条的可靠性。 注意:本文仅供参考,不构成投资建议 光伏产业链量化研究系列往期文章: 《光伏产业链数据挖掘与预测(上篇)》( 链接 ) 《光伏产业链数据挖掘与预测(中篇)》( 链接 ) 》点击查看SMM数据库
受益于光伏行业超高的景气度,德业股份(605117.SH)2022年业绩大幅预增。从德业股份获悉,目前逆变器海外需求旺盛,公司2023年一季度生产已排满。 1月9日,德业股份发布2022年度业绩预告,预计2022年净利润14.5亿元至15.5亿元,同比增加150.62%到167.91%。财报显示,2022年Q3公司为净利4.77亿元。据此计算,预计Q4公司净利为5.23至6.23亿元,环比增长9.64%到30.6%。 西部证券1月10日研报表示,德业股份业绩符合预期。同日东吴证券研报指出,德业股份2022Q4业绩超预期。 对于业绩增长的原因,德业股份称系逆变器需求旺盛以及公司储能电池包产品投入市场。逆变器业务方面,德业股份指出,下游市场需求旺盛,公司逆变器业务保持快速增长的趋势。 作为光伏行业第一份2022年业绩预告,德业股份在很大程度上也预告了光伏板块2022年的业绩盛况。值得注意的是,截至2022年三季度,在光伏产业链中的硅料环节,各家上市公司业绩实现暴增,即便是二三线组件厂商,在产业链成本高昂的2022年,也都实现了业绩增长。 光伏逆变器是光伏产业链中的核心设备,其市场出货量直接受益于下游光伏装机量的增长。财信证券指出,随着主产业链的全面降价,预计2023年全球光伏新增装机量达接近300GW,对应逆变器需求量达到360GW以上,估算总体光伏逆变器市场规模超过600亿元,同比增幅超过50%。 有观点认为,今年光伏行业环境已发生很大变化,材料成本急剧降低,产业链产能大量释放已成定局。受此影响,光伏行业或将发起“价格战”。 对此,德业股份相关人士表示,“海外需求一直都比较旺盛,户储需求持续增长,属于增量市场。我们公司光伏逆变器90%都是出口,产品的售价一直很稳定。目前来看,我们认为光伏逆变器没那么快进入价格战阶段。” “逆变器行业预计未来还是会维持一个比较快的增速,公司会尽力扩大业务规模,进一步提高市占率。”德业股份称。 据西部证券最新研报,预计2022年全年德业股份微逆出货约80万台,同比增长近8 倍;储能出货约30万台,同比增长近4倍;组串出货约25万台。其中,储能+微逆出货占比达80%以上。东吴证券最新研报亦表示,“欧洲将成为2023年公司微逆业务的新增长点,我们预计2023年出货160-200万台,同比翻倍以上增长。” 除逆变器业务外,德业股份的储能电池业务同样被市场寄予厚望。据悉,2022年下半年,公司的储能电池包产品搭配储能光伏逆变器迅速出货。西部证券在1月10日研报中称,预计公司2022年电池包出货量约1万套以上,“我们预计公司23年电池包出货大约有10万套以上,对应1-1.5GWh,以单价1-1.5元/Wh 测算,预计可贡献近10-15亿元收入。”
“下一个三十年,中国能源结构必将翻天覆地。”在昨日举办的“瞰见未来”2023复旦大学管理学院新年论坛上,天合光能CEO高纪凡如是说到。 光伏发电因其可再生、无污染,被视为减碳的抓手之一,同时也是新能源革命的颠覆技术之一。 关于光伏产业的技术发展路线,高纪凡认为主要还是得围绕高效率、高功率、高可靠性、高发电量四大核心优势深入展开,并始终以不断降低发电成本作为未来光伏技术发展的主攻方向。 目前最为主流的光伏技术是PERC电池,高纪凡表示,这一技术的转换效率基本在23.5%-24.5%之间,主要大量应用于工商业屋顶、户用屋顶、大型变电站。而在未来三到五年的时间里,则有望深度融合隧穿氧化层、硼扩散发射极、背面电极等尖端技术,逐步向TOPCon、IBC、HIT等更为高效的晶体硅太阳能电池转变,并将电池转换效率进一步提升至25%-28%。 与此同时,钙钛矿/晶体硅叠层电池作为一种比较新型的技术,由于能够更为广泛地吸收太阳光,转化效率高达35%,且拥有明显的低成本优势,近几年的发展速度也相当迅猛;而III-V族的砷化镓电池虽然早已具备超过34%的超高电池转化效率,但由于其制造成本是普通电池的100倍左右,目前主要还是应用于航天航空领域,是该领域电池技术的重要发展方向。 高纪凡在现场还给大家算了一笔账。2021年5月全国人口普查数据为14.12亿,其中农村人口5.1亿,按每户4人,每2户有一个适合安装光伏的屋顶测算,共约6000万个屋顶,按平均装机20KW测算,可开发容量达1200GW,约36000亿元规模。但是,“目前我国户用装机量有且仅有240万户,只占整个可装机容量的4%,可见其未来发展前景仍旧十分广阔”。 在近些年电荒和电价改革的双重刺激之下,越来越多工商业用户也开始积极布局光伏系统,“考虑到目前我国现有工商业屋顶面积约有64亿平方米,若其中的半数面积能够安装光伏发电,则其市场容量有望达到320GW”。 当前中国光伏产业发展可谓如火如荼, 但高纪凡同时也提到,眼下光伏能源接入和终端用户需求之间仍存在时空不平衡性问题,换而言之,高比例的新能源接入对电力系统的灵活性调节也提出了更高的发展要求。 高纪凡表示,在这个问题上, 目前市场的解决思路主要还是大力发展绿氢储能技术,通过光伏、制氢、储能的有机结合,实现对可再生能源的“削峰填谷”,在有效改善能源接入质量的同时,提升电力运营的整体稳定性。 高纪凡认为,在未来,通过全面推进光伏发电、风电、水电、核电的大规模开发,努力提高电网对高比例可再生能源的消纳和调控能力,中国有望逐步告别过去以煤电为绝对主体的传统能源结构,重新构建起一个以新能源为主体的清洁低碳安全高效的全新能源体系。 根据国际可再生能源署的预测,到2050年,光伏发电在总装机数中的比例将高达50%,全球光伏总装机量则有望达到14000GW。 “到那个时候,以光伏发电为主体,再加上陆上风电、海上风电以及地热、潮汐、氢能等新能源资源,必将成为未来能源变革潮流的主力军。”高纪凡强调。
研究介绍 此研究分为上、中、下篇。本文为中篇;本文主要运用随机森林、LASSO回归和灰色模型来对光伏产业链的相关数据和趋势进行预测。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为 2021 年 1 月 31 日到 2022 年 9 月 30 日。研究发现,随机森林和Lasso回归对中国光伏组件净出口数量和金额、太阳能发电量同比增长、多晶硅致密料-平均价、电力与热力生产和供应业资产总计增减、太阳能电池产量当月值的模糊预测较优;灰色预测模型运用多晶硅价格预测光伏组件月度出口数量和金额、光伏组件净出口金额与数量、电力与热力生产和供应业资产总计增减、全社会工业用电量、太阳能发电量累计增长、太阳能发电量的月度同比数据,部分预测具有较高同趋势概率。上篇涉及关联规则算法挖掘,而下篇主要展示因子的特征重要性。 术语解释 术语 解释 集成学习 评估多个机器学习算法结果来完成机器学习任务 基学习器 若集成学习中的机器学习算法为同种类型的个体学习器,则此个体学习器为基学习器 个体学习器 集成学习前的学习器为个体学习器 学习器 机器学习算法模型 bagging集成算法 集成学习中的基学习器是相互独立的 回归决策树 通过根节点和决策节点计算不纯洁度(损失函数);然后,通过不纯洁度判断出决策树叶节点。通过这叶节点将因变量(需预测变量y)划分为不同区间,将落在相同区间内的y值取均值(预测值)。 损失函数 评估模型训练效果时,损失函数是用来评估预测值与真实值之间的差异,成为损失值。 节点 在决策树中,每颗决策树只有一个根节点;叶节点负责划分最终的判断预测区间。所有非根节点和非叶节点都为决策节点或内部节点。 数据处理 由于模型对数据频率的需求不同,需要经过数据处理后再输入到模型中训练;原数据频率和频率需求如下表格所示: 因子 原频率 随机森林频率 Lasso回归频率 灰色模型频率 中国光伏组件月度出口数据:数量 月频 日频 日频 月频同比数据 中国光伏组件月度出口数据:金额 中国光伏组件月度进口数据:数量 中国光伏组件月度进口数据:金额 中国光伏组件月度净出口数据:数量 中国光伏组件月度净出口数据:金额 硅__多晶硅月度产量:产量 全社会用电量:工业用电:当月值 太阳能电池(光伏电池):产量:当月值 电力、热力生产和供应业资产总计_增减 太阳能发电量_累计值 太阳能发电量_累计增长 太阳能发电量_同比增长 PPI:当月同比 多晶硅复投料-平均价 日频 多晶硅致密料-平均价 多晶硅菜花料-平均价 当需要将月频数据转为日频数据时,本文运用拉格朗日插值法计算月度数据之间的观测值。当需要将日频数据转为月频同比数据时,本文计算当日与250日前的数值计算涨跌幅百分比。当需要将月频数据转为月频同比数据时,若原数据不为月度同比数据,则计算月度同比。 拉格朗日插值法是以法国十八世纪数学家约瑟夫·拉格朗日命名的一种多项式插值方法,主要用于计算提取数据两点之间的观测值,多用于高频转低频的数据处理过程。拉格朗日插值法包含了梯度差值、线性插值(一阶)、二阶插值、三阶插值或更高阶插值法。本文的差值标准是保留月度数据真实性的同时,又要提取月度数据之间的观测值;线性插值法将使本文的最佳插值方案。 若平面(或笛卡尔坐标系)中有不重合的n个点:(x 1 , y 1 ), (x 2 , y 2 ), … ,(x n , y n ),拉格朗日插值公式如下所示: 在公式中,n代表拉格朗日插值法的阶数,在本文中运用的是是线性插值法(一阶拉格朗日插值法),所以n在本文中为1。确定插值法的阶数后,还需要确定两点之间的单位数量。由于月份之间的工作日受假期影响,将日频日期和月频日期取并集,计算并集中月频日期之间的差值减一,便可得到月份之间的单位数量。 随机森林预测 随机森林模型介绍 随机森林由上世纪八十年代的Breiman等人发明的以决策树为 基学习器 的基础上引入随机特征选择过程的 bagging集成算法 。此集成算法基于自助采样法(Bootstrap Sampling)使基学习器相互独立。自主采样法可以理解为有放回的随机采样。在自助采样法中,通过取极限可得知,约为63.2%的样本将会被采样。随机森林有回归森林和分类森林两种,本文主要讲述回归森林。随机森林的回归树主要以均方误差(MSE)或平均绝对误差(MAE)作为损失函数来判断 节点 。本文以MSE作为损失函数。本文的 叶节点 判断方法:若某个 决策节点(内部节点) 的划分样本小于等于2或决策节点的损失值(不纯洁度)小于1e -7 ,则此决策节点将作为叶节点。 多元回归森林流程的符号与解释如下: 随机森林的基学习器(单颗回归树)决策节点损失值计算 模型遍历了基回归树数量、树最大深度后,得到了较优的随机森林模型。模型的训练和测试数据比例为7:3,训练集与测试集的R方均在0.9以上。但由于数据量较少,仍有模型过拟合风险。 LASSO 回归预测 LASSO回归介绍 由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。此模型能最大程度保留主要因子变量,有时能达到数据降维效果。 LASSO 回归原理 范数项 意义 L0 矩阵中非零元素的个数 L1 矩阵中非零元素的绝对值之和 L2 矩阵中元素的平方和后开平方 Lp 估计矩阵元素中的最大值 与随机森林结果相比,Lasso回归预测的R方略低于随机森林回归树,平均R方在0.88左右。 随机森林模型与Lasso回归区间预测 预测2022年10月31日数值区间 灰色模型趋势预测 灰色模型介绍 灰色系统是由华中科技大学的邓聚龙教授于80年代初创立,该系统作为新兴的横断学科,在短短的二十年里已得到了长足的发展。 其已经成为社会,经济,科教,科技等很多领域进行预测,决策,评估,规划,控制,系统分析和建模的重要方法之一。特别是它对于时间序列短,统计数据少,信息不完全系统的建模与分析,具有非常显著的功效。 灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。其用等时距观测到的反映预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。 灰色模型预测概率 模型的自变量为多晶硅价格同比,包含多晶硅复投料平均价当月同比,多晶硅致密料平均价当月同比,多晶硅菜花料平均价当月同比。在输入灰色模型前将对数据进行标准化处理。因为本文发现经过z-score标准化处理数据后,回测模型的预测趋势概率有所提高。z-score标准化处理公式为(变量 – 变量均值)/变量标准差。模型的预测概率中,多晶硅价格对太阳能发电量和光伏组件出口数据的预测概率较高。同趋势概率为预测趋势与原值趋势相同的概率。同趋势概率如下图所示: 此研究的下篇将参考中篇的随机森林模型和LASSO回归模型,从而输出因子重要性,其中将涉及因子重要性的计算;下篇将对光伏产业链量化研究系列(上篇,中篇,下篇)进行总结。下篇预计本周五发布。 注意:本文仅供参考,不构成投资建议 》点击查看SMM数据库
研究介绍 此研究主要分上、中、下篇。本文为上篇;本文主要运用Apriori关联规则算法 启发式 地挖掘光伏产业链月度同比数据之间增减的关系。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为2021年1月31日到2022年9月30日。研究发现,多晶硅致密料平均价在算法中具有较高支持度与置信度,且价格当月同比数据的更新时间比其他同比数据提早一个月,所以价格当月同比数据具有一定的趋势预测能力。中篇涉及预测,而下篇主要展示因子的特征重要性。通过算法挖掘发现,多晶硅致密料平均价同比增加大概率会触发太阳能发电量、光伏组件净出口金额的当月同比增长。 Apriori算法术语介绍 术语 解释 关联分析(Association Analysis) 在大规模数据集中寻找有趣的关系。 频繁项集(Frequent Item Sets) 经常出现在一块的事件的集合,即包含0个或者多个项的集合称为项集。 支持度(Support) 支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。 置信度(Confidence) 置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度太低,则说明A的出现与B是否出现关系不大。 关联规则(Association Rules) 暗示两个事件之间可能存在很强的关系。形如A->B (from A to B) 的表达式,规则A->B的度量包括支持度和置信度 Apriori算法步骤 1、数据根据阀值生成字符串 2、找出所有的频集,这些项集出现的支持度大于等于预定义的最小支持度。 3、由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度,本文均设为20%。 4、使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,筛选出B端(A->B)事件为单一事件的关联规则。在本文中,B端包含多晶硅致密料平均价、光伏组件净出口数量、光伏组件净出口金额、光伏组件净出口金额的其中一个,A为所有产业链数据 5、最后筛选出A端不存在B端字符串,确立为强关联规则库 数据描述与处理 当月同比数据统计描述 同比数据共有21行月度数据(2021年1月31日到2022年9月30日),17个数据特征(列),表1与表2描述如下: 1、数据分布为非正态分布,数据单位皆为百分百(%) 2、多晶硅价格与产量、光伏组件进出口数据来源于SMM,其他数据来源于国家统计局 3、多晶硅的价格同比数据更新时间比其他同比数据早1个月 4、非同比数据转换处理:以价格时间轴为准向前填充缺失值,每个数据点以前250的数据进行同比计算;最后取多晶硅产量为时间轴,数据再次向前填充缺失值 特征之间的相关性热力图 图1为同比数据相关性热力图,多晶硅致密料等平均价当月同比数据与PPI、中国光伏组件进口金额、太阳能发电量、太阳能电池产量的同比数据具有强正相关性,且与电力、热力和供应业资产、全社会工业用电量具有强负相关性。 特征工程 数据输入算法前,需要根据一定阀值,将数据转化为事件(字符串),之后再转换为布尔值。阀值根据特征各自的75%,50%,25%分位数来设定;同比增加或减少的幅度根据阀值及分类条件将分类为大幅或小幅。最终会产生5类特征:同比大幅增加、同比小幅增加、同比持平、同比小幅减少、同比大幅减少。分类条件及阀值如下: 若当月同比数据的25%分位数小于0: 若当月同比数据的25%分位数大于0: 阀值: 表2与表3的筛选条件与往期报告《SMM分析:关联规则算法挖掘铝价、库存和产量同比规律》(可点击 链接 查看)中的筛选条件一致。 强关联规则 》点击查看SMM数据库 表4描述了一系列强关联规则,强关联规则根据置信度由大到小排列。归纳出以下四条: 1、多晶硅致密料平均价当月同比 增长 与PPI、光伏组件进口金额(或净出口金额)、太阳能发电量、全社会工业用电的当月同比增长有密切关系; 2、太阳能发电量同比 增长 与PPI、多晶硅月度产量、光伏组件出口金额、 多晶硅致密料平均价 有密切关系。 3、光伏组件净出口金额当月同比 增长 与PPI、 多晶硅致密料平均价 、太阳能发电量、全社会工业用电、多晶硅月度产量的当月同比增长有密切关系; 4、光伏组净出口数量当月同比 减少 与多晶硅月度产量、太阳能光伏电池产量、光伏组件进口金额的当月同比增长有密切关系; 本文根据强关联规则归纳出以上流程图,如图2所示。PPI、光伏组件进口金额(或净出口金额)、太阳能发电量、全社会工业用电的当月同比增长可能会导致多晶硅致密料平均价格同比增加;然后,多晶硅致密料平均价格同比增加又可能会导致太阳能发电量和光伏组件净出口金额同比增加。 中篇预计下周发布。此研究的中篇将参考上篇启发式发掘的规律,运用数据处理算法和预测模型对B端数值进行预测和A端数据的趋势进行预测;数据处理算法包括拉格朗日插值法、z-score标准化处理算法;预测模型包括随机森林模型、LASSO回归模型、灰色模型。 注意:本文仅供参考,不构成投资建议
今日有色
微信扫一扫关注
掌上有色
掌上有色下载
返回顶部