• mile米乐M6

    服务器 2024-06-24

    KunTai R722产生Nandflash写入量超过门限告警

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R722

    硬件配置:9460-8i RAID卡


    二、故障描述

    2.1故障现象

    客户现场服务器产生告警

    告警描述:The data written to the NAND flash in last 15 days exceeds 12G.


    三、问题分析

    3.1排查思路

    1.收集日志,根据告警提示查看查看/dump_info/AppDump/BMC/nandflash_info.txt文件

    image.png

    2. 告警提示Nandflash写入量超过12G,而实际只有2.279G,因此该告警为误告警

    3.2 原因分析

    1.iBMC版本为以下特定版本

    鲲鹏服务器:V622、V624、V625版本

    “Total data written in 15 days”这一项实际上小于12G,则确认是误告警。

    “Total data written in 15 days”这一项实际上超过12G,则确认是真实告警,非误告警。

    特定版本的iBMC计算Nandflash写入量时,15天的写入量会不断累增,而不是按照15天计算写入量。例如每天写入量为0.2G,经过12G / 0.2G = 60天后(中间iBMC没有进行过复位),累增的写入量将达到门限12G,导致产生误告警。

     

    四、问题解决

    4.1解决办法

    1.如果确认是误告警,则升级到以下版本解决问题。

    鲲鹏服务器:升级到V626及以上版本

    2.如果确认是真实告警,则需要分析Nandflash写入量过多的原因,再分析问题解决方法。

    临时规避措施:

    如果确认是误告警,可以顺利获得复位iBMC清零写入量的方式消除告警。

    注意:复位iBMC消除告警后,再过一段时间,仍会再次产生误告警,需要定期复位iBMC避免再次产生误告警。