该问题的定位开始是没有头绪的,因为问题出现后,PCIe的通讯已经中断,此时想通过工控机去读FPGA的调试相关的寄存器已经没有用,即此时读上来的值都是无效的。但是还是得先逐步的排除问题。
第一步:是否是软件的问题
通过阅读问题发生时的软件日志,发现在问题发生时,软件没有收到中断请求,这说明在插拔模块的过程中,PCIe通讯已经失效,模块插入/拔出的中断已经无法发出(在模块插入或者拔出的过程FPGA会检测,如果发生该事件FPGA会通过PCIe发出中断给工控机)。且在问题发生时软件日志的记录上软件没有异常之处,因此排除是软件的问题。
第二步:是否是FPGA逻辑的问题
通过在FPGA插入在线逻辑分析仪,把PCIe的运转状态机LTSSM加入到在线逻辑分析仪,在发生此问题时触发观测LTSSM状态机。在测试时,复现该问题后发现LTSSM有重新回到复位状态的动作,因此怀疑此时可能是电源或者是PCIe接口复位信号的问题,因为在正常情况下,如果系统复位信号没有动作,且上位机没有重新发送PCIe链路训练命令的话,LTSSM状态机是不会被复位的。因此该线索把该问题的原因导向到复位信号或电源上。
第三步:监测PCIe接口的复位信号
PCIe接口的电路如下图所示: