Jalal HD, Aslam S, Sultan MH, Raee GMUD, Azam M, Malik MH. Cross-Modal Knowledge Mining Leveraging Multimodal Large Language Models for Automated Video Scene Understanding and Event Detection. NAC. 2026;1(1):102-131. doi:10.5281/zenodo.20461727