[1]

H. D. Jalal, S. Aslam, M. H. Sultan, G. M. U. D. Raee, M. Azam, and M. H. Malik, “Cross-Modal Knowledge Mining Leveraging Multimodal Large Language Models for Automated Video Scene Understanding and Event Detection”, NAC, vol. 1, no. 1, pp. 102–131, May 2026, doi: 10.5281/zenodo.20461727.