Jalal, Hafiza Dua, Saba Aslam, Muhammad Hasnain Sultan, Ghulam Muhy Ud Deen Raee, Muhammad Azam, and Mubasher Hussain Malik. “Cross-Modal Knowledge Mining Leveraging Multimodal Large Language Models for Automated Video Scene Understanding and Event Detection”. NextGen AI & Computing Journal 1, no. 1 (May 30, 2026): 102–131. Accessed June 4, 2026. https://scientia-nexus.org/index.php/nac/article/view/16.