1 dataset result for Fill Mask AND Audio

LSMDC (Large Scale Movie Description Challenge)

This dataset contains 118,081 short video clips extracted from 202 movies. Each video has a caption, either extracted from the movie script or from transcribed DVS (descriptive video services) for the visually impaired. The validation set contains 7408 clips and evaluation is performed on a test set of 1000 videos from movies disjoint from the training and val sets.

116 PAPERS • 4 BENCHMARKS

Datasets

1 dataset result for Fill Mask AND Audio