1 dataset result for Text to Video Retrieval AND Japanese

Sakuga-42M is a large-scale hand-drawn cartoon video dataset for academic research purposes, it comprises 42 million cartoon keyframes covering various artistic styles, regions, and years, with comprehensive semantic annotations including video-text description pairs, anime tags, content taxonomies, etc. The dataset is intended to support researchers in their exploration of more effective and practical solutions for creating cartoons.

1 PAPER • 2 BENCHMARKS

Datasets

1 dataset result for Text to Video Retrieval AND Japanese