EgoSchema

EgoSchema is very long-form video question-answering dataset, and benchmark to evaluate long video understanding capabilities of modern vision and language systems. Derived from Ego4D, EgoSchema consists of over 5000 human curated multiple choice question answer pairs, spanning over 250 hours of real video data, covering a very broad range of natural human activity and behavior.

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Zero-Shot Video Question Answer	EgoSchema (fullset)	VideoTree
	Zero-Shot Video Question Answer	EgoSchema (subset)	LangRepo

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Zero-Shot Video Question Answer

Similar Datasets

STAR Benchmark

NExT-GQA

IntentQA

MVBench

Usage

License

Unknown

Modalities

Videos

Languages