Search Results for author: Yuansheng Ni

Found 6 papers, 3 papers with code

GenAI Arena: An Open Evaluation Platform for Generative Models

no code implementations • 6 Jun 2024 • Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

Generative AI has made remarkable strides to revolutionize fields such as image and video generation.

Paper
Add Code

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

no code implementations • 3 Jun 2024 • YuBo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains.

Multi-task Language Understanding

Paper
Add Code

A Comprehensive Study of Knowledge Editing for Large Language Models

2 code implementations • 2 Jan 2024 • Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen

In this paper, we first define the knowledge editing problem and then provide a comprehensive review of cutting-edge approaches.

Ranked #1 on knowledge editing on zsRE (using extra training data)

knowledge editing

1,512

Paper
Code

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

3 code implementations • 27 Nov 2023 • Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning.

Complex Query Answering Logical Reasoning +1

7,375

Paper
Code

Evaluating the Robustness to Instructions of Large Language Models

no code implementations • 28 Aug 2023 • Yuansheng Ni, Sichao Jiang, Xinyu Wu, Hui Shen, Yuli Zhou

The focus is on the robustness of instruction-tuned LLMs to seen and unseen tasks.

Instruction Following Relation Extraction

Paper
Add Code

EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

2 code implementations • 14 Aug 2023 • Peng Wang, Ningyu Zhang, Bozhong Tian, Zekun Xi, Yunzhi Yao, Ziwen Xu, Mengru Wang, Shengyu Mao, Xiaohan Wang, Siyuan Cheng, Kangwei Liu, Yuansheng Ni, Guozhou Zheng, Huajun Chen

Large Language Models (LLMs) usually suffer from knowledge cutoff or fallacy issues, which means they are unaware of unseen events or generate text with incorrect facts owing to outdated/noisy data.

knowledge editing

1,512

Paper
Code

Cannot find the paper you are looking for? You can Submit a new open access paper.