Benchmark Datasets
updated
Benchmark
•
Updated
•
17.6k
•
483k
•
1.16k
Note
Lv 2.9
Viewer
•
Updated
•
81.4k
•
191k
•
74
Note
Lv 3.1
Viewer
•
Updated
•
1.21k
•
2.6k
•
45
Note
Lv 3.5
Viewer
•
Updated
•
6.51k
•
1.23k
•
38
Note
Lv 4.3
Viewer
•
Updated
•
164
•
161k
•
365
Note
Lv 4.8
Viewer
•
Updated
•
1k
•
3.76k
•
32
Note
Lv 4.9
google-research-datasets/mbpp
Viewer
•
Updated
•
1.4k
•
1.22M
•
215
Note
Lv 5.1
Viewer
•
Updated
•
231k
•
306k
•
664
Note
Lv 6.0
Viewer
•
Updated
•
7.79k
•
279k
•
313
Note
Lv 6.2
edinburgh-dawg/mmlu-redux-2.0
Viewer
•
Updated
•
5.7k
•
10.7k
•
35
Note
Lv 6.3
Viewer
•
Updated
•
164
•
16k
•
18
Note
Lv 6.3
Viewer
•
Updated
•
13.8k
•
463
•
8
Note
Lv 6.5
Viewer
•
Updated
•
378
•
11.6k
•
15
Note
Lv 6.8
Viewer
•
Updated
•
541
•
57.7k
•
130
Note
Lv 7.1
Viewer
•
Updated
•
4.43k
•
2.26k
•
125
Note
Lv 7.5
Benchmark
•
Updated
•
12.1k
•
84.8k
•
416
Note
Lv 7.9
livecodebench/code_generation
Viewer
•
Updated
•
121
•
3.84k
•
28
Note
Lv 8.3
Viewer
•
Updated
•
800
•
1
•
1
Note
Lv 8.6
princeton-nlp/SWE-bench_Verified
Viewer
•
Updated
•
500
•
626k
•
262
Note
Lv 9.0
Viewer
•
Updated
•
30
•
6.51k
•
13
Note
Lv 9.2
Viewer
•
Updated
•
30
•
31.5k
•
24
Note
Lv 9.3
Viewer
•
Updated
•
30
•
3.87k
•
7
Note
Lv 9.5
Benchmark
•
Updated
•
1.25k
•
86.6k
•
352
Note
Lv 9.6
Benchmark
•
Updated
•
2.5k
•
22.9k
•
692
Note
Lv 10.0