Upload README.md
Browse files
README.md
CHANGED
@@ -20,7 +20,7 @@ license: cc-by-nc-sa-4.0
|
|
20 |
여기서 단순한 호기심이 들었다. **Upstage에서 발표한 Depth-Up-Scaling(DUS) 방법론은 mistral-7B 모델 2개를 merge(passthrough)한 방법**이다.
|
21 |
이때 놀랍게도, DUS 방법론을 적용한 `upstage/SOLAR-10.7B-v1.0`모델은 기존의 mistral-7B 모델보다 리더보드에서 높은 성능을 기록했다. (아래의 테이블 참고)
|
22 |
그렇다면, DUS 방법론을 제한없이, 다른 모델에 적용하면 똑같은 결과가 발생할지 너무나 궁금했다. 🙃
|
23 |
-
|
24 |
|
25 |
| Model | Average | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
|
26 |
| --- | --- | --- | --- | --- | --- | --- | --- |
|
@@ -74,7 +74,31 @@ dtype: float16
|
|
74 |
## lm-evaluation-harness(zero-shot)
|
75 |
- Follow up as [beomi/LM-Harness](https://github.com/Beomi/ko-lm-evaluation-harness)
|
76 |
```
|
77 |
-
(
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
78 |
```
|
79 |
|
80 |
- Follow up as [Eleuther/LM-Harness](https://github.com/EleutherAI/lm-evaluation-harness)
|
|
|
20 |
여기서 단순한 호기심이 들었다. **Upstage에서 발표한 Depth-Up-Scaling(DUS) 방법론은 mistral-7B 모델 2개를 merge(passthrough)한 방법**이다.
|
21 |
이때 놀랍게도, DUS 방법론을 적용한 `upstage/SOLAR-10.7B-v1.0`모델은 기존의 mistral-7B 모델보다 리더보드에서 높은 성능을 기록했다. (아래의 테이블 참고)
|
22 |
그렇다면, DUS 방법론을 제한없이, 다른 모델에 적용하면 똑같은 결과가 발생할지 너무나 궁금했다. 🙃
|
23 |
+
실험을 통해서 나의 호기심에 대한 결론을 내려보고자 한다. 😋😋
|
24 |
|
25 |
| Model | Average | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
|
26 |
| --- | --- | --- | --- | --- | --- | --- | --- |
|
|
|
74 |
## lm-evaluation-harness(zero-shot)
|
75 |
- Follow up as [beomi/LM-Harness](https://github.com/Beomi/ko-lm-evaluation-harness)
|
76 |
```
|
77 |
+
gpt2 (pretrained=PracticeLLM/Twice-KoSOLAR-16.1B-test), limit: None, provide_description: False, num_fewshot: 0, batch_size: None
|
78 |
+
| Task |Version| Metric |Value | |Stderr|
|
79 |
+
|----------------|------:|--------|-----:|---|-----:|
|
80 |
+
|kobest_boolq | 0|acc |0.7201|± |0.0120|
|
81 |
+
| | |macro_f1|0.7073|± |0.0124|
|
82 |
+
|kobest_copa | 0|acc |0.6510|± |0.0151|
|
83 |
+
| | |macro_f1|0.6506|± |0.0151|
|
84 |
+
|kobest_hellaswag| 0|acc |0.4520|± |0.0223|
|
85 |
+
| | |acc_norm|0.5820|± |0.0221|
|
86 |
+
| | |macro_f1|0.4475|± |0.0222|
|
87 |
+
|kobest_sentineg | 0|acc |0.7078|± |0.0229|
|
88 |
+
| | |macro_f1|0.7071|± |0.0229|
|
89 |
+
|
90 |
+
gpt2 (pretrained=yanolja/KoSOLAR-10.7B-v0.1), limit: None, provide_description: False, num_fewshot: 0, batch_size: None
|
91 |
+
| Task |Version| Metric |Value | |Stderr|
|
92 |
+
|----------------|------:|--------|-----:|---|-----:|
|
93 |
+
|kobest_boolq | 0|acc |0.8725|± |0.0089|
|
94 |
+
| | |macro_f1|0.8722|± |0.0089|
|
95 |
+
|kobest_copa | 0|acc |0.6850|± |0.0147|
|
96 |
+
| | |macro_f1|0.6844|± |0.0147|
|
97 |
+
|kobest_hellaswag| 0|acc |0.4340|± |0.0222|
|
98 |
+
| | |acc_norm|0.5840|± |0.0221|
|
99 |
+
| | |macro_f1|0.4296|± |0.0221|
|
100 |
+
|kobest_sentineg | 0|acc |0.7506|± |0.0217|
|
101 |
+
| | |macro_f1|0.7505|± |0.0217|
|
102 |
```
|
103 |
|
104 |
- Follow up as [Eleuther/LM-Harness](https://github.com/EleutherAI/lm-evaluation-harness)
|