kyujinpy commited on
Commit
8115a4c
·
1 Parent(s): b89d6a4

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +26 -2
README.md CHANGED
@@ -20,7 +20,7 @@ license: cc-by-nc-sa-4.0
20
  여기서 단순한 호기심이 들었다. **Upstage에서 발표한 Depth-Up-Scaling(DUS) 방법론은 mistral-7B 모델 2개를 merge(passthrough)한 방법**이다.
21
  이때 놀랍게도, DUS 방법론을 적용한 `upstage/SOLAR-10.7B-v1.0`모델은 기존의 mistral-7B 모델보다 리더보드에서 높은 성능을 기록했다. (아래의 테이블 참고)
22
  그렇다면, DUS 방법론을 제한없이, 다른 모델에 적용하면 똑같은 결과가 발생할지 너무나 궁금했다. 🙃
23
- 일단, 가설은 성능이 비슷하거나 좋아질 것으로 예상된다. 실험을 통해서 나의 호기심에 대한 결론을 내려보고자 한다. 😋😋
24
 
25
  | Model | Average | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
26
  | --- | --- | --- | --- | --- | --- | --- | --- |
@@ -74,7 +74,31 @@ dtype: float16
74
  ## lm-evaluation-harness(zero-shot)
75
  - Follow up as [beomi/LM-Harness](https://github.com/Beomi/ko-lm-evaluation-harness)
76
  ```
77
- (will update)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
  ```
79
 
80
  - Follow up as [Eleuther/LM-Harness](https://github.com/EleutherAI/lm-evaluation-harness)
 
20
  여기서 단순한 호기심이 들었다. **Upstage에서 발표한 Depth-Up-Scaling(DUS) 방법론은 mistral-7B 모델 2개를 merge(passthrough)한 방법**이다.
21
  이때 놀랍게도, DUS 방법론을 적용한 `upstage/SOLAR-10.7B-v1.0`모델은 기존의 mistral-7B 모델보다 리더보드에서 높은 성능을 기록했다. (아래의 테이블 참고)
22
  그렇다면, DUS 방법론을 제한없이, 다른 모델에 적용하면 똑같은 결과가 발생할지 너무나 궁금했다. 🙃
23
+ 실험을 통해서 나의 호기심에 대한 결론을 내려보고자 한다. 😋😋
24
 
25
  | Model | Average | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
26
  | --- | --- | --- | --- | --- | --- | --- | --- |
 
74
  ## lm-evaluation-harness(zero-shot)
75
  - Follow up as [beomi/LM-Harness](https://github.com/Beomi/ko-lm-evaluation-harness)
76
  ```
77
+ gpt2 (pretrained=PracticeLLM/Twice-KoSOLAR-16.1B-test), limit: None, provide_description: False, num_fewshot: 0, batch_size: None
78
+ | Task |Version| Metric |Value | |Stderr|
79
+ |----------------|------:|--------|-----:|---|-----:|
80
+ |kobest_boolq | 0|acc |0.7201|± |0.0120|
81
+ | | |macro_f1|0.7073|± |0.0124|
82
+ |kobest_copa | 0|acc |0.6510|± |0.0151|
83
+ | | |macro_f1|0.6506|± |0.0151|
84
+ |kobest_hellaswag| 0|acc |0.4520|± |0.0223|
85
+ | | |acc_norm|0.5820|± |0.0221|
86
+ | | |macro_f1|0.4475|± |0.0222|
87
+ |kobest_sentineg | 0|acc |0.7078|± |0.0229|
88
+ | | |macro_f1|0.7071|± |0.0229|
89
+
90
+ gpt2 (pretrained=yanolja/KoSOLAR-10.7B-v0.1), limit: None, provide_description: False, num_fewshot: 0, batch_size: None
91
+ | Task |Version| Metric |Value | |Stderr|
92
+ |----------------|------:|--------|-----:|---|-----:|
93
+ |kobest_boolq | 0|acc |0.8725|± |0.0089|
94
+ | | |macro_f1|0.8722|± |0.0089|
95
+ |kobest_copa | 0|acc |0.6850|± |0.0147|
96
+ | | |macro_f1|0.6844|± |0.0147|
97
+ |kobest_hellaswag| 0|acc |0.4340|± |0.0222|
98
+ | | |acc_norm|0.5840|± |0.0221|
99
+ | | |macro_f1|0.4296|± |0.0221|
100
+ |kobest_sentineg | 0|acc |0.7506|± |0.0217|
101
+ | | |macro_f1|0.7505|± |0.0217|
102
  ```
103
 
104
  - Follow up as [Eleuther/LM-Harness](https://github.com/EleutherAI/lm-evaluation-harness)