YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

모델 개요

이 프로젝트는 대규모 헬스케어 데이터셋을 기반으로 사용자가 신뢰성 있는 의료 정보를 언제 어디서든 얻을 수 있도록 돕는 플랫폼 구축을 목표로 하였습니다. 초거대 AI 헬스케어 질의응답 데이터를 활용하여 의료 분야의 전문 지식을 포함한 대규모 AI 모델을 기반으로 하며, 환자들에게 신속하고 정확한 의료 정보를 제공합니다.

모델 상세 설명

  • 모델명: RAFT + RAG 기반 의료 상담 챗봇
  • 기반 모델: Gemma-2-2b-it
  • 학습 방법: GPT 4o-mini를 활용한 데이터 증강 및 RAFT 방법 적용
  • 아키텍처: Gemma-2-2b-it과 동일한 구조 사용

데이터셋

  • 데이터셋 이름: 초거대 AI 헬스케어 질의응답 데이터
  • 출처: AI 허브
  • 데이터 구성:
    • 40%: 정답이 포함된 문서 1개 + 정답과 관련 없는 문서 1개
    • 60%: 정답과 관련 없는 문서 2개

학습 방법

모델은 GPT 4o-mini를 활용한 데이터 증강 기법과 RAFT(Adapting Language Model to Domain Specific RAG) 방법을 적용하여 학습되었습니다. 이러한 방법을 통해 모델은 복잡한 문맥 이해와 정확한 정보 검색 능력을 향상시켰습니다.

예시

<bos><start_of_turn>user
<Question>: 족저 근막염 재활을 위해 어떤 조치를 취해야 하나요?
<Documents>: [
  '족저 근막염 재활은 발 건강을 회복하고 통증을 완화하기 위해 다양한 조치들을 취하는 것이 중요합니다. ...',
  '외상 후 스트레스 장애 치료를 위해 약물 치료가 선택될 수 있습니다. ...'
]
<end_of_turn>
<start_of_turn>model
<Answer>: 족저 근막염 재활을 위해 취해야 할 조치는 다음과 같습니다: ...
<end_of_turn><eos>

예시

질문:

두통이 자주 발생하는 이유가 궁금합니다. 스트레스 때문일까요, 아니면 다른 건강 문제일까요? 어떤 상황에서 두통이 심해지는지와 함께 주의할 점을 알고 싶어요.

답변:

## 두통의 원인

두통은 여러 가지 원인으로 발생할 수 있습니다. 가장 일반적인 원인으로는 다음과 같은 것들이 있습니다:

1. **스트레스**: 일상생활에서의 스트레스는 두통을 유발할 수 있습니다. 특히 업무나 학업, 가족 관계에서의 압박감이 두통을 악화시킬 수 있습니다.
2. **신체적 요인**: 근육의 긴장, 혈액 순환 문제, 호르몬 변화 등 신체적인 요인도 두통을 유발할 수 있습니다.
3. **영양 결핍**: 비타민 B6 결핍이나 단백질 부족은 두통을 일으킬 수 있습니다.
4. **약물**: 특정 약물, 특히 항우울제나 진통제 등이 두통을 유발할 수 있습니다.
5. **비만**: 체중이 과다하면 혈액순환이 저하되어 두통이 발생할 수 있습니다.

## 두통의 주의점

두통이 자주 발생하는 경우, 다음과 같은 주의점을 따르는 것이 중요합니다:

- **스트레스 관리**: 스트레스를 줄이기 위해 명상, 요가, 심호흡 등의 방법을 시도해보세요.
- **건강한 식습관**: 균형 잡힌 식사를 하고, 과식이나 탄수화물 과다 섭취를 피하세요.
- **규칙적인 운동**: 매일 짧은 운동을 통해 혈액순환을 개선하고 스트레스를 줄이는 데 도움이 됩니다.
- **충분한 수면**: 규칙적인 수면 패턴을 유지하고, 잠자기 전에는 스트레스를 줄이는 것이 중요합니다.
- **전문가 상담**: 두통이 반복적으로 발생하거나 심각한 증상이 있을 경우, 의사와 상담하여 적절한 진단과 치료를 받는 것이 필요합니다.

두통은 일반적으로 일상생활에 큰 지장을 주지 않지만, 만약 자주 발생하거나 심각한 증상이 나타난다면 전문가의 도움을 받는 것이 좋습니다.

평가 결과

본 연구에서는 RAFT + RAG 모델과 기존 모델인 Gemma-2-2b-it을 비교하여 RAGAS: Automated Evaluation of Retrieval Augmented Generation 방법론을 사용하여 답변 유사도를 평가했습니다.

  • Gemma-2-2b-it 모델: 평균 79.98% 의 유사도 기록
  • RAFT + RAG 모델: 평균 96.02% 의 유사도 기록
    • 최소 유사도: 92.39%
    • 최대 유사도: 98.56%

16% 의 성능 향상이 확인되었으며, 이는 RAFT + RAG 모델이 복잡한 문맥과 정보 검색에서 우수한 처리 능력을 보유하고 있음을 나타냅니다.

image

사용 방법

사용 방법과 아키텍처는 Gemma-2-2b-it 모델과 동일합니다. 모델은 한국어 의료 질의에 대해 전문적인 답변을 제공합니다.

모델 및 양자화 버전

아래는 본 모델과 양자화한 버전, 그리고 DSF(Domain-Specific Fine-tuning) 모델의 링크입니다:

제한 사항 및 주의사항

  • 의료 조언: 이 모델은 의료 정보를 제공하지만, 전문적인 의료 상담이나 진단을 대체하지 않습니다. 건강 관련 의사 결정은 반드시 의료 전문가와 상의하시기 바랍니다.
  • 데이터 한계: 모델은 학습된 데이터 범위 내에서 답변을 제공합니다. 최신 의료 지침이나 개인별 상황에 대한 고려는 부족할 수 있습니다.
  • 책임 한계: 이 모델의 사용으로 발생하는 결과에 대해 개발자는 책임을 지지 않습니다.

인용

이 모델을 사용하거나 연구에 참고하실 경우 다음 문헌을 인용해주시기 바랍니다:

  • 초거대 AI 헬스케어 질의응답 데이터: AI 허브, 초거대 AI 헬스케어 질의응답 데이터
  • Gemma 2 모델: "Gemma 2: Improving Open Language Models at a Practical Size", 2023.
  • RAFT 방법론: "Adapting Language Model to Domain Specific RAG", arXiv preprint arXiv:2403.10131, 2023.
  • RAGAS 평가 방법론: "RAGAS: Automated Evaluation of Retrieval Augmented Generation", 2023.

라이선스

이 모델은 해당 데이터셋과 원천 모델의 라이선스 조건에 따라 사용해야 합니다. 사용 전에 반드시 라이선스 내용을 확인하시기 바랍니다.

Downloads last month
6
Safetensors
Model size
2.51B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for devlim/Korea-HealthCare-RAFT-float16

Quantizations
2 models