도메인 특화 LLM 파인튜닝 절차

IT논상

by skynwater 2024. 5. 21. 08:34

McKinsey에 따르면 LLM 등 생성형 AI는 은행업 내에서 ‘마케팅/판매, 고객지원/관리, 프로그래밍, 규제준수’ 비즈니스 분야에서 생산성 제고에 기여할 것으로 보고 있다. 생성형 AI는 글로벌 은행산업 내에서 약 2,000억~3,400억 달러의 가치를 창출할 것으로 전망되며, 이는 산업 전체의 매출에서 2.8~4.7%에 상응하는 수치다. 금융회사는 내부적으로 직원의 업무 수행을 지원하고 자동화 하며, 자연어 기반 정보를 수집･분석해 전략적 판단을 내리기 위하여 LLM을 활용한다(장갑수,
2023). 이렇게 가장 늦게 신기술을 도입하는 금융권에서도 생성형 AI인 LLM의 활용이 확대되고 있다. 하지만 일반적인 LLM을 가지고 도입을 검토하기 때문에 금융권의 특화된 요구사항을 충족시키는데 한계가 있다. 도메인 특화는 특정 분야에 깊은 지식을 갖춘 LLM을 개발하는 것을 목표로 하는데 해당 분야의 특화된 요구사항을 충족하는 것이 필수적이다. 예를 들어, 의료 분야에서는 정확하고 상세한 의학 용어와 지식이 필요하며, 법률 분야에서는 복잡한 법률 용어와 개념을 정확히 이해하고 처리할 수 있는 능력이 요구된다. 이러한 특화된 요구사항을 충족시키기 위해서는 일반적인 LLM보다는 해당 분야에 특화된 모델이 필요하며 해당 분야의 세밀한 요구사항을 만족시키고, 보다 정확하고 신뢰할 수 있는 결과를 제공하는 데 중요한 역할을 해야 한다.

파인튜닝 진행 방법은 <그림 8>에서 제시하는 절차로 진행하며 데이터 수집과 전처리 단계에서는 금융 특화 데이터셋을 선정하고, 효과적인 전처리 방법을 도입한다. 모델 선정과 파인튜닝 절차에서는 적절한 사전 훈련된 LLM인 PLM을 선정
하고, 하이퍼파라미터를 조정하여 튜닝한다. 금융 분야의 특성을 고려한 파인튜닝 고려사항에 서는 금융 데이터 특성, 도메인 특화 어휘, 파인튜닝 알고리즘에 대한 고려사항 검토하여 진행 한다.

금융 특화 데이터셋을 선정하는 방법은 크게 두 가지로 나눌 수 있다. 첫 번째 방법은 기존에 공개된 데이터셋을 활용하는 방법이다. 금융 분야에서 공개된 데이터 셋으로는 <표 4>와 같은 것들이 있다. 두 번째 방법은 자체적으로 데이터셋을 구축
하는 방법이다. 자체적으로 데이터셋을 구축하는 경우, 활용하고자 하는 목적에 맞는 데이터를 수집하고 정제할 수 있다는 장점이 있다. 그러나 데이터 수집 및 정제에 많은 시간과 노력이 소요될 수 있으며 자체적으로 데이터셋을 구축할 때는 다음과 같은 사항들을 고려해야 한다.

1) 데이터 수집 방법: 데이터는 인터넷, 데이터베이스, 센서 등 다양한 방법으로 수집할 수 있다. 활용하고자 하는 목적에 맞는 데 이터 수집 방법을 선택해야 한다.
2) 데이터 정제 방법: 데이터는 수집 과정에서 오류나 편향이 있을 수 있다. 데이터 정제를 통해 오류나 편향을 제거해야 한다.

수집한 금융 데이터는 불규칙하고 복잡한 형태를 가지고 있을 것이다. 따라서 데이터를 모델 학습에 적합한 형태로 전처리하는 작업이 필요하다. 이 단계에서는 텍스트 정규화, 토큰화, 불용어 처리 및 형태소 분석 등의 기법을 활용하여 데이터를
정제하고 모델 학습에 적합한 형태로 가공한다.
금융 분야에서는 <표 5>와 같은 데이터 전처리 방법들이 주로 사용된다. 이러한 데이터 전처리 과정을 거치면, 금융 상
품의 특성을 보다 정확하게 이해할 수 있다.

* 출처 : Domain-specialized LLM: Financial fine-tuning and utilization method using Mistral 7B

저작자표시 (새창열림)

'IT논상' 카테고리의 다른 글

멀티모달 LLM 기반 멀티 에이전트 시스템 구현: No-Code 플랫폼 활용 (8)	2025.01.07
Graph Agent 활용한 Advanced RAG 시스템 구현 방법 (12)	2024.10.01
RAG모델과 LangChain 프레임워크 기반 LLM 서비스 구현 방법 (3)	2024.05.21
Fine-tuning and Utilization Methods of Domain-specific LLMs (3)	2024.03.05
LLM 애플리케이션 아키텍처를 활용한 생성형 AI 서비스 구현: RAG모델과 LangChain 프레임워크 기반 (4)	2024.02.06

skynwater

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'IT논상' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바