Projects/Final Project 5

MongoDB 자연어 쿼리 생성 모델 만들기

https://huggingface.co/solbi12/ax4-mongodb-query-generator solbi12/ax4-mongodb-query-generator · Hugging Face🚀 A.X-4.0-Light MongoDB Query Generator 한국어 자연어를 MongoDB 쿼리로 변환하는 AI 모델 SKT A.X-4.0-Light 기반으로 파인튜닝된 전문 데이터베이스 쿼리 생성 모델 📋 모델 개요 이 모델은 SKT의 A.X-4.0-Lighthuggingface.co 왜 이런 걸 만들게 됐나?MongoDB 쿼리 문법이 정말 골치 아프다. SQL은 그나마 직관적인데, MongoDB의 aggregate 파이프라인이나 복잡한 find 조건들은 매번 구글링하게 된다. "브랜드별 평균 가..

보고서 생성 모델을 위한 MongoDB 데이터 추출 전략 연구

현재 파악한 아키텍처 흐름보고서 생성 시스템의 전체 데이터 흐름을 정리해보니:MongoDB (원시 데이터) → 데이터 추출 & 가공 → 모델 입력 형태 → KoBART → 보고서 출력각 단계마다 어떤 처리가 필요한지 구체적으로 파악해야 겠다.MongoDB에서 추출해야 할 데이터 유형 분석이커머스 보고서에 필요한 핵심 데이터매출 관련 데이터// orders 컬렉션에서 추출할 데이터{ "date_range": "2024-03-01 to 2024-03-31", "total_revenue": 1200000000, "order_count": 15847, "avg_order_value": 75692, "revenue_growth": 15.3 // 전월 대비 %} 고객 행동 데이터// users, user..

AI 보고서 생성 모델 연구 일지 (KoBART_SKT)

https://cat-b0.tistory.com/147 AI/ML 핵심 기술 분석: LoRA, RAG, Large Language Diffusion Models(LLDM)오늘 하루 종일 파인튜닝이라는 개념을 파헤쳤다. 처음엔 단순히 "모델은 내 데이터로 다시 학습시키는 것" 정도로만 이해했는데 학습 기법에도 여러가지가 있었다. 파인튜닝이 뭔지 이해하려cat-b0.tistory.com 보고서 생성 분야 현황 분석검색을 통해 보고서 생성 분야의 현황을 파악해봤다. 생각보다 훨씬 큰 시장이고 실제 기업들이 활발하게 도입하고 있는 분야였다.시장 규모와 성장 전망글로벌 자연어 생성 시장이 2024년 8.8억 달러에서 2028년 19.1억 달러로 성장할 것으로 예상된다고 한다. 연평균 성장률이 21.4%라니 정말 ..

AI/ML 핵심 기술 분석: LoRA, RAG, Large Language Diffusion Models(LLDM)

오늘 하루 종일 파인튜닝이라는 개념을 파헤쳤다. 처음엔 단순히 "모델은 내 데이터로 다시 학습시키는 것" 정도로만 이해했는데 학습 기법에도 여러가지가 있었다. 파인튜닝이 뭔지 이해하려고 삽질한 과정 Q. 왜 처음부터 학습하면 안되는가? GPT나 BERT 같은 모델들이 이미 완성된 상태인데 왜 또 학습을 시켜야되는지 의문이었다. 여러 자료를 찾아보니 핵심은 일반화 VS 특화 였다. 대형 언어 모델들은 인터넷의 거의 모든 텍스트로 학습되어있다. 위키피디아, 뉴스, 소설, 논문, 댓글까지 이렇게 학습된 모델은 일반적인 언어 패턴은 잘 이해하지만 내가 원하는 특정 작업(보고서 작성) 에는 최적화되어있지 않다. 예를 들어보자면 GPT-4는 일반적인 대화는 잘하지만, 내가 만약 의료진을 위한 AI를 만들고 싶..

한국어 자연어 기반 MongoDB 자동 질의 시스템: 모델 구조 고민

프로젝트 배경 회사에서 넘쳐나는 데이터를 자연어로 쉽게 가져오고, 분석까지 해주는 솔루션을 만들고 싶었다. 프로젝트 구조 분석 실제로 3개의 다른 AI 모델이 협력하는 시스템 1단계: 자연어 → MongoDB 쿼리 변환목적 : "지난 달 서울 지역 매출 데이터 가져와줘" → MongoDB 쿼리 필요 모델- Text-to-SQL/NoSQL 모델 (몽고DB를 사용할 예정이니 MQL)- 또는 LLM + 프롬프트 엔지니어링 (GPT, Claude 등) 2단계 : 데이터 예측 / 분석목적 : 추출된 데이터로 패턴 분석, 예측 필요 모델 : 전통적인 ML 모델 ( scikit-learn, XGBoost 등 ) 또는 딥러닝 모델 (시계열 예측 등) 3단계 : 보고서 생성 목적 : 분석 결과를 자연어 보고서로 작..