Generative AI

Generative AI

Speech to Text (STT) 기술은 음성을 텍스트로 변환하는 기술로, 자연어 처리(NLP)와 음성 인식 기술을 결합한 형태입니다.
이는 여러 요소들이 복합적으로 작용하여 구현됩니다.

Speech to Text (STT)

STT 기술의 음성 인식 과정
음성 수집

사용자의 음성을 마이크로 수집합니다. 이 과정에서 주변 소음을 제거하거나 음성 신호를 증폭시킬 수 있습니다.

디지털 신호 처리

수집된 음성을음성의 주파수 특성을 분석하여 특징을 추출하고, 디지털 신호로 변환합니다. 주로 MFCC(Mel-Frequency Cepstral Coefficients) 기법이 사용됩니다.

모델 학습

음성을 텍스트로 변환하기 위해서는 대규모 음성 데이터와 그에 대응하는 텍스트 데이터를 바탕으로 학습된 모델이 필요합니다. 딥러닝 기술이 주로 사용되며, RNN(Recurrent Neural Network)이나 Transformer 모델이 대표적입니다.
- 음향 모델 : 음성의 음향적 특성을 모델링합니다. 다양한 발음, 억양, 속도 등을 고려하여 인식의 정확도를 높입니다.
- 언어 모델 : 특정 언어의 문법 구조와 단어 간 연관성을 학습하여, 음성 인식의 정확도 향상에 기여합니다. N-그램 모델이나 신경망 기반의 언어 모델이 주로 사용됩니다.
- 발음 사전 : 각 단어의 발음을 정의한 데이터베이스로, 음성 인식의 정확도를 높이는 데 중요한 역할을 합니다.

디코딩 (후처리)

학습된 모델을 통해 음성 신호를 텍스트로 변환하는 과정입니다. 이 단계에서는 언어 모델을 활용하여 문맥에 적합한 단어를 선택합니다
마지막으로, 생성된 텍스트는 문맥에 맞게 수정되거나 자동 교정됩니다. 이 과정에서 구두점 추가, 대문자 변환 등이 이루어집니다.

우리가 집중하는 문제

STT 기술은 빠르게 발전하지만 여전히 도메인에 적용하는 데 어려움이 많습니다.

도메인 전문 용어의 인식 오류
문맥 인식 부족
타임스탬프의 부정확성
긴 음성 데이터에서의 성능 저하
다양한 악조건(소음, 방언, 발음 등)에서 낮은 성능

우리는 도메인 특화 음성 인식(STT) 성능을 향상시키기 위해 머신러닝 및 RAG(결합 생성 모델)를 활용하여, STT의 정확도를 개선하는 방안을 모색했습니다. 특히, "Overcoming Contextual Understanding Limitations in STT Systems: Integrating RAG and Machine Learning with Domain-Specific Data" 연구를 통해, 도메인 특화 데이터를 통합하여 STT 시스템의 맥락 이해 한계를 극복하는 방법을 탐구하였습니다.

Abstract : Speech-to-Text (STT) systems often struggle with domain-specific jargon, long conversational contexts, and maintaining transcription accuracy over extended audio durations. These limitations hinder their application in specialized fields such as healthcare, legal, and IT. This paper proposes a hybrid approach combining Retrieval-Augmented Generation (RAG) and machine learning to address these challenges. By leveraging domain-specific data and advanced embedding techniques, the system refines transcription quality and contextual understanding. The pipeline includes chunked audio processing, vectorized representations in a scalable vector database, and context-aware correction using RAG. Machine learning models are utilized for noise reduction, keyword extraction, and fine-tuning to enhance domain adaptability. Experimental results demonstrate significant improvements in transcription accuracy, context retention, and computational efficiency, making this approach practical for real-world applications.

LLM with RAG

LLM 시스템은 빠르게 발전하고 있으며, 실제로 많은 기업의 생산성을 높이고 있습니다.

도메인 전문성 부족

의료, 법률, 금융 등 전문 분야의 질문에 대해 정확하지 않거나 일관성이 떨어지는 답변을 제공.

컨텍스트 유지 한계

대규모 대화나 긴 문맥을 처리하면서 이전 대화 내용이나 컨텍스트를 잊는 문제.

언어적 / 문화적 차이 이해 부족

특정 언어나 지역의 문화적 뉘앙스에 대한 이해 부족.

정확성보다 설득력 높은 답변 제공

때로 틀린 답변 또는 잘못된 정보를 사실처럼 제시.

컴퓨팅 자원 소모

거대한 모델로 인해 실시간 처리나 배포 시 자원 소모가 큼.

우리는 위와 같은 문제를 효과적인 Fine-tuning 기술을 통해 최적의 비용으로 LLM 기술을 각 기업에 최적화하여 적용하고 있습니다.
도메인 특화 데이터 학습, 벡터 DB 활용, RAG 등의 기술로 LLM을 강화하여 고객의 요구에 맞춘 솔루션을 제공합니다. 이를 통해 단순히 문장을 생성하는 것을 넘어, 특정 산업에서 실제로 활용 가능한 지능형 모델을 제공합니다.

컨시언스파트너스 ᅵ 대표 : 유승현 ᅵ rkfrods@gmail.comᅵ  사업자등록번호 : 779-86-03107 ᅵ 개인정보관리책임자 : 유승현

서울특별시 도봉구 도봉로180길 28, 201동 9층 903호

© 컨시언스파트너스 2024. All rights reserved

컨시언스파트너스 ᅵ 대표 : 유승현 ᅵ rkfrods@gmail.comᅵ  사업자등록번호 : 779-86-03107 ᅵ 개인정보관리책임자 : 유승현

서울특별시 도봉구 도봉로180길 28, 201동 9층 903호

© 컨시언스파트너스 2024. All rights reserved