인생2막은 안전이다

STT 한국어 음성 텍스트 변환 앱 본문

IT

STT 한국어 음성 텍스트 변환 앱

빨간불이닷 2026. 6. 6. 10:24
무료 한국어 음성 텍스트 변환 앱 (STT) | MP3·WAV·M4A·100MB 대용량 지원 | Whisper API
무료 AI 도구

한국어 음성을 텍스트로 변환하는
무료 STT 앱 완전 가이드

OpenAI Whisper API를 활용한 한국어 특화 음성 인식 앱입니다. MP3, WAV, M4A 파일을 지원하며, 100MB 대용량 파일도 자동 분할 처리합니다. 설치 없이 HTML 파일 하나로 바로 사용할 수 있습니다.

✓ 완전 무료 (API 비용 제외) ⚡ 100MB 대용량 지원 🔒 서버 저장 없음 MP3 · WAV · M4A 한국어 특화 타임스탬프 출력

이 앱이 필요한 이유

회의 내용을 텍스트로 정리하거나, 강의를 녹음해서 복습 자료로 만들거나, 인터뷰 음성을 글로 옮겨야 할 때 기존 서비스들은 파일 크기 제한, 유료 구독, 개인정보 보안 문제 등으로 불편함이 많았습니다.

이 앱은 그 문제를 해결합니다. 브라우저에서만 동작하기 때문에 음성 파일이 외부 서버에 저장되지 않으며, HTML 파일 하나만 있으면 인터넷 연결과 OpenAI API 키만으로 어디서든 사용할 수 있습니다.

💡
Whisper API 비용 안내: OpenAI Whisper API는 분당 $0.006 (약 8원) 수준입니다. 60분짜리 회의 녹음 기준 약 500원 내외로 처리 가능합니다. ChatGPT Plus 구독($20/월) 없이도 API 키만 있으면 사용할 수 있습니다.

주요 기능 소개

단순한 음성 변환 툴을 넘어, 실제 업무 현장에서 바로 쓸 수 있도록 설계했습니다.

🇰🇷

한국어 특화 인식

language: "ko" 고정으로 언어 감지 단계 생략. 정확도↑ 처리 속도↑

✂️

대용량 자동 분할

25MB Whisper 제한을 넘는 파일을 브라우저에서 자동으로 분할 처리합니다.

📁

3가지 형식 지원

MP3, WAV, M4A 모두 지원. iPhone 녹음(M4A), PC 녹음(WAV) 모두 OK.

⏱️

타임스탬프 출력

verbose_json 모드로 [00:00 → 00:30] 형식의 타임스탬프 포함 텍스트 생성.

🔄

자동 재시도

Rate Limit·서버 오류 발생 시 지수 백오프(Exponential Backoff)로 자동 재시도.

📊

실시간 진행 표시

4단계 진행 표시 + 청크별 색상 블록으로 처리 상황을 한눈에 확인.

사용 방법 (단계별 가이드)

총 5단계, 3분이면 첫 변환을 완료할 수 있습니다.

  • 1

    HTML 파일 다운로드

    이 글 아래 다운로드 버튼을 클릭해 korean_stt_whisper.html 파일을 저장합니다. 별도 설치 없이 브라우저(Chrome, Edge, Safari 등)에서 바로 열면 됩니다.

  • 2

    OpenAI API 키 입력

    상단 입력란에 sk-... 형식의 OpenAI API 키를 붙여넣습니다. 키는 브라우저 메모리에만 저장되며 외부로 전송되지 않습니다. 아직 키가 없다면 아래 API 키 발급 방법을 참고하세요.

  • 3

    청크 크기 설정

    25MB 이하 파일: 기본 23MB 유지.
    100MB 전후 대용량: 20MB 또는 15MB 선택 권장. 파일 크기가 클수록 더 작은 청크로 설정하면 안정적입니다.

  • 4

    음성 파일 업로드

    MP3, WAV, M4A 파일을 드래그 앤 드롭하거나 클릭하여 선택합니다. 파일 크기와 예상 청크 수가 자동으로 표시됩니다. 25MB 초과 파일은 자동 분할 안내 메시지가 표시됩니다.

  • 5

    변환 시작 → 결과 저장

    변환 시작 버튼을 누르면 4단계 진행 표시와 함께 실시간으로 결과가 쌓입니다. 완료 후 복사 버튼으로 클립보드에 복사하거나, TXT 저장 버튼으로 파일을 다운로드합니다.

타임스탬프가 필요한 경우: 응답 포맷을 verbose_json으로 변경하면 [00:00.0 → 00:05.3] 안녕하세요, 오늘 회의를 시작하겠습니다. 형식으로 출력됩니다. 자막 제작이나 특정 구간 검색에 유용합니다.

앱 다운로드

아래 버튼을 클릭하면 HTML 파일이 바로 다운로드됩니다. 파일 크기는 약 40KB이며, 외부 의존성 없이 단독으로 작동합니다.

Free Download · 무료 다운로드
🎙 한국어 STT 변환기 앱

설치 없이 브라우저에서 바로 사용하는 HTML 단일 파일 앱. OpenAI Whisper API 기반, 한국어 특화, 100MB 대용량 지원.

📄 HTML 단일 파일 · ~40KB 🔑 OpenAI API 키 필요 🌐 Chrome / Edge / Safari ✅ 완전 무료
HTML 파일 다운로드 (무료)

* API 키는 본인 부담입니다. 음성 1분당 약 $0.006 (≈ 8원)

OpenAI API 키 발급 방법

처음이라면 아래 순서대로 5분 이내에 발급할 수 있습니다.

  1. platform.openai.com에 접속하여 회원가입 또는 로그인
  2. 우측 상단 프로필 → API Keys 클릭
  3. Create new secret key 버튼 클릭
  4. 생성된 sk-... 키를 복사하여 안전한 곳에 저장
  5. 결제 정보 등록 (신용카드 등록 후 사용량만큼 청구)
⚠️
주의: API 키는 비밀번호와 동일합니다. GitHub, 블로그, SNS에 절대 공개하지 마세요. 키가 노출되면 즉시 Revoke(삭제)하고 새 키를 발급받으세요. 사용 한도 설정을 통해 예상치 못한 과다 청구를 방지할 수 있습니다.

비용 관리 팁

  • OpenAI 콘솔 → Usage Limits에서 월 한도 설정 권장 (예: $5)
  • Whisper API는 분당 $0.006 → 100분 파일 기준 약 $0.60 (≈ 800원)
  • response_format=text로 설정하면 JSON보다 빠르고 저렴하게 처리

다른 STT 서비스와 비교

클로바노트, 네이버 클로바 등 기존 서비스와 비교했을 때의 장단점을 정리했습니다.

항목 이 앱 (Whisper) 클로바노트 네이버 클로바 Google STT
파일 크기 제한 100MB+ 지원 200MB 60분 제한 10MB 제한
MP3 지원 변환 필요
M4A 지원
한국어 정확도 매우 높음 매우 높음 높음 보통
타임스탬프 ✓ (선택)
서버 저장 여부 없음 (로컬) 저장됨 저장됨 저장됨
비용 $0.006/분 무료 (광고) 유료 플랜 $0.016/분
오프라인 사용 불가 (API) 불가 불가 불가
💡
결론: 개인정보가 중요한 회의록, 내부 인터뷰, 민감한 강의 내용을 변환할 때 특히 유용합니다. 파일이 외부 서버에 저장되지 않아 보안에 민감한 환경에서도 안심하고 사용할 수 있습니다.

활용 사례

📋 회의록 자동 작성

스마트폰으로 녹음한 회의 음성(보통 M4A 형식)을 업로드하면 텍스트로 변환됩니다. 타임스탬프 모드를 활용하면 어느 시점에 어떤 말이 나왔는지 확인하기도 편리합니다. 60분 회의 기준 약 3~5분 이내 처리됩니다.

📚 강의·세미나 텍스트화

유튜브 강의나 사내 세미나를 녹음한 파일을 텍스트로 변환해 학습 자료로 활용할 수 있습니다. 특히 건축, 법률, 의학 등 전문 용어가 많은 영역에서도 Whisper의 인식 정확도가 높습니다.

🎙 인터뷰·팟캐스트 자막 제작

타임스탬프 포함 출력 모드를 사용하면 SRT 자막 파일 형식으로 변환하기 쉬운 텍스트를 얻을 수 있습니다. 인터뷰 콘텐츠, 팟캐스트 쇼 노트 작성에 유용합니다.

🏢 현장 보고·점검 음성 메모

건설 현장이나 시설 점검 시 음성으로 메모한 내용을 텍스트화하여 보고서에 바로 활용할 수 있습니다. 현장에서 녹음 후 사무실에서 바로 텍스트로 변환해 문서화하는 워크플로우에 최적입니다.

자주 묻는 질문

파일이 외부에 저장되나요?
음성 파일은 OpenAI Whisper API 서버로 전송되어 텍스트 변환 후 즉시 삭제됩니다. 이 앱 자체는 파일을 저장하거나 별도 서버로 전송하지 않습니다. 다만 OpenAI의 데이터 처리 정책에 따라 학습에 사용될 수 있으므로, 매우 민감한 정보는 Zero Data Retention 옵션을 검토하세요.
어떤 브라우저에서 작동하나요?
Chrome, Edge, Firefox, Safari 최신 버전에서 모두 작동합니다. 파일 분할에 ArrayBufferBlob API를 사용하므로 IE는 지원하지 않습니다. 모바일 브라우저(크롬 모바일, 사파리 iOS)에서도 사용 가능하지만, 대용량 파일 처리 시 메모리 부족이 발생할 수 있습니다.
100MB 이상 파일은 처리가 안 되나요?
100MB 이상도 처리 가능하지만, 브라우저 메모리 한계로 인해 불안정할 수 있습니다. 100MB 이상 파일은 외부 도구(FFmpeg, Audacity 등)로 미리 분할한 후 사용하는 것을 권장합니다. 청크 크기를 10~15MB로 낮추면 더 안정적으로 처리됩니다.
변환 중에 인터넷이 끊기면 어떻게 되나요?
현재 처리 중인 청크가 실패하고 오류 메시지가 표시됩니다. 이미 완료된 청크의 결과는 화면에 표시되어 있으므로 부분적으로 복사·저장 가능합니다. 재시도 시 처음부터 다시 시작해야 합니다. 향후 이어받기 기능을 추가할 예정입니다.
인식 정확도가 낮을 때 어떻게 하나요?
다음을 확인해보세요:
• 배경 소음이 많은 파일은 노이즈 제거 후 업로드
• 비트레이트가 너무 낮으면(32kbps 이하) 품질 개선 후 재시도
• Whisper는 명확한 발음과 표준어에서 더 높은 정확도를 보입니다
• 사투리나 전문 용어가 많을 경우 일부 오인식이 발생할 수 있습니다
ChatGPT API와 Whisper API가 다른 건가요?
네, 다릅니다. ChatGPT API(GPT-4 등)는 텍스트 생성용이고, Whisper API는 음성→텍스트 변환 전용입니다. 같은 OpenAI 계정과 API 키를 사용하지만 별도로 과금됩니다. 이 앱은 Whisper API만 사용합니다.

이 앱이 도움이 되셨다면 공유해 주세요. 개선 아이디어나 버그 제보는 댓글로 남겨주시면 반영하겠습니다. 향후 화자 분리(Speaker Diarization), SRT 자막 직접 출력 기능도 추가할 예정입니다.

태그: STT, 음성텍스트변환, Whisper, OpenAI, 한국어음성인식, 회의록변환, 무료STT, 음성인식앱, MP3텍스트, M4A변환, 대용량음성처리

이 포스트의 HTML 앱 코드는 OpenAI Whisper API를 기반으로 작성되었습니다. API 키는 본인 계정의 것을 사용하세요. 앱 사용으로 인한 API 비용은 사용자 본인에게 청구됩니다.
반응형