音 訊 工 具 坊
本地運算・隱私不上雲・支援多種音訊與影片格式
🎙️
音源聲音擷取
第五版

入口位址 ・ https://gt-107.tail6da45b.ts.net:8443/audio/

用 途 簡 介

將上傳的音訊或影片自動解出聲音軌,做背景雜訊過濾人聲頻段提取,再以可視化波形精細裁切多段保留區間後合併導出。 適合處理錄音現場底噪、會議錄音、口述影像或人聲擷取後製。

操 作 流 程
  1. 拖放或瀏覽選擇音訊/影片檔(會自動解出聲音軌並繪製原始波形)。
  2. 點擊 ✨ 高品質降噪:以背景噪音特徵做頻譜消噪;或 🗣 凸顯人聲:套用 100Hz–3000Hz 帶通濾波,過濾高低頻雜訊與重低音樂器。
  3. 下方會解鎖降噪音軌人聲音軌波形圖, 勾選左側圓格即可切換預聽不同音軌。
  4. 調整🔍 波形放大拉條(最高 20 倍),配合水平滾動條找到精確秒數。
  5. 拖曳波形兩側圓形手把調整保留區間,點擊 ➕ 保留此選取片段 加入清單(可加多段)。
  6. 點擊 💾 執行拼接並導出,下載合併後的 WAV 檔。
支 援 格 式

輸入:.wav .mp3 .m4a .flac .ogg 以及含音軌的影片(.mp4 等)。 輸出:標準 16-bit WAV。

提示:降噪與帶通濾波是分開的兩條獨立音軌,可以同時導出比較。 若降噪後音色變悶,建議改用「凸顯人聲」並把保留區間挑在說話段。
立 即 開 啟 工 具 →
🎬
音軌字幕校正
第六版

入口位址 ・ https://gt-107.tail6da45b.ts.net:8443/subtitle/

用 途 簡 介

以本地深度學習語音辨識模型(耳語 Whisper 系列), 將音訊直接轉成文字,或將 既有文稿與音訊精確對齊時間軸, 然後在網頁上互動式校對文字與秒數,最後一鍵匯出標準 SRT 字幕檔。 適合影片上字幕、訪談逐字稿、Podcast 製作。

兩 種 模 式
  • 直接語音轉文字:沒有現成文稿時使用,模型自行辨識所有句子。
  • 比對現有文稿:若已經有逐字稿,使用強制對齊以獲得最高文字精度。可選兩種切分模式:
    • 依語音停頓切分 ・自動以說話停頓拆成自然句段。
    • 依文稿換行對齊 ・嚴格按文稿中的換行做為每段邊界。
模 型 規 模 選 擇
  • tiny 約 75MB ・最快 ・適合短片或快速預覽
  • base 約 150MB ・速度與精度平衡點(預設推薦)
  • small 約 500MB ・最精準 ・適合長段口述或專業字幕

※ 首次使用該規模會自動下載模型權重,之後快取於伺服器再次調用免下載。

操 作 流 程
  1. 上傳音訊檔(限定 .wav .mp3 .m4a .flac .ogg)。
  2. 選擇處理模式:直接辨識 或 比對文稿(後者需貼入文稿並選切分方式)。
  3. 選擇模型大小,點擊「執行對齊與辨識」(畫面有進度條)。
  4. 結果以互動表格呈現,點任一列可跳轉播放該段音訊。
  5. 直接於表格修改文字、調整開始/結束秒數做精細校對。
  6. 點擊「匯出並下載 SRT」取得標準字幕檔,可於各大剪輯軟體與播放器直接使用。
提示:辨識耗時與音訊長度成正比;以 base 模型處理 10 分鐘音訊 在 NAS(CPU 運算)約需 5–15 分鐘。建議先用 tiny 試跑檢查結果再決定是否升級模型。
立 即 開 啟 工 具 →
所有運算在私人 NAS 本機完成,檔案不會上傳至任何雲端服務 ・ 回到入口頁