音 訊 工 具 坊
本地運算・隱私不上雲・支援多種音訊與影片格式
🎙️
音源聲音擷取
第五版
入口位址 ・ https://gt-107.tail6da45b.ts.net:8443/audio/
用 途 簡 介
將上傳的音訊或影片自動解出聲音軌,做背景雜訊過濾與 人聲頻段提取,再以可視化波形精細裁切多段保留區間後合併導出。 適合處理錄音現場底噪、會議錄音、口述影像或人聲擷取後製。
操 作 流 程
- 拖放或瀏覽選擇音訊/影片檔(會自動解出聲音軌並繪製原始波形)。
- 點擊 ✨ 高品質降噪:以背景噪音特徵做頻譜消噪;或 🗣 凸顯人聲:套用 100Hz–3000Hz 帶通濾波,過濾高低頻雜訊與重低音樂器。
- 下方會解鎖降噪音軌與人聲音軌波形圖, 勾選左側圓格即可切換預聽不同音軌。
- 調整🔍 波形放大拉條(最高 20 倍),配合水平滾動條找到精確秒數。
- 拖曳波形兩側圓形手把調整保留區間,點擊 ➕ 保留此選取片段 加入清單(可加多段)。
- 點擊 💾 執行拼接並導出,下載合併後的 WAV 檔。
支 援 格 式
輸入:.wav .mp3
.m4a .flac
.ogg 以及含音軌的影片(.mp4 等)。
輸出:標準 16-bit WAV。
提示:降噪與帶通濾波是分開的兩條獨立音軌,可以同時導出比較。
若降噪後音色變悶,建議改用「凸顯人聲」並把保留區間挑在說話段。
立 即 開 啟 工 具 →
🎬
音軌字幕校正
第六版
入口位址 ・ https://gt-107.tail6da45b.ts.net:8443/subtitle/
用 途 簡 介
以本地深度學習語音辨識模型(耳語 Whisper 系列), 將音訊直接轉成文字,或將 既有文稿與音訊精確對齊時間軸, 然後在網頁上互動式校對文字與秒數,最後一鍵匯出標準 SRT 字幕檔。 適合影片上字幕、訪談逐字稿、Podcast 製作。
兩 種 模 式
- 直接語音轉文字:沒有現成文稿時使用,模型自行辨識所有句子。
- 比對現有文稿:若已經有逐字稿,使用強制對齊以獲得最高文字精度。可選兩種切分模式:
- 依語音停頓切分 ・自動以說話停頓拆成自然句段。
- 依文稿換行對齊 ・嚴格按文稿中的換行做為每段邊界。
模 型 規 模 選 擇
tiny約 75MB ・最快 ・適合短片或快速預覽base約 150MB ・速度與精度平衡點(預設推薦)small約 500MB ・最精準 ・適合長段口述或專業字幕
※ 首次使用該規模會自動下載模型權重,之後快取於伺服器再次調用免下載。
操 作 流 程
- 上傳音訊檔(限定
.wav .mp3 .m4a .flac .ogg)。 - 選擇處理模式:直接辨識 或 比對文稿(後者需貼入文稿並選切分方式)。
- 選擇模型大小,點擊「執行對齊與辨識」(畫面有進度條)。
- 結果以互動表格呈現,點任一列可跳轉播放該段音訊。
- 直接於表格修改文字、調整開始/結束秒數做精細校對。
- 點擊「匯出並下載 SRT」取得標準字幕檔,可於各大剪輯軟體與播放器直接使用。
提示:辨識耗時與音訊長度成正比;以 base 模型處理 10 分鐘音訊
在 NAS(CPU 運算)約需 5–15 分鐘。建議先用 tiny 試跑檢查結果再決定是否升級模型。
立 即 開 啟 工 具 →
所有運算在私人 NAS 本機完成,檔案不會上傳至任何雲端服務 ・
回到入口頁
遊 戲 學 苑
棋 道 ・ 對 弈
音 訊 ・ 工 具 坊

