Push-to-talk STT¶
Dictée vocale sur l'hôte KDE Plasma Wayland via Speaches (Whisper).
Principe¶
sequenceDiagram
participant U as Utilisateur
participant K as KDE (Meta+S)
participant R as pw-record
participant S as Speaches
participant W as Fenêtre active
U->>K: 1er appui Meta+S
K->>R: Démarrer enregistrement
U->>K: 2e appui Meta+S
K->>R: Arrêter enregistrement
R->>S: Audio WAV
S->>S: Transcription Whisper
S->>W: Coller le texte (wtype)
Fonctionnalités¶
- Toggle : 1er appui → enregistre, 2e appui → transcrit et colle
- Détection fenêtre :
Ctrl+Shift+Vpour les terminaux,Ctrl+Vpour le reste - AZERTY : support complet des accents et dead keys via
wtype - Streaming : mode temps réel avec chunks audio de ~3 secondes
- Filtrage : suppression des hallucinations Whisper
Installation¶
Dépendances vérifiées : pw-record, wtype, wl-copy, kdotool,
jq, notify-send.
Configuration¶
| Variable | Défaut | Description |
|---|---|---|
STT_API_URL |
http://10.100.3.1:8000 |
URL du serveur Speaches |
STT_MODEL |
auto | Modèle Whisper |
STT_LANGUAGE |
fr |
Langue de transcription |
Commandes¶
anklume stt setup # Configurer
anklume stt start # Démarrer
anklume stt stop # Arrêter
anklume stt status # État du service
Architecture serveur¶
Le serveur Speaches tourne dans le conteneur gpu-server du domaine
ai-tools, coexiste avec Ollama sur le même GPU.
- API OpenAI-compatible (
/v1/audio/transcriptions) - GPU float16 si disponible, fallback int8 CPU
- Port configurable (défaut 8000)