GKD Agency | Websites, Apps, Automation & AI Workflows

Rozszerzenie VS Code, które zamienia korektę tekstu w pracę „na słuch” — odsłuchaj swój Markdown z synchronicznym podświetlaniem słów, używając ElevenLabs albo w pełni własnego serwera Ollama + Orpheus uruchomionego w domowym laboratorium.

#Problem

Sprawdzanie własnego tekstu jest trudne. Umysł czyta to, czego się spodziewa, a niezgrabne sformułowania prześlizgują się niezauważone. Klasyczne rozwiązanie — przeczytanie tekstu na głos — w VS Code wymaga jednak wyjścia poza edytor: kopiowania treści do zakładki przeglądarki z TTS, utraty miejsca w dokumencie, utraty kontekstu pracy.

PulseMark znosi ten skok. Cała pętla sprawdzania zostaje tam, gdzie powstaje tekst — w edytorze.

#Co robi

PulseMark otwiera dedykowany podgląd obok edytora dla dowolnego pliku .md i czyta go na głos przez wybrany silnik mowy. W trakcie odtwarzania podgląd podświetla aktualnie wypowiadane słowo i przewija się automatycznie, żeby narracja była stale widoczna — można słuchać, wodzić wzrokiem za tekstem i wyłapywać błędy bez tracenia skupienia.

Podświetlanie z dokładnością do pojedynczego słowa, gdy silnik mowy zwraca znaczniki czasu
Podgląd obok edytora aktualizowany w locie podczas pisania
Wyszukiwanie, pauza, skróty klawiszowe — wszystko bez wychodzenia z VS Code
Konfiguracja przez natywne ustawienia VS Code, bez osobnego okna

#Dla kogo

Autorzy techniczni i zespoły dokumentacji, którzy wielokrotnie przechodzą przez te same długie pliki Markdown
Programiści utrzymujący pliki README, dokumenty RFC i listy zmian, którym zależy na szybszej korekcie
Zespoły dbające o dostępność, dla których synteza mowy jest częścią codziennej pracy, a nie dorzuconym dodatkiem
Środowiska wrażliwe na prywatność, w których wysyłanie wersji roboczych do zewnętrznego API nie wchodzi w grę

#Domowe laboratorium i lokalne modele

PulseMark od początku był projektowany z myślą o pełni samodzielnym hostowaniu silnika mowy, a nie tylko o usługach chmurowych. Każdy, kto prowadzi własne domowe laboratorium — albo każdy zespół, który musi trzymać wersje robocze we własnej infrastrukturze — może podpiąć rozszerzenie do lokalnego serwera mowy zgodnego z API OpenAI i nigdy nie wysłać ani bajta na zewnątrz.

W repozytorium znajduje się gotowy do uruchomienia szkielet pod najczęstszą konfigurację:

Ollama na hoście z modelem legraphista/Orpheus do neuronowej syntezy mowy
Orpheus-FastAPI w kontenerze Docker wystawiający http://127.0.0.1:8000/v1/audio/speech dla rozszerzenia
Jedno polecenie docker compose up --build, żeby uruchomić całość

Gdy lokalna usługa działa, PulseMark rozmawia z nią tak samo jak z ElevenLabs — identyczne odtwarzanie, te same przyciski, ten sam sposób pracy. Zmiana dostawcy z paska narzędzi nie wymaga ponownego uruchamiania. ElevenLabs do najwyższej jakości narracji, gdy koszt i opóźnienie nie są problemem; własny serwer, gdy ważna jest prywatność, praca bez internetu albo nieograniczona generacja.

#Decyzje techniczne

Rozszerzenie opiera się na VS Code Webview API, a odtwarzanie dźwięku idzie przez Web Audio API w widoku webview zamiast natywnych bibliotek Node. To omija problemy z instalacją na różnych systemach, które zwykle zabijają rozszerzenia obsługujące dźwięk, i utrzymuje kod na tyle prosty, że można go rozwijać samodzielnie.

Dźwięk powstaje w częściach i jest zapisywany na dysku (~/.globalStorage/tts-cache/), więc ponowne odsłuchanie tego samego akapitu jest natychmiastowe i nic nie kosztuje. Klucze API trzymane są w SecretStorage VS Code — nigdy w settings.json — a proces wydawania wymusza to dodatkowym sprawdzeniem przed każdą publikacją.

Wyraźna warstwa abstrakcji nad dostawcami w tts.ts sprawia, że dodanie trzeciego silnika (innego własnego serwera, innej usługi chmurowej) jest małą, lokalną zmianą, a nie przebudową.

#Dystrybucja

PulseMark jest opublikowany w Visual Studio Marketplace. Pakowanie idzie przez vsce, a wydawanie obsługuje GitHub Actions: automatycznie podnosi numer wersji, dodaje tag w repozytorium i publikuje plik .vsix. Dzięki temu wypuszczanie drobnych poprawek nie wymaga żadnej ceremonii.

#Efekty

Szybsza i bardziej skupiona praca nad korektą tekstów Markdown bez wychodzenia z edytora
Realny wybór między jakością chmury a prywatnością własnego serwera — bez różnicy w codziennej obsłudze
Małe, łatwe w utrzymaniu rozszerzenie, które może rosnąć o nowe silniki mowy i funkcje edycji bez przepisywania od zera

PulseMark