Falls du über eine Suchmachine hergekommen bist: Dies ist nur das Begleitmaterial und die Zusammenfassung zu einem mündlichen Vortrag.
Kommandozeilen-Software von Stefan Westerfeld um Audio-Wasserzeichen in den Audiodaten einer Musikdatei unterzubringen. Eine 128bit Nachricht wird fast unhörbar, direkt in der Wellenform gespeichert und kann wieder ausgelesen werden. Sie kann auch geheim verschlüsselt werden. Der Prozess ist unabhängig vom Dateiformat, Kompression und Wiedergabeart, also Datei, Streaming etc. Man braucht die originale Datei nicht um die Nachricht auszulesen.
"Ticking all the boxes" für Open Source Software: GPL, Verschlüsselungsmethode bekannt und einsehbar, basiert nur auf einem private key (oder unverschlüsselt).
Hier geht es nur um die reine Anwendung, nicht um die technischen Hintergründe.
Die Einsatzmöglichkeitne stehen noch weiter unten, aber hier schonmal der Zweck vorweg: Hauptsächlich DRM und Authentifizierung. Man kann individuelle Informationen (etwa Kundennummern) in der Audiodaten selbst speichern, ohne dass diese erkennbar und entfernbar sind, so zumindest das implizite Versprechen des Autors.
Wo bekommt man den her?
Als Hash. Die ersten 128bits eines SHA-256 Hash (Kurze Nachfrage: Wissen alle, was ein Hash ist? Wissen alle was Hex 0-9A-F ist?)
echo -n "OSAMC:BlackStorm:Download312" | sha256sum | head -c 32 b751e47bb131d84e6b67a3348c781d43 #head -c 32 weil es hex ist: ein Hexwert ist 4bit. Also 128bit / 4bit = 32 chars #audiowmark empfiehlt eine Datenbank anzulegen, da man hash werte nicht zurückentwickeln kann
Oder 16 ASCII-Zeichen in Hexadezimaler Schreibweise:
echo -n "osamc:blkstm:312" | xxd -p -u 6F73616D633A626C6B73746D3A333132 #Rückgängig: echo -n "6F73616D633A626C6B73746D3A333132" | xxd -p -r
Eine UUID, die sind zufällig auch 128bit lang.
uuidgen | tr -d - #76fc5abe80f840729375fc4dc15e604d
Oder 32 Zeichen, die "zufällig" alles Hexwert 0-9A-F sind, aber bereits semantisch lesbar sind.
affe2222fefe1111affe2222fefe1111
Wenn man am Ende schnell einen ausgelesenen String mit seinem eigenen vergleichen möchte:
[ "affe2222fefe1111affe2222fefe1111" = "affe2222fefe1111affe2222fefe1111" ]; echo $? #Ergebnis 0 heisst gleicher String.
audiowmark add blackstorm.wav wm-blackstorm.wav b751e47bb131d84e6b67a3348c781d43 audiowmark get blackstorm.wav #leer audiowmark get wm-blackstorm.wav
"get" entnimmt die Nachricht wieder aus der Audiodatei. Das finden einer Nachricht, obwohl keine vorhanden ist (oder eine falsche Nachricht) kann zwar passieren, muss aber auch schließlich zu deiner privaten, geheimen Datenbank passen. Das, so die Entwickler, ist selten genug um es statistisch auszuschließen.
audiowmark get --detect-speed-patient wm-blackstorm.wav
Man bekommt mehrere Nachrichten zurück. Das ist Redundanz gegen Korruption und Kompression.
Das 3. Feld ist der "Sync Score", je höher desto besser. Das 4. Feld ist "Decoding Error", niedriger ist besser. Danach Block-Type. A allein ist ok, AB ist besser.
Am Ende kommt ein "All" als Zusammenfassung. Das kann man dann mit einem anderen Programm parsen. z.B. das in eine Datenbank reinpipen.
Um zu verhindern, dass jeder mit audiowmark die Nachricht auslesen kann, bzw. verhindern kann, dass überhaupt festgestellt werden kann, dass ein Wasserzeichen vorhanden ist, wird eine interne Verschlüsselungsmethode bereitgestellt. Wie sicher das ist, wurde nicht überprüft.
audiowmark gen-key osamc-music-distributor.key #speichert in einer Datei #key 88913063e57c946b37bf6ea8ce842d32 audiowmark add --key osamc-music-distributor.key blackstorm.wav wmk-blackstorm.wav b751e47bb131d84e6b67a3348c781d43 audiowmark get --detect-speed-patient wmk-blackstorm.wav #leer audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.wav
opusenc wmk-blackstorm.wav wmk-blackstorm.opus sox wmk-blackstorm.wav wmk-blackstorm.mp3 audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.mp3 audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.opus
"Worst case": Verschlüsselte mp3 version über die Handy-Lautsprecher abspielen und mit internen Laptopmikrofon aufnehmen. Eigentlich wollte ich das mit dem eigenbaute Stream machen, aber das habe ich nicht hinbekommen, mit den input optionen. (--input-format raw). jack_capture sollte gehen, aber das ging mit meinem Pipewire nicht. Also Audacity… Weil es analog war benutzen wir --detect-speed.
Ist das Wasserzeichen hörbar, bzw. wird dadurch die Audioqualität schlechter?
Hier können nur subjektive Eindrücke antworten geben. Die README sagt, das wäre schon alles gut so, aber wer weiß... Ich hab zumindest in diesem Beispiellied nichts direkt gehört. Aber das ist auch nur ein Stück. Vielleicht müsste man mal eine reine Sinuswelle testen.
Es ist auf jeden Fall möglich, seine Musikqualität zu verschlechern. So gibt es z.B. einen --strength flag der mit Werten über 10 (standard) schlechter wird. Je höher die "strength" desto robuster gegen Audio-Kompression. 10 reiche für 128kbit mp3. Man muss für das setzen und auslesen der Nachricht den gleichen strength-Wert benutzen, muss sich diesen also merken.
Frage ans Plenum: Wofür ist das nützlich, außer als technisches Kuriosum? Gibt es Anforderungen, die nicht besser durch ein explizites paralleles Signal abgedeckt werden können (siehe Metadaten und Verkehrsinfo fürs Autoradio)
Sollte man es also benutzen oder nicht? Pro/Contra… Experimente: * In ein Video einbetten und auf youtube hochladen. Dann das ganze mit youtube-dl runterladen und schauen. * Über Lautsprecher abspielen und sich das anhören: Raum und/oder Handy-Lautsprecher und Laptop-Mikrofon