Audiowmark

Falls du über eine Suchmachine hergekommen bist: Dies ist nur das Begleitmaterial und die Zusammenfassung zu einem mündlichen Vortrag.

Informationen und Links

Kommandozeilen-Software von Stefan Westerfeld um Audio-Wasserzeichen in den Audiodaten einer Musikdatei unterzubringen. Eine 128bit Nachricht wird fast unhörbar, direkt in der Wellenform gespeichert und kann wieder ausgelesen werden. Sie kann auch geheim verschlüsselt werden. Der Prozess ist unabhängig vom Dateiformat, Kompression und Wiedergabeart, also Datei, Streaming etc. Man braucht die originale Datei nicht um die Nachricht auszulesen.

"Ticking all the boxes" für Open Source Software: GPL, Verschlüsselungsmethode bekannt und einsehbar, basiert nur auf einem private key (oder unverschlüsselt).

Hier geht es nur um die reine Anwendung, nicht um die technischen Hintergründe.

Die Einsatzmöglichkeitne stehen noch weiter unten, aber hier schonmal der Zweck vorweg: Hauptsächlich DRM und Authentifizierung. Man kann individuelle Informationen (etwa Kundennummern) in der Audiodaten selbst speichern, ohne dass diese erkennbar und entfernbar sind, so zumindest das implizite Versprechen des Autors.

Nicht in diesem Vortrag

Es gibt auch "videowmark", das gleiche Tool für Videos, was hier nicht behandelt wird.

128bit String - 32 Zeichen in Hexadezimaler Form

Wo bekommt man den her?

Als Hash. Die ersten 128bits eines SHA-256 Hash (Kurze Nachfrage: Wissen alle, was ein Hash ist? Wissen alle was Hex 0-9A-F ist?)

echo -n "OSAMC:BlackStorm:Download312" | sha256sum | head -c 32
b751e47bb131d84e6b67a3348c781d43
#head -c 32 weil es hex ist: ein Hexwert ist 4bit. Also 128bit / 4bit = 32 chars
#audiowmark empfiehlt eine Datenbank anzulegen, da man hash werte nicht zurückentwickeln kann

Oder 16 ASCII-Zeichen in Hexadezimaler Schreibweise:

echo -n "osamc:blkstm:312" | xxd -p -u
6F73616D633A626C6B73746D3A333132
#Rückgängig: echo -n "6F73616D633A626C6B73746D3A333132" | xxd -p -r

Eine UUID, die sind zufällig auch 128bit lang.

uuidgen | tr -d -
#76fc5abe80f840729375fc4dc15e604d

Oder 32 Zeichen, die "zufällig" alles Hexwert 0-9A-F sind, aber bereits semantisch lesbar sind.

affe2222fefe1111affe2222fefe1111

Wenn man am Ende schnell einen ausgelesenen String mit seinem eigenen vergleichen möchte:

[ "affe2222fefe1111affe2222fefe1111" = "affe2222fefe1111affe2222fefe1111" ]; echo $?   #Ergebnis 0 heisst gleicher String.

Beispiel 1: Unverschlüsselt in einer wav Datei

audiowmark add blackstorm.wav wm-blackstorm.wav b751e47bb131d84e6b67a3348c781d43

audiowmark get blackstorm.wav
#leer

audiowmark get wm-blackstorm.wav

"get" entnimmt die Nachricht wieder aus der Audiodatei. Das finden einer Nachricht, obwohl keine vorhanden ist (oder eine falsche Nachricht) kann zwar passieren, muss aber auch schließlich zu deiner privaten, geheimen Datenbank passen. Das, so die Entwickler, ist selten genug um es statistisch auszuschließen.

--detect-speed hilft gegen konvertierungsfehler (z.B. digital -> analog -> digital kette und dabei wird speed anders. Handbuch sagt das kann auch Absicht sein um das Wasserzeichen zu verschleiern, dass jemand in deiner Musik vermutet.
--detect-speed ist langsam und braucht mehr RAM, deswegen ist das nicht die Standardeinstelung. Ist aber Multithreading.
--detect-speed-patient ist sogar noch besser, im Tausch gegen höheren Resourcenverbrauch. Wenn letzterer keine Rolle spielt ist das die bevorzugte Form.

audiowmark get --detect-speed-patient wm-blackstorm.wav

Man bekommt mehrere Nachrichten zurück. Das ist Redundanz gegen Korruption und Kompression.

Das 3. Feld ist der "Sync Score", je höher desto besser. Das 4. Feld ist "Decoding Error", niedriger ist besser. Danach Block-Type. A allein ist ok, AB ist besser.

Am Ende kommt ein "All" als Zusammenfassung. Das kann man dann mit einem anderen Programm parsen. z.B. das in eine Datenbank reinpipen.

Beispiel 2: Verschlüsselung

Um zu verhindern, dass jeder mit audiowmark die Nachricht auslesen kann, bzw. verhindern kann, dass überhaupt festgestellt werden kann, dass ein Wasserzeichen vorhanden ist, wird eine interne Verschlüsselungsmethode bereitgestellt. Wie sicher das ist, wurde nicht überprüft.

audiowmark gen-key osamc-music-distributor.key  #speichert in einer Datei
#key 88913063e57c946b37bf6ea8ce842d32

audiowmark add --key osamc-music-distributor.key blackstorm.wav wmk-blackstorm.wav b751e47bb131d84e6b67a3348c781d43
audiowmark get --detect-speed-patient wmk-blackstorm.wav
#leer
audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.wav

Beispiel 3: Kompression

opusenc wmk-blackstorm.wav wmk-blackstorm.opus
sox wmk-blackstorm.wav wmk-blackstorm.mp3

audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.mp3
audiowmark get --detect-speed-patient --key osamc-music-distributor.key wmk-blackstorm.opus

Beispiel 4: Analog als Stream mit Pipes

"Worst case": Verschlüsselte mp3 version über die Handy-Lautsprecher abspielen und mit internen Laptopmikrofon aufnehmen. Eigentlich wollte ich das mit dem eigenbaute Stream machen, aber das habe ich nicht hinbekommen, mit den input optionen. (--input-format raw). jack_capture sollte gehen, aber das ging mit meinem Pipewire nicht. Also Audacity… Weil es analog war benutzen wir --detect-speed.

Weitere Experiment-Ideen

Sehr kurze Lieder, weniger als 10 Sekunden. Evtl den --short Modus benutzen, s. README.
Die Musik in einem Youtube-Video einbetten und daraus wieder versuchen herauszuhören. Evtl. den Stream mit einem virtuellem Systemmikrofon (JACK/Pipewire) abhören, damit man das Audio nicht herunterladen und extrahieren muss.

Die wichtigste Frage

Ist das Wasserzeichen hörbar, bzw. wird dadurch die Audioqualität schlechter?

Hier können nur subjektive Eindrücke antworten geben. Die README sagt, das wäre schon alles gut so, aber wer weiß... Ich hab zumindest in diesem Beispiellied nichts direkt gehört. Aber das ist auch nur ein Stück. Vielleicht müsste man mal eine reine Sinuswelle testen.

Es ist auf jeden Fall möglich, seine Musikqualität zu verschlechern. So gibt es z.B. einen --strength flag der mit Werten über 10 (standard) schlechter wird. Je höher die "strength" desto robuster gegen Audio-Kompression. 10 reiche für 128kbit mp3. Man muss für das setzen und auslesen der Nachricht den gleichen strength-Wert benutzen, muss sich diesen also merken.

Einsatzmöglichkeiten

Frage ans Plenum: Wofür ist das nützlich, außer als technisches Kuriosum? Gibt es Anforderungen, die nicht besser durch ein explizites paralleles Signal abgedeckt werden können (siehe Metadaten und Verkehrsinfo fürs Autoradio)

Gutartiger DRM: Copyright-Nachweis um sein Copyleft durchzusetzen
Bösartiger DRM: Musikplayer verweigert das Abspielen, falls nicht korrekt signiert. Anwalt wird automatisch informiert :/
Kann automatisiert werden: "Dein Download wird vorbereitet" und dann wird deine Kundennummer in die Audiodatei gebacken.
Novelty: "Limitierte, signierte digitale Auflag, mit Seriennummer."
Patreon-Reward: Dein Name in der Musik als audiowmark!

Sollte man es also benutzen oder nicht? Pro/Contra… Experimente: * In ein Video einbetten und auf youtube hochladen. Dann das ganze mit youtube-dl runterladen und schauen. * Über Lautsprecher abspielen und sich das anhören: Raum und/oder Handy-Lautsprecher und Laptop-Mikrofon