Das Verstehen und Reparieren von verstümmeltem Text (Mojibake) ist trotz Unicode eine permanente Daueraufgabe in IT-Projekten. Verstümmelter Text ist das Ergebnis der Dekodierung eines Textes mit einer nicht vorgesehenen Zeichenkodierung.

Beispiel: Die UTF-8 Selbsthilfegruppe trifft sich heute Abend im grünen Saal

Dieser Vortrag erklärt, wie man solche Kodierungsprobleme mit Python analysieren und beheben kann. Die Themen dieses Vortrages beinhalten:

  • Unterschied zwischen Text und Bytes
  • Unicode vs. UTF-8
  • Dekodierung und Kodierung von Dateien, Datenbank-Ergebnismengen, REST-APIs-Aufrufe
  • das Modul unicodedata
  • Umgang mit ISO-Zeichensätzen in der Unicode-Welt 

Dieser Vortrag zeigt kurze Code-Beispiele für Probleme und Lösungen aus der Praxis.