- Martin Hoermann
- Donnerstag, 12. Dez 2024
- 14:00 - 14:45
- Okzident | Ebene 2
- Session
Das Verstehen und Reparieren von verstümmeltem Text (Mojibake) ist trotz Unicode eine permanente Daueraufgabe in IT-Projekten. Verstümmelter Text ist das Ergebnis der Dekodierung eines Textes mit einer nicht vorgesehenen Zeichenkodierung.
Beispiel: Die UTF-8 Selbsthilfegruppe trifft sich heute Abend im grünen Saal
Dieser Vortrag erklärt, wie man solche Kodierungsprobleme mit Python analysieren und beheben kann. Die Themen dieses Vortrages beinhalten:
- Unterschied zwischen Text und Bytes
- Unicode vs. UTF-8
- Dekodierung und Kodierung von Dateien, Datenbank-Ergebnismengen, REST-APIs-Aufrufe
- das Modul unicodedata
- Umgang mit ISO-Zeichensätzen in der Unicode-Welt
Dieser Vortrag zeigt kurze Code-Beispiele für Probleme und Lösungen aus der Praxis.