Good to Know Database

Geschützte UTF-8 Leerzeichen durch ASCII Leerzeichen ersetzen


Im UTF-8 Standard gibt es neben dem herkömmlichen Leerzeichen (engl. Space) auch ein geschütztes Leerzeichen (engl. no-break space beziehungsweise non-breaking space). Das geschützte Leerzeichen wird mit NBSP abgekürzt und verhindert einen automatischen Zeilenumbruch an der Position des Leerzeichens. In einem Hex-Editor kann man das geschützte Leerzeichen an der hexadezimalen Schreibweise 0xC2A0 erkennen.

Mit dem folgenden Befehl werden alle geschützten Leerzeichen (0xC2A0) in der Datei input.txt durch das herkömmliche Leerzeichen (0x20) aus dem ASCII-Standard ersetzt und der geänderte Inhalt in die Datei output.txt gespeichert.

georg@ubuntu1404:~$ sed 's/\xc2\xa0/\x20/g' input.txt > output.txt

Soll direkt die Datei input.txt editiert werden, können Sie auch den folgenden Aufruf verwenden.

georg@ubuntu1404:~$ sed -i 's/\xc2\xa0/\x20/g' input.txt


Dieser Eintrag wurde am 15.03.2014 erstellt.

Direkter Link zu dieser Seite: http://www.gtkdb.de/index_7_2556.html

[ Zur Startseite ]   [ Zur Kategorie ]


Valid XHTML 1.0 Transitional Valid CSS Valid Atom 1.0

© 2004-2018 by Georg Kainzbauer