W3C

  • W3C » 
  • Διεθνοποίηση

ΔΙΕΘΝΟΠΟΙΗΣΗ

"Μικρές συμβουλές" για τη διεθνή προσαρμογή τοποθεσιών Ιστού

Επισκεφτείτε την τοποθεσία W3C internationalisation site για κατευθυντήριες γραμμές και πλήρη λίστα ελέγχου

Σύμφωνα με αποτελέσματα ερευνών που διεξήχθησαν πρόσφατα από το Global Reach και το FUNDREDES σχετικά με τις ιστιοσελίδες και τη χρήση του Ιστού, τα περιεχόμενα του Ιστού στην αγγλική γλώσσα, αντιπροσωπεύουν, πλέον, το 40% μόνο των συνολικών περιεχομένων Ιστού. Το 60% παρουσιάζεται σε άλλες γλώσσες. Παρομοίως, η πλειοψηφία των χρηστών του Ιστού δεν είναι φυσικοί ομιλητές της αγγλικής γλώσσας και οι φυλλομετρητές τους προεπιλέγουν το σύνολο χαρακτήρων μίας άλλης γλώσσας.

Εάν δεν δηλώσετε σε κάθε σελίδα σας το χρησιμοποιούμενο σύνολο χαρακτήρων, οι φυλλομετρητές και οι πράκτορες χρήστη θεωρούν δεδομένο ότι οι συγκεκριμένες σελίδες εμφανίζονται στο προεπιλεγμένο τοπικό σύνολο χαρακτήρων - χωρίς, όμως, να συμβαίνει πάντα κάτι τέτοιο. Το σύνολο χαρακτήρων εγγράφου για την XML και την HTML 4.0 είναι το Unicode (aka ISO 10646). Αυτό σημαίνει ότι οι φυλλομετρητές HTML και οι επεξεργαστές XML θα έπρεπε να λειτουργούν σαν να χρησιμοποιούσαν εσωτερικά το Unicode. Δεν σημαίνει, όμως, ότι τα έγγραφα πρέπει να μεταδίδονται σε Unicode. Εφόσον ο πελάτης και ο διακομιστής συμφωνήσουν ως προς τον κώδικα μπορούν να χρησιμοποιούν οποιοδήποτε κώδικα ο οποίος μετατρέπεται σε Unicode.

Είναι εξαιρετικά σημαντικό ο κώδικας χαρακτήρων οποιουδήποτε εγγράφου XML ή (X)HTML να φέρει σαφή ετικέτα. Αυτό μπορεί να γίνει με τους ακόλουθους τρόπους:

  • Χρησιμοποιήστε την παράμετρο 'charset' στο Content-Type header of HTTP. Παράδειγμα:
    Content-Type: text/html; charset=EUC-JP
  • " Για την XML, χρησιμοποιήστε το encoding pseudo-attribute στο xml declaration στην αρχή του εγγράφου ή στο text declaration στην αρχή μίας ενότητας. Παράδειγμα:
    <?xml version="1.0" encoding="iso-8859-7" ?>
  • " Για την HTML, χρησιμοποιήστε την ετικέτα <meta> . Παράδειγμα:
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Οι προηγούμενες πληροφορίες θα επιτρέψουν στους πελάτες να αντιστοιχίσουν με ευκολία τους κώδικες σε Unicode. Στην πράξη, λίγοι μόνο κώδικες θα προτιμηθούν, πιθανόν οι: ISO-8859-1 (Latin-1), US-ASCII, UTF-8, UTF-16, καθώς και οι κώδικες της σειράς ISO-8859, iso-2022-jp, euc-kr και άλλοι.

Σε περίπτωση που κατασκευάζετε ιστιοσελίδες στην αγγλική γλώσσα, πάλι πρέπει να δηλώσετε το σύνολο χαρακτήρων. Διαφορετικά, οι αναγνώστες δεν θα καταφέρουν να διαβάσουν τα ¨κινέζικα¨ στις ιστιοσελίδες σας διότι οι φυλλομετρητές Ιστού τους, δεν προεπιλέγουν πάντα αγγλικό κώδικα χαρακτήρων. Δυστυχώς για σας, οι φυλλομετρητές των περισσότερων χρηστών του Ιστού δεν προεπιλέγουν τα αγγλικά. Εάν δηλώσετε, όμως, το σύνολο χαρακτήρων, οι φυλλομετρητές θα προβούν στην αντιστοίχιση και θα παρουσιάσουν το κείμενό σας στην αγγλική γλώσσα.