The World Wide Web Consortium - Eλληνικό Γραφείο W3C

Η Κοινοπραξία του Παγκοσμίου Ιστού Εκδίδει το VoiceXML 2.0 και τη Γραμματική Αναγνώρισης Ομιλίας ως Συστάσεις του W3C

Τώρα είναι πλήρεις οι Κρίσιμες Συνιστώσες του Πλαισίου Διεπαφής Ομιλίας του W3C

Για επικοινωνία με Αμερική και Αυστραλία --
Janet Daly, <janet@w3.org>, +1.617.253.5884 ή +1.617.253.2613
Για επικοινωνία με Ευρώπη --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Για επικοινωνία με Ασία --
Yasuyuki Hirakawa, <yasuyuki@w3.org>, +81.466.49.1170

(το δελτίο τύπου είναι επίσης διαθέσιμο στα στα Αγγλικά, Γαλλικά και Ιαπωνικά

Συστάσεις (Testimonials) είναι επίσης διαθέσιμες.


http://www.w3.org/ -- 16 Μαρτίου 2004 -- Δίνοντας φωνή στον Παγκόσμιο Ιστό, η Κοινοπραξία του Παγκοσμίου Ιστού (W3C) εξέδωσε τα VoiceXML 2.0 και Speech Recognition Grammar Specification (SRGS) ως Συστάσεις του W3C. Ο στόχος του VoiceXML 2.0 είναι να φέρει τα πλεονεκτήματα της ανάπτυξης που βασίζεται στον Παγκόσμιο Ιστό και τη μεταφορά περιεχομένου σε αλληλεπιδραστικές εφαρμογές απάντησης φωνής. Η Προδιαγραφή Γραμματικής Αναγνώρισης Ομιλίας SRGS είναι κεντρική στην υποστήριξη του VoiceXML για αναγνώριση ομιλίας και χρησιμοποιείται από κατασκευαστές για να περιγράψουν τις απαντήσεις των τελικών χρηστών σε προφορικές παροτρύνσεις.

Η σημερινή ανακοίνωση σηματοδοτεί την προώθηση σε επίπεδο Σύστασης των δύο πρώτων προδιαγραφών στο Πλαίσιο Διεπαφής Ομιλίας του W3C. Στοχεύοντας στα περίπου δύο δισεκατομμύρια σταθερά και κινητά τηλέφωνα παγκοσμίως, το Πλαίσιο Διεπαφής Ομιλίας του W3C θα επιτρέψει σε ένα χωρίς προηγούμενο αριθμό ανθρώπων να χρησιμοποιήσουν οποιοδήποτε τηλέφωνο για να αλληλεπιδρούν με κατάλληλα σχεδιασμένες υπηρεσίες που βασίζονται στον Παγκόσμιο Ιστό μέσω πληκτρολογίων, προφορικών εντολών, ακούγοντας προ-μαγνητοφωνημένη ομιλία, συνθετική ομιλία και μουσική.

“Η ολοκλήρωση του VoiceXML 2.0 και του SRGS σηματοδοτεί ένα συναρπαστικό σημείο καμπής στη σύγκλιση των τεχνολογιών τηλεπικοινωνιών με τον Παγκόσμιο Ιστό. Ιστορικά, υπήρχαν τεχνικά και πολιτισμικά κενά μεταξύ του τρόπου που τα συστήματα που βασίζονται στη φωνή έχουν εξελιχθεί και της εξέλιξης του Internet και του Παγκοσμίου Ιστού, αφήνοντας την πληροφορία διαθέσιμη μόνο σε συστήματα φωνής ή στον Παγκόσμιο Ιστό,” εξήγησε ο Tim Berners-Lee, Διευθυντής του W3C. “Με την ανάπτυξη του Πλαισίου Διεπαφής Ομιλίας του W3C, συμπεριλαμβανομένου των VoiceXML 2.0 και SRGS, μπορούμε τώρα να συνδυάσουμε και να ωφεληθούμε από τις δυνατότητες και των δύο ομάδων - τη δύναμη και επίδραση της βιομηχανικής έρευνας μαζί με την ευρεία δοκιμή προϊόντων και τις εφαρμογές, καθώς και την επεκτασιμότητα και τις ανοιχτές τεχνικές λύσεις που είναι σύμφωνες με τις τεχνικές αρχές του Παγκοσμίου Ιστού και μπορούν να προσαρμοστούν κατάλληλα.”

Μια Σύσταση (Recommendation) της Κοινοπραξίας του Παγκοσμίου Ιστού γίνεται αντιληπτή από τη βιομηχανία και εν πολλοίς από την κοινότητα του Παγκοσμίου Ιστού ως πρότυπο (standard) του Παγκοσμίου Ιστού. Κάθε Σύσταση είναι μια σταθερή προδιαγραφή που αναπτύσσεται από μια Ομάδα Εργασίας του W3C και αξιολογείται από τα Μέλη του W3C. Οι Συστάσεις προάγουν τη διαλειτουργικότητα των τεχνολογιών του Παγκοσμίου Ιστού εκφράζοντας ξεκάθαρα τη συμφωνία της βιομηχανίας όπως δημιουργούνται από την Ομάδα Εργασίας.

Τα VoiceXML 2.0 και SRGS Βάζουν τα Θεμέλια για το Πλαίσιο Διεπαφής Ομιλίας

Στο Πλαίσιο Διεπαφής Ομιλίας του W3C (W3C Speech Interface Framework), το VoiceXML ελέγχει πώς η εφαρμογή αλληλεπιδρά με το χρήστη, ενώ η Γλώσσα Σήμανσης Σύνθεσης Ομιλίας: Speech Synthesis Markup Language (SSML) χρησιμοποιείται για προφορικές παροτρύνσεις και η Προδιαγραφή Γραμματική Αναγνώρισης Ομιλίας: Speech Recognition Grammar Specification (SRGS) για να καθοδηγεί τις συσκευές αναγνώρισης φωνής μέσω γραμματικών που περιγράφουν τις αναμενόμενες απαντήσεις των χρηστών. Άλλες προδιαγραφές του Πλαισίου περιλαμβάνουν τον Έλεγχο Κλήσεων του Φυλλομετρητή Φωνής: Voice Browser Call Control (CCXML), που παρέχει υποστήριξη ελέγχου τηλεφωνικών κλήσεων για το VoiceXML και άλλα συστήματα διαλόγου και τη Σημασιολογική Ερμηνεία για Αναγνώριση Ομιλίας (Semantic Interpretation for Speech Recognition), που ορίζει πώς οι γραμματικές ομιλίας δεσμεύουν τη σημασιολογία εφαρμογών.

Το VoiceXML 2.0 Φέρνει Φωνή και Αλληλεπίδραση στο Πλαίσιο Διεπαφής Ομιλίας του W3C

Το VoiceXML 2.0 επιτρέπει στους κατασκευαστές να δημιουργήσουν ηχητικούς διάλογους με χαρακτηριστικά όπως σύνθετη ομιλία, ήχο σε ψηφιακή μορφή, αναγνώριση εισαγωγής προφορικής και Dual tone πολύ-συχνότητας (DTMF, ή είσοδο αφής), μαγνητοφώνηση προφορικών δεδομένων, τηλεφωνία και σύνθετες συζητήσεις. Το VoiceXML μπορεί να κατεβαστεί από εξυπηρετητές HTTP με τον ίδιο τρόπο όπως το HTML. Αυτό σημαίνει ότι οι κατασκευαστές εφαρμογών μπορούν να ωφεληθούν πλήρως από τις ευρέως εφαρμοσμένες και αποδεδειγμένες από τη βιομηχανία τεχνολογίες του Παγκοσμίου Ιστού.

“Το VoiceXML 2.0 έχει τη δύναμη να αλλάξει τον τρόπο που αναπτύσσονται οι τηλεφωνικές πληροφορίες και οι υπηρεσίες για τους πελάτες. Δε θα χρειάζεται πια να πατάμε το ‘ένα’ για αυτό ή το ‘δύο’ για το άλλο. Αντίθετα, θα μπορούμε να κάνουμε επιλογές και να παρέχουμε πληροφορίες με την ομιλία,” εξήγησε ο Dave Raggett, Επικεφαλής της Δραστηριότητας Φυλλομετρητή Φωνής του W3C. “Επιπρόσθετα, το VoiceXML 2.0 δημιουργεί ευκαιρίες για ανθρώπους με οπτικές δυσκολίες ή για αυτούς που χρειάζονται πρόσβαση στον Παγκόσμιο Ιστό ενώ θέλουν να έχουν τα χέρια και τα μάτια τους ελεύθερα για άλλα πράγματα, όπως να παίρνουν οδηγίες καθώς οδηγούν.”

Η SRGS Οδηγεί στην Αναγνώριση Απαντήσεων Χρηστών

Η Προδιαγραφή Γραμματική Αναγνώρισης Ομιλίας --SRGS-επιτρέπει στις εφαρμογές να καθορίζουν τις λέξεις και τις φράσεις που οι χρήστες παροτρύνονται να χρησιμοποιήσουν. Αυτό επιτρέπει την αναγνώριση, ανεξάρτητα από το ποίος είναι ο ομιλητής.

Η SRGS καλύπτει την ομιλία και την εισαγωγή DTMF. Η εισαγωγή DTMF είναι πολύτιμη σε θορυβώδεις συνθήκες ή όταν το κοινωνικό πλαίσιο το κάνει δύσκολο να μιλήσει κανείς. Οι αναγνωριστές ομιλίας έχουν γενικά τη δυνατότητα να αναφέρουν το βαθμό αξιοπιστίας - δηλαδή, την πιθανότητα να ΄χουν αναγνωρίσει σωστά τη λέξη ή φράση - και μπορούν να παρέχουν τις πιο πιθανές εναλλακτικές όταν ο αναγνωριστής δεν είναι βέβαιος για το ποια από αυτές είπε πραγματικά ο χρήστης.

Η SRGS εφαρμόζεται εκτός από την ομιλία επιτυχώς και στην αναγνώριση χειρογράφων όπου εισάγεται ένα περιορισμένο σύνολο λέξεων του χρήστη.

Ο Ρυθμός Υιοθέτησης του VoiceXML 2.0 και της SRGS είναι Ήδη σε Βιομηχανικό Επίπεδο

Για να γίνει προώθηση σε επίπεδο Σύστασης του W3C, θα πρέπει να υπάρχουν στοιχεία ανεξάρτητων διαλειτουργικών εφαρμογών - πρέπει να αποδεικνύεται ότι δουλεύουν. Στην περίπτωση του VoiceXML 2.0, τα στοιχεία εφαρμογής είναι εξαιρετικά, με τουλάχιστον οχτώ γνωστές εφαρμογές σε μορφή πρωτότυπου αλλά και σε πλήρως ανεπτυγμένα προϊόντα. Μια πλήρης λίστα πρόσφατων εφαρμογών (list of current implementors) είναι διαθέσιμη. Η αναφορά implementation report for SRGS περιλαμβάνει τουλάχιστον έξι πλήρεις, ανεξάρτητες εφαρμογές.

Υπάρχει ένα εκτεταμένο δημόσιο σύνολο δοκιμών: public test suite. Ενώ η αρχική έκδοση περιείχε σχεδόν 300 δοκιμές, η τελική έκδοση περιέχει περισσότερες από 600 δοκιμές. Αυτό συμπληρώνει το σύνολο δοκιμών που παρέχονται με την Προδιαγραφή Γραμματική Αναγνώρισης Ομιλίας (test suite provided with the Speech Recognition Grammar Specification) και το σύνολο δοκιμών για τη Γλώσσα Σήμανσης Σύνθεσης Ομιλίας (test suite for Speech Synthesis Markup Language) που έγινε υποψήφια Σύσταση του W3C το Δεκέμβριο του 2003. Σύνολα δοκιμών για τις υπόλοιπες προδιαγραφές στο Πλαίσιο Διεπαφής Ομιλίας, συμπεριλαμβανομένης της Σημασιολογικής Ερμηνείας για Αναγνώριση Ομιλίας και CCXML, είναι υπό ανάπτυξη από την Ομάδα Εργασίας Φυλλομετρητή του Παγκοσμίου Ιστού του W3C και θα εκδοθούν μέσα στους επόμενους μήνες.

Μαζί με τη συνεχιζόμενη δουλειά στο υπόλοιπο του Πλαισίου Διεπαφής Ομιλίας, η Ομάδα Εργασίας Φυλλομετρητή Φωνής εργάζεται ήδη σκληρά στο σχεδιασμό των απαιτήσεων της επόμενης σημαντικής έκδοσης της γλώσσας σήμανσης διαλόγου, που θα χτίσει πάνω στην επιτυχία του VoiceXML 2.0 και θα συμπεριλάβει ιδέες από τα SALT, XHTML+Voice και άλλες συνεισφορές Μελών του W3C.

Η Ομάδα Εργασίας Φυλλομετρητή Φωνής του W3C είναι ανάμεσα στις μεγαλύτερες και πιο ενεργές του W3C. Οι συμμετέχοντες της Ομάδας περιλαμβάνουν: Aspect Communications, BeVocal, Canon, Comverse Technology, Convedia, ERCIM, France Telecom, HeyAnita, Hitachi, HP, IBM, Intel, IWA-HWG, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nuance Communications, Openstream, SAP, Scansoft, Siemens, Snowshore Networks, Sun Microsystems, Telera, Tellme Networks, Verscape, Vocalocity, VoiceGenie Technologies, Voxeo και Voxpilot.

Σχετικά με την Κοινοπραξία Παγκοσμίου Ιστού [W3C]

Το W3C δημιουργήθηκε με σκοπό να οδηγήσει τον Παγκόσμιο Ιστό στην πλήρη αξιοποίηση των δυνατοτήτων του μέσω της ανάπτυξης κοινών πρωτοκόλλων που προάγουν την εξέλιξη του και διασφαλίζουν την δια-λειτουργικότητα του. Είναι μια διεθνής κοινοπραξία που διευθύνουν από κοινού το MIT Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) στις ΗΠΑ, το European Research Consortium for Informatics and Mathematics (ERCIM) στη Γαλλία και το Keio University στην Ιαπωνία. Οι υπηρεσίες που παρέχονται από την Κοινοπραξία περιλαμβάνουν μια αποθήκη πληροφοριών σε θέματα του Παγκοσμίου Ιστού για τους κατασκευαστές λογισμικού και τους χρήστες, μαζί με πρωτότυπα και δείγματα εφαρμογών που επιδεικνύουν τη χρήση της νέας τεχνολογίας. Σχεδόν 400 οργανισμοί είναι Μέλη της Κοινοπραξίας. Για περισσότερες πληροφορίες απευθυνθείτε στο: http://www.w3.org/