Εξαιρετικά γρήγορη αναγνώριση ομιλίας χωρίς διακομιστές χρησιμοποιώντας πραγματικό παράδειγμα. Το καλύτερο ρωσικό πρόγραμμα αναγνώρισης ομιλίας Πώς να απενεργοποιήσετε την αναγνώριση ομιλίας εκτός σύνδεσης

Ενότητες του ιστότοπου

Η επιλογή των συντακτών:

Διαφήμιση

Σπίτι - Windows

Ενημερώθηκε: Δευτέρα, 31 Ιουλίου 2017

Τι σχέση έχει η ημι-φανταστική ιδέα του να μιλάς σε υπολογιστή με την επαγγελματική φωτογραφία; Σχεδόν κανένα, εκτός αν είστε λάτρης της ιδέας της ατέρμονης ανάπτυξης ολόκληρου του τεχνικού περιβάλλοντος του ανθρώπου. Φανταστείτε για μια στιγμή ότι δίνετε φωνητικές εντολές στην κάμερά σας να αλλάξει την εστιακή απόσταση και να κάνει μια διόρθωση έκθεσης μισού στοπ συν. Ο τηλεχειρισμός της κάμερας έχει ήδη εφαρμοστεί, αλλά εκεί πρέπει να πατήσετε σιωπηλά τα κουμπιά, αλλά εδώ είναι μια κάμερα ακοής!

Έχει γίνει παράδοση να αναφέρουμε κάποια ταινία επιστημονικής φαντασίας ως παράδειγμα φωνητικής επικοινωνίας μεταξύ ενός ατόμου και ενός υπολογιστή, για παράδειγμα το «2001: A Space Odyssey» σε σκηνοθεσία Stanley Kubrick. Εκεί, ο ενσωματωμένος υπολογιστής όχι μόνο διεξάγει έναν ουσιαστικό διάλογο με τους αστροναύτες, αλλά μπορεί να διαβάσει τα χείλη σαν κωφός. Με άλλα λόγια, το μηχάνημα έχει μάθει να αναγνωρίζει την ανθρώπινη ομιλία χωρίς λάθη. Ίσως ο απομακρυσμένος φωνητικός έλεγχος της κάμερας να φαίνεται περιττός σε κάποιους, αλλά πολλοί θα ήθελαν αυτή τη φράση «Κάτω μας, μωρό μου»και η φωτογραφία όλης της οικογένειας με φόντο έναν φοίνικα είναι έτοιμη.

Λοιπόν, απέδωσα φόρο τιμής στην παράδοση και ονειρευόμουν λίγο. Αλλά, μιλώντας από καρδιάς, αυτό το άρθρο ήταν δύσκολο να γραφτεί και όλα ξεκίνησαν με ένα δώρο με τη μορφή ενός smartphone με λειτουργικό σύστημα Android 4. Αυτό το μοντέλο HUAWEI U8815 διαθέτει μια μικρή οθόνη αφής τεσσάρων ιντσών και ένα πληκτρολόγιο οθόνης. Είναι λίγο ασυνήθιστο να το πληκτρολογείτε, αλλά αποδεικνύεται ότι δεν είναι ιδιαίτερα απαραίτητο. (εικόνα 01)

1. Αναγνώριση φωνής σε smartphone με λειτουργικό Android

Ενώ δοκίμασα ένα νέο παιχνίδι, παρατήρησα ένα γραφικό ενός μικροφώνου στη γραμμή αναζήτησης Googleκαι στο πληκτρολόγιο στις Σημειώσεις. Προηγουμένως, δεν με ενδιέφερε τι σήμαινε αυτό το σύμβολο. Είχα συζητήσεις μέσα Skypeκαι πληκτρολογήστε γράμματα στο πληκτρολόγιο. Αυτό κάνουν οι περισσότεροι χρήστες του Διαδικτύου. Αλλά όπως μου εξήγησαν αργότερα, στη μηχανή αναζήτησης GoogleΠροστέθηκε φωνητική αναζήτηση στα ρωσικά και εμφανίστηκαν προγράμματα που σας επιτρέπουν να υπαγορεύετε σύντομα μηνύματα όταν χρησιμοποιείτε ένα πρόγραμμα περιήγησης "Χρώμιο".

Είπα μια φράση τριών λέξεων, το πρόγραμμα τις εντόπισε και τις έδειξε σε ένα κελί με μπλε φόντο. Υπήρχε κάτι να εκπλήσσει εδώ, γιατί όλες οι λέξεις ήταν γραμμένες σωστά. Εάν κάνετε κλικ σε αυτό το κελί, η φράση εμφανίζεται στο πεδίο κειμένου του σημειωματάριου Android. Έτσι είπα μερικές φράσεις ακόμα και έστειλα μήνυμα στον βοηθό μέσω SMS.

2. Σύντομη ιστορία των προγραμμάτων αναγνώρισης φωνής.

Δεν ήταν για μένα ανακάλυψη ότι οι σύγχρονες εξελίξεις στον τομέα του φωνητικού ελέγχου καθιστούν δυνατή την παροχή εντολών σε οικιακές συσκευές, αυτοκίνητα και ρομπότ. Η λειτουργία Command εισήχθη σε προηγούμενες εκδόσεις των Windows, OS/2 και Mac OS. Έχω συναντήσει προγράμματα ομιλίας, αλλά σε τι χρησιμεύουν; Ίσως είναι η ιδιαιτερότητά μου ότι μου είναι πιο εύκολο να μιλήσω παρά να πληκτρολογήσω στο πληκτρολόγιο, αλλά στο κινητό δεν μπορώ να πληκτρολογήσω απολύτως τίποτα. Πρέπει να γράψετε επαφές σε φορητό υπολογιστή με κανονικό πληκτρολόγιο και να τις μεταφέρετε μέσω καλωδίου USB. Αλλά το να μιλήσω απλώς σε ένα μικρόφωνο και να γράψω τον υπολογιστή το ίδιο το κείμενο χωρίς λάθη ήταν ένα όνειρο για μένα. Η ατμόσφαιρα της απελπισίας διατηρήθηκε από τις συζητήσεις στα φόρουμ. Παντού υπήρχε μια τόσο θλιβερή σκέψη:

«Ωστόσο, στην πραγματικότητα, μέχρι σήμερα, προγράμματα για πραγματική αναγνώριση ομιλίας (και ακόμη και στα ρωσικά) ουσιαστικά δεν υπάρχουν και προφανώς δεν θα δημιουργηθούν σύντομα. Επιπλέον, ακόμη και το αντίστροφο πρόβλημα της αναγνώρισης - σύνθεσης ομιλίας, το οποίο, όπως φαίνεται, είναι πολύ πιο απλό από την αναγνώριση, δεν έχει λυθεί πλήρως». (ComputerPress No. 12, 2004)

«Δεν υπάρχουν ακόμα κανονικά προγράμματα αναγνώρισης ομιλίας (όχι μόνο ρωσικά), καθώς η εργασία είναι αρκετά δύσκολη για έναν υπολογιστή. Και το χειρότερο είναι ότι ο μηχανισμός αναγνώρισης λέξεων από τον άνθρωπο δεν έχει ακόμη υλοποιηθεί, επομένως δεν υπάρχει τίποτα να ξεκινήσετε από τη δημιουργία προγραμμάτων αναγνώρισης». (Μια άλλη συζήτηση στο φόρουμ).

Ταυτόχρονα, οι αξιολογήσεις των αγγλόφωνων προγραμμάτων εισαγωγής φωνητικού κειμένου έδειξαν σαφείς επιτυχίες. Για παράδειγμα, IBM ViaVoice 98 Executive Editionείχε ένα βασικό λεξιλόγιο 64.000 λέξεων και τη δυνατότητα να προσθέσετε τον ίδιο αριθμό δικών σας λέξεων. Το ποσοστό αναγνώρισης λέξεων χωρίς εκπαίδευση του προγράμματος ήταν περίπου 80% και κατά τη διάρκεια της επόμενης εργασίας με συγκεκριμένο χρήστη έφτασε το 95%.

Μεταξύ των προγραμμάτων αναγνώρισης ρωσικής γλώσσας, αξίζει να σημειωθεί το "Gorynych" - μια προσθήκη στο αγγλόφωνο Dragon Dictate 2.5. Θα σας πω για την αναζήτηση και στη συνέχεια τη «μάχη με τους πέντε Gorynychs» στο δεύτερο μέρος της κριτικής. Το πρώτο που βρήκα ήταν το «English Dragon».

3. Πρόγραμμα συνεχούς αναγνώρισης ομιλίας «Dragon Naturally Speaking»

Σύγχρονη έκδοση του προγράμματος της εταιρείας "Απόχρωση"κατέληξα σε έναν παλιό μου φίλο από το Ινστιτούτο Ξένων Γλωσσών του Μινσκ. Το έφερε πίσω από ένα ταξίδι στο εξωτερικό και το αγόρασε νομίζοντας ότι θα μπορούσε να είναι «γραμματέας υπολογιστή». Αλλά κάτι δεν λειτούργησε και το πρόγραμμα παρέμεινε στο φορητό υπολογιστή, σχεδόν ξεχασμένο. Λόγω της έλλειψης οποιασδήποτε ξεκάθαρης εμπειρίας, έπρεπε να πάω ο ίδιος στον φίλο μου. Όλη αυτή η μακροσκελής εισαγωγή είναι απαραίτητη για τη σωστή κατανόηση των συμπερασμάτων που έχω βγάλει.

Το πλήρες όνομα του πρώτου μου δράκου ήταν: . Το πρόγραμμα είναι στα αγγλικά και όλα σε αυτό είναι ξεκάθαρα ακόμα και χωρίς εγχειρίδιο. Το πρώτο βήμα είναι να δημιουργήσετε ένα προφίλ ενός συγκεκριμένου χρήστη για να καθορίσετε τα ηχητικά χαρακτηριστικά των λέξεων στην απόδοσή του. Αυτό έκανα - η ηλικία, η χώρα και τα χαρακτηριστικά προφοράς του ομιλητή είναι σημαντικά. Η επιλογή μου είναι η εξής: ηλικία 22–54 ετών, Αγγλικά ΗΒ, τυπική προφορά. Στη συνέχεια υπάρχουν πολλά παράθυρα όπου διαμορφώνετε το μικρόφωνό σας. (εικόνα 04)

Το επόμενο στάδιο για σοβαρά προγράμματα αναγνώρισης ομιλίας είναι η εκπαίδευση για τα χαρακτηριστικά προφοράς ενός συγκεκριμένου ατόμου. Σας ζητείται να επιλέξετε τη φύση του κειμένου: η επιλογή μου είναι μια σύντομη οδηγία υπαγόρευσης, αλλά μπορείτε επίσης να «παραγγείλετε» μια χιουμοριστική ιστορία.

Η ουσία αυτού του σταδίου εργασίας με το πρόγραμμα είναι εξαιρετικά απλή - το κείμενο εμφανίζεται στο παράθυρο, με ένα κίτρινο βέλος πάνω από αυτό. Όταν προφέρεται σωστά, το βέλος κινείται μέσα στις φράσεις και στο κάτω μέρος υπάρχει μια γραμμή προόδου προπόνησης. Είχα ξεχάσει σχεδόν τα Αγγλικά μου για τη συνομιλία, οπότε έκανα πρόοδο με δυσκολία. Ο χρόνος ήταν επίσης περιορισμένος - ο υπολογιστής δεν ήταν δικός μου και έπρεπε να διακόψω την εκπαίδευση. Αλλά μια φίλη είπε ότι έκανε το τεστ σε λιγότερο από μισή ώρα. (εικόνα 05)

Αρνούμενος να αφήσω το πρόγραμμα να προσαρμόσει την προφορά μου, πήγα στο κύριο παράθυρο και ξεκίνησα τον ενσωματωμένο επεξεργαστή κειμένου. Μίλησε μεμονωμένες λέξεις από κάποια κείμενα που βρήκε στον υπολογιστή. Το πρόγραμμα τύπωσε αυτές τις λέξεις που είπε σωστά και αντικατέστησε αυτές που είπε άσχημα με κάτι «Αγγλικά». Έχοντας προφέρει καθαρά την εντολή "erase line" στα αγγλικά, το πρόγραμμα την εκτέλεσε. Αυτό σημαίνει ότι διάβασα σωστά τις εντολές και το πρόγραμμα τις αναγνωρίζει χωρίς προηγούμενη εκπαίδευση.

Αλλά ήταν σημαντικό για μένα πώς γράφει αυτός ο «δράκος» στα ρωσικά. Όπως καταλάβατε από την προηγούμενη περιγραφή, κατά την εκπαίδευση του προγράμματος, μπορείτε να επιλέξετε μόνο αγγλικό κείμενο, απλά δεν υπάρχει ρωσική γλώσσα. Είναι σαφές ότι δεν θα είναι δυνατή η εκπαίδευση της ρωσικής αναγνώρισης ομιλίας. Στην επόμενη φωτογραφία μπορείτε να δείτε ποια φράση πληκτρολόγησε το πρόγραμμα κατά την προφορά της ρωσικής λέξης "Hello". (εικόνα 06)

Το αποτέλεσμα της συνομιλίας με τον πρώτο δράκο αποδείχθηκε ελαφρώς κωμικό. Εάν διαβάσετε προσεκτικά το κείμενο στον επίσημο ιστότοπο, μπορείτε να δείτε την αγγλική «εξειδίκευση» αυτού του προϊόντος λογισμικού. Επιπλέον, κατά τη φόρτωση, διαβάζουμε "Αγγλικά" στο παράθυρο του προγράμματος. Γιατί λοιπόν ήταν απαραίτητο όλο αυτό; Είναι ξεκάθαρο ότι φταίνε τα φόρουμ και οι φήμες...

Υπάρχει όμως και χρήσιμη εμπειρία. Μια φίλη μου ζήτησε να δει την κατάσταση του laptop της. Κάπως αργά άρχισε να δουλεύει. Αυτό δεν προκαλεί έκπληξη - το διαμέρισμα συστήματος είχε μόνο 5% ελεύθερο χώρο. Κατά τη διαγραφή περιττών προγραμμάτων, είδα ότι η επίσημη έκδοση καταλάμβανε περισσότερα από 2,3 GB. Αυτό το σχήμα θα μας φανεί χρήσιμο αργότερα. (εικόνα.07)

Η αναγνώριση της ρωσικής ομιλίας, όπως αποδείχθηκε, ήταν ένα μη τετριμμένο έργο. Στο Μινσκ κατάφερα να βρω το "Gorynych" από έναν φίλο. Έψαχνε για αρκετή ώρα τον δίσκο στα παλιά του μπάζα και, σύμφωνα με τον ίδιο, αυτή είναι η επίσημη δημοσίευση. Το πρόγραμμα εγκαταστάθηκε αμέσως και ανακάλυψα ότι το λεξικό του περιέχει 5.000 ρωσικές λέξεις συν 100 εντολές και 600 αγγλικές λέξεις συν 31 εντολές.

Πρώτα πρέπει να ρυθμίσετε το μικρόφωνο, κάτι που έκανα. Μετά άνοιξα το λεξικό και πρόσθεσα τη λέξη "εξέταση"γιατί δεν υπήρχε στο λεξικό του προγράμματος. Προσπάθησα να μιλήσω καθαρά και μονότονα. Τέλος, άνοιξα το πρόγραμμα Gorynych Pro 3.0, ενεργοποίησα τη λειτουργία υπαγόρευσης και έλαβα αυτή τη λίστα με «λέξεις που ακούγονται στενά». (εικόνα.09)

Το αποτέλεσμα με μπέρδεψε, γιατί διέφερε σαφώς προς το χειρότερο από τη δουλειά ενός smartphone Android και αποφάσισα να δοκιμάσω άλλα προγράμματα από το " Ηλεκτρονικό κατάστημα Google Chrome". Και ανέβαλα την ενασχόληση με τα «γκορίνιτς φίδια» για αργότερα. νομιζα οτι ειναι αναβολήδράση στο αυθεντικό ρωσικό πνεύμα

5. Οι δυνατότητες φωνής της Google

Για να εργαστείτε με φωνή σε έναν κανονικό υπολογιστή με Windows, θα χρειαστεί να εγκαταστήσετε ένα πρόγραμμα περιήγησης Google Chrome. Εάν το χρησιμοποιείτε στο διαδίκτυο, μπορείτε να κάνετε κλικ στον σύνδεσμο αποθήκευσης λογισμικού κάτω δεξιά. Εκεί, εντελώς δωρεάν, βρήκα δύο προγράμματα και δύο επεκτάσεις για φωνητική εισαγωγή κειμένου. Τα προγράμματα καλούνται "Φωνητικό σημειωματάριο"Και "Voicenot - φωνή σε κείμενο". Μετά την εγκατάσταση, μπορούν να βρεθούν στην καρτέλα "Εφαρμογές"το πρόγραμμα περιήγησής σας "Χρώμιο". (εικόνα. 10)

Οι επεκτάσεις ονομάζονται "Hotword Google Voice Search (Beta) 0.1.0.5"Και "Είσοδος φωνητικού κειμένου - Speechpad.ru 5.4". Μετά την εγκατάσταση, μπορούν να απενεργοποιηθούν ή να διαγραφούν στην καρτέλα "Επεκτάσεις".(εικόνα. 11)

Ηχητικό σημείωμα. Στην καρτέλα εφαρμογής στο πρόγραμμα περιήγησης Chrome, κάντε διπλό κλικ στο εικονίδιο του προγράμματος. Θα ανοίξει ένα παράθυρο διαλόγου όπως στην παρακάτω εικόνα. Κάνοντας κλικ στο εικονίδιο του μικροφώνου, εκφωνείτε σύντομες φράσεις στο μικρόφωνο. Το πρόγραμμα μεταδίδει τις λέξεις σας στον διακομιστή αναγνώρισης ομιλίας και πληκτρολογεί το κείμενο στο παράθυρο. Όλες οι λέξεις και οι φράσεις που εμφανίζονται στην εικόνα πληκτρολογήθηκαν την πρώτη φορά. Προφανώς, αυτή η μέθοδος λειτουργεί μόνο όταν υπάρχει ενεργή σύνδεση στο Διαδίκτυο. (εικόνα. 12)

Φωνητικό σημειωματάριο. Εάν εκκινήσετε το πρόγραμμα από την καρτέλα εφαρμογών, θα ανοίξει μια νέα καρτέλα σελίδας Διαδικτύου Speechpad.ru. Υπάρχουν λεπτομερείς οδηγίες για τον τρόπο χρήσης αυτής της υπηρεσίας και μια συμπαγής φόρμα. Το τελευταίο φαίνεται στην παρακάτω εικόνα. (εικόνα. 13)

Φωνητική είσοδοςΤο κείμενο σάς επιτρέπει να συμπληρώνετε πεδία κειμένου σε σελίδες Διαδικτύου χρησιμοποιώντας τη φωνή σας. Για παράδειγμα, πήγα στη σελίδα μου "Google+". Στο πεδίο εισαγωγής νέου μηνύματος, κάντε δεξί κλικ και επιλέξτε "SpeechPad". Το ροζ παράθυρο εισαγωγής υποδεικνύει ότι μπορείτε να υπαγορεύσετε το κείμενό σας. (εικόνα. 14)

Google Voice Searchσας επιτρέπει να κάνετε φωνητική αναζήτηση. Όταν εγκαθιστάτε και ενεργοποιείτε αυτήν την επέκταση, εμφανίζεται ένα σύμβολο μικροφώνου στη γραμμή αναζήτησης. Όταν το πατήσετε, θα εμφανιστεί ένα σύμβολο σε έναν μεγάλο κόκκινο κύκλο. Απλώς πείτε τη φράση αναζήτησης και θα εμφανιστεί στα αποτελέσματα αναζήτησης. (εικόνα. 15)

Σημαντική σημείωση: Για να λειτουργεί το μικρόφωνο με επεκτάσεις Chrome, πρέπει να επιτρέψετε την πρόσβαση στο μικρόφωνο στις ρυθμίσεις του προγράμματος περιήγησής σας. Είναι απενεργοποιημένο από προεπιλογή για λόγους ασφαλείας. Παω σε Ρυθμίσεις→Προσωπικά στοιχεία→Ρυθμίσεις περιεχομένου. (Για να αποκτήσετε πρόσβαση σε όλες τις ρυθμίσεις στο τέλος της λίστας, κάντε κλικ Εμφάνιση σύνθετων ρυθμίσεων). Θα ανοίξει ένα πλαίσιο διαλόγου Ρυθμίσεις περιεχομένου σελίδας. Επιλέξτε ένα στοιχείο στη λίστα Πολυμέσα→μικρόφωνο.

6. Αποτελέσματα εργασίας με ρωσικά προγράμματα αναγνώρισης ομιλίας

Μια μικρή εμπειρία στη χρήση προγραμμάτων φωνητικής εισαγωγής κειμένου έχει δείξει εξαιρετική εφαρμογή αυτής της δυνατότητας στους διακομιστές μιας εταιρείας Διαδικτύου Google. Χωρίς καμία προκαταρκτική εκπαίδευση, οι λέξεις αναγνωρίζονται σωστά. Αυτό δείχνει ότι το πρόβλημα της αναγνώρισης της ρωσικής ομιλίας έχει λυθεί.

Τώρα μπορούμε να πούμε ότι το αποτέλεσμα των εξελίξεων Googleθα είναι ένα νέο κριτήριο για την αξιολόγηση προϊόντων άλλων κατασκευαστών. Θα ήθελα το σύστημα αναγνώρισης να λειτουργεί εκτός σύνδεσης χωρίς πρόσβαση στους διακομιστές της εταιρείας - είναι πιο βολικό και πιο γρήγορο. Αλλά είναι άγνωστο πότε θα κυκλοφορήσει ένα ανεξάρτητο πρόγραμμα για εργασία με συνεχή ροή ρωσικής ομιλίας. Αξίζει, ωστόσο, να υποθέσουμε ότι με την ευκαιρία να προπονηθείτε, αυτή η «δημιουργία» θα γίνει μια πραγματική σημαντική ανακάλυψη.

Προγράμματα Ρώσων προγραμματιστών "Gorynych", "Δικτογράφος"Και "Μάχη"Θα μπω σε λεπτομέρειες στο δεύτερο μέρος αυτής της κριτικής. Αυτό το άρθρο γράφτηκε πολύ αργά για το λόγο ότι η αναζήτηση για αρχικούς δίσκους είναι πλέον δύσκολη. Αυτή τη στιγμή, έχω ήδη όλες τις εκδόσεις των ρωσικών μηχανών αναγνώρισης φωνής σε κείμενο εκτός από το "Combat 2.52". Κανένας από τους φίλους ή τους συναδέλφους μου δεν έχει αυτό το πρόγραμμα και εγώ ο ίδιος έχω μόνο μερικές επαινετικές κριτικές στα φόρουμ. Είναι αλήθεια ότι υπήρχε μια τόσο περίεργη επιλογή - κατεβάστε το "Combat" μέσω SMS, αλλά δεν μου αρέσει. (εικόνα 16)

Ένα σύντομο βίντεο κλιπ θα σας δείξει πώς λειτουργεί η αναγνώριση ομιλίας σε ένα smartphone με λειτουργικό σύστημα Android. Η ιδιαιτερότητα της φωνητικής πληκτρολόγησης είναι η ανάγκη σύνδεσης με διακομιστές Google. Έτσι πρέπει να λειτουργεί το Διαδίκτυό σας

Αυτό το τηλέφωνο έχει αναγνώρισης ομιλίαςή φωνητική είσοδο, αλλά λειτουργεί μόνο μέσω Διαδικτύου, συνδέοντας τις υπηρεσίες της Google. Αλλά ένα τηλέφωνο μπορεί να διδαχθεί να αναγνωρίζει ομιλία χωρίς το Διαδίκτυο, θα δούμε πώς να ενεργοποιήσουμε την αναγνώριση ρωσικής γλώσσας στο εκτός σύνδεσης. Για να λειτουργήσει αυτή η μέθοδος, πρέπει να έχετε εγκαταστήσει δύο εφαρμογές Φωνητική αναζήτησηΚαι Αναζήτηση Google, αν και αυτά τα προγράμματα υπάρχουν ήδη στο εργοστασιακό υλικολογισμικό.

Για υλικολογισμικό

Μεταβείτε στις ρυθμίσεις του τηλεφώνου σας και επιλέξτε

Επιλέξτε Ρωσική γλώσσα και κατεβάστε την.

Για υλικολογισμικό 2.8B

Στο νέο υλικολογισμικό το στοιχείο μενού " Αναγνώριση ομιλίας εκτός σύνδεσης"απουσία.

Εάν είχατε εγκαταστήσει πακέτα εκτός σύνδεσης πριν από την ενημέρωση υλικολογισμικού και δεν σβήσατε (επαναφέρατε τις ρυθμίσεις) κατά την ενημέρωση, τότε θα έπρεπε να έχουν διατηρηθεί. Διαφορετικά, θα πρέπει να επιστρέψετε στο υλικολογισμικό 2.2 , εγκαταστήστε πακέτα φωνής και μόνο στη συνέχεια ενημερώστε το σύστημα σε 2,8Β.

Για συσκευές Rev.B

Εγκαθιστούμε την ενημέρωση μέσω ανάκτησης και απολαμβάνουμε αναγνώριση φωνής σε oyline.

2. Κατεβάστε τη βάση δεδομένων για τη ρωσική ομιλία και αντιγράψτε την στην κάρτα SD

Λήψη Russian_offline.zip 1301

3. Εισαγάγετε την ανάκτηση κρατώντας πατημένο το (Volume + και On) με το τηλέφωνο απενεργοποιημένο.

4. Επιλέξτε Εφαρμόστε την ενημέρωση από μέσα εξωτερικής αποθήκευσηςκαι επιλέξτε το αρχείο λήψης.

) χρησιμοποιώντας ένα πραγματικό παράδειγμα Hello World ελέγχου οικιακών συσκευών.
Γιατί οικιακές συσκευές; Ναι, γιατί χάρη σε ένα τέτοιο παράδειγμα μπορείτε να το εκτιμήσετε αυτό ταχύτητα και ακρίβειαπου μπορεί να επιτευχθεί με τη χρήση εντελώς τοπικάαναγνώριση ομιλίας χωρίς διακομιστές όπως Google ASRή Yandex SpeechKit.
Επισυνάπτω επίσης στο άρθρο όλο τον πηγαίο κώδικα του προγράμματος και την ίδια τη συναρμολόγηση για Android.

Γιατί ξαφνικά;

Έχοντας συναντήσει πρόσφατα αυτό, ρώτησα τον συγγραφέα γιατί ήθελε να χρησιμοποιήσει την αναγνώριση ομιλίας που βασίζεται σε διακομιστή για το πρόγραμμά του (κατά τη γνώμη μου, αυτό ήταν περιττό και οδήγησε σε κάποια προβλήματα). Για το σκοπό αυτό, θα μπορούσα να περιγράψω λεπτομερέστερα τη χρήση εναλλακτικών μεθόδων για έργα όπου δεν χρειάζεται να αναγνωριστεί τίποτα και το λεξικό αποτελείται από ένα πεπερασμένο σύνολο λέξεων. Και μάλιστα με ένα παράδειγμα πρακτικής εφαρμογής...

Γιατί χρειαζόμαστε οτιδήποτε άλλο εκτός από το Yandex και το Google;

Για αυτήν την πολύ «πρακτική εφαρμογή» επέλεξα το θέμα φωνητικός έλεγχος για έξυπνο σπίτι.
Γιατί ακριβώς αυτό το παράδειγμα; Επειδή δείχνει πολλά πλεονεκτήματα της εντελώς τοπικής αναγνώρισης ομιλίας έναντι της αναγνώρισης χρησιμοποιώντας λύσεις cloud. Και συγκεκριμένα:

Ταχύτητα- δεν εξαρτόμαστε από διακομιστές και επομένως δεν εξαρτόμαστε από τη διαθεσιμότητά τους, το εύρος ζώνης κ.λπ. παράγοντες
Ακρίβεια- Ο κινητήρας μας λειτουργεί μόνο με το λεξικό που ενδιαφέρει την εφαρμογή μας, αυξάνοντας έτσι την ποιότητα της αναγνώρισης
Τιμή- δεν χρειάζεται να πληρώνουμε για κάθε αίτημα στον διακομιστή
Ενεργοποίηση φωνής- ως επιπλέον μπόνους στους πρώτους πόντους - μπορούμε συνεχώς να "ακούμε την εκπομπή" χωρίς να σπαταλάμε την επισκεψιμότητα μας και χωρίς να φορτώνουμε τους διακομιστές

Σημείωση

Επιτρέψτε μου να κάνω μια κράτηση αμέσως ότι αυτά τα πλεονεκτήματα μπορούν να θεωρηθούν πλεονεκτήματα μόνο για μια συγκεκριμένη κατηγορία έργων, Που είμαστε ξέρουμε σίγουρα εκ των προτέρων, με ποιο λεξικό και ποια γραμματική θα λειτουργήσει ο χρήστης. Όταν δηλαδή δεν χρειάζεται να αναγνωρίσουμε αυθαίρετο κείμενο (για παράδειγμα, ένα μήνυμα SMS ή ένα ερώτημα αναζήτησης). Διαφορετικά, η αναγνώριση cloud είναι απαραίτητη.

Έτσι, το Android μπορεί να αναγνωρίσει την ομιλία χωρίς Διαδίκτυο!

Ναι, ναι... Μόνο στο JellyBean. Και μόνο από μισό μέτρο, όχι παραπάνω. Και αυτή η αναγνώριση είναι η ίδια υπαγόρευση, χρησιμοποιώντας μόνο ένα πολύ μικρότερο μοντέλο. Επομένως, δεν μπορούμε να το διαχειριστούμε ή να το διαμορφώσουμε. Και τι θα μας επιστρέψει την επόμενη φορά είναι άγνωστο. Αν και είναι κατάλληλο για SMS!

Τι κάνουμε;

Θα εφαρμόσουμε ένα φωνητικό τηλεχειριστήριο για οικιακές συσκευές, το οποίο θα λειτουργεί με ακρίβεια και ταχύτητα, από λίγα μέτρα ακόμα και σε φθηνά, άθλια, πολύ φθηνά smartphone Android, tablet και ρολόγια.
Η λογική θα είναι απλή αλλά πολύ πρακτική. Ενεργοποιούμε το μικρόφωνο και λέμε ένα ή περισσότερα ονόματα συσκευών. Η εφαρμογή τα αναγνωρίζει και τα ενεργοποιεί και απενεργοποιεί ανάλογα με την τρέχουσα κατάσταση. Ή λαμβάνει μια περιουσία από αυτούς και την προφέρει με ευχάριστη γυναικεία φωνή. Για παράδειγμα, η τρέχουσα θερμοκρασία στο δωμάτιο.

Οι πρακτικές εφαρμογές αφθονούν

Το πρωί, χωρίς να ανοίξεις τα μάτια σου, χτύπησες την παλάμη σου στην οθόνη του smartphone στο κομοδίνο και έδωσες εντολή «Καλημέρα!» - το σενάριο ξεκινά, η καφετιέρα ανάβει και βουίζει, ακούγεται ευχάριστη μουσική, οι κουρτίνες ανοίγουν.
Ας κρεμάσουμε ένα φτηνό (2 χιλιάδες, όχι παραπάνω) smartphone στον τοίχο σε κάθε δωμάτιο. Πηγαίνουμε σπίτι μετά τη δουλειά και κουμαντάρουμε στο κενό «Έξυπνο σπίτι! Φώτα, τηλεόραση! - Δεν νομίζω ότι χρειάζεται να πούμε τι θα συμβεί στη συνέχεια.

Μεταγραφές

Η γραμματική περιγράφει τι τι μπορεί να πει ο χρήστης. Για να ξέρει ο Pocketsphinx, Πωςθα το προφέρει, είναι απαραίτητο κάθε λέξη από τη γραμματική να γράφει πώς ακούγεται στο αντίστοιχο γλωσσικό μοντέλο. Αυτό είναι μεταγραφήκάθε λέξη. Ονομάζεται λεξικό.

Οι μεταγραφές περιγράφονται χρησιμοποιώντας μια ειδική σύνταξη. Για παράδειγμα:
έξυπνος uu m n ay j σπίτι d oo m

Κατ 'αρχήν, τίποτα περίπλοκο. Ένα διπλό φωνήεν στη μεταγραφή υποδηλώνει τονισμό. Ένα διπλό σύμφωνο είναι ένα μαλακό σύμφωνο που ακολουθείται από ένα φωνήεν. Όλοι οι δυνατοί συνδυασμοί για όλους τους ήχους της ρωσικής γλώσσας.

Είναι σαφές ότι δεν μπορούμε να περιγράψουμε εκ των προτέρων όλες τις μεταγραφές στην εφαρμογή μας, γιατί δεν γνωρίζουμε εκ των προτέρων τα ονόματα που θα δώσει ο χρήστης στις συσκευές του. Επομένως, θα δημιουργήσουμε τέτοιες μεταγραφές "εν πτήσει" σύμφωνα με ορισμένους κανόνες της ρωσικής φωνητικής. Για να το κάνετε αυτό, μπορείτε να εφαρμόσετε την ακόλουθη κλάση PhonMapper, η οποία μπορεί να λάβει μια συμβολοσειρά ως είσοδο και να δημιουργήσει τη σωστή μεταγραφή για αυτήν.

Ενεργοποίηση φωνής

Αυτή είναι η ικανότητα της μηχανής αναγνώρισης ομιλίας να «ακούει την εκπομπή» όλη την ώρα για να αντιδρά σε μια προκαθορισμένη φράση (ή φράσεις). Ταυτόχρονα, όλοι οι άλλοι ήχοι και ομιλία θα απορριφθούν. Αυτό δεν είναι το ίδιο με το να περιγράφεις τη γραμματική και να ανοίγεις απλώς το μικρόφωνο. Δεν θα παρουσιάσω εδώ τη θεωρία αυτής της εργασίας και τη μηχανική του πώς λειτουργεί. Επιτρέψτε μου απλώς να πω ότι πρόσφατα οι προγραμματιστές που εργάζονταν στο Pocketsphinx εφάρμοσαν μια τέτοια λειτουργία και τώρα είναι διαθέσιμη εκτός συσκευασίας στο API.

Ένα πράγμα σίγουρα αξίζει να αναφέρουμε. Για μια φράση ενεργοποίησης, δεν χρειάζεται μόνο να καθορίσετε τη μεταγραφή, αλλά και να επιλέξετε την κατάλληλη τιμή κατωφλίου ευαισθησίας. Μια τιμή που είναι πολύ μικρή θα οδηγήσει σε πολλά ψευδώς θετικά (αυτό συμβαίνει όταν δεν είπατε τη φράση ενεργοποίησης, αλλά το σύστημα την αναγνωρίζει). Και πολύ υψηλό - στην ανοσία. Επομένως, αυτή η ρύθμιση έχει ιδιαίτερη σημασία. Κατά προσέγγιση εύρος τιμών - από 1e-1 έως 1e-40 ανάλογα με τη φράση ενεργοποίησης.

Ενεργοποίηση αισθητήρα εγγύτητας

Αυτή η εργασία είναι συγκεκριμένη για το έργο μας και δεν σχετίζεται άμεσα με την αναγνώριση. Ο κώδικας μπορεί να φανεί απευθείας στην κύρια δραστηριότητα.
Εφαρμόζει SensorEventListenerκαι τη στιγμή της προσέγγισης (η τιμή του αισθητήρα είναι μικρότερη από τη μέγιστη) ενεργοποιεί το χρονόμετρο, ελέγχοντας μετά από μια ορισμένη καθυστέρηση εάν ο αισθητήρας είναι ακόμα μπλοκαρισμένος. Αυτό γίνεται για να εξαλειφθούν τα ψευδώς θετικά.
Όταν ο αισθητήρας δεν μπλοκάρει ξανά, σταματάμε την αναγνώριση, παίρνοντας το αποτέλεσμα (δείτε την περιγραφή παρακάτω).

Ας ξεκινήσουμε την αναγνώριση

Το Pocketsphinx παρέχει ένα βολικό API για τη διαμόρφωση και την εκτέλεση της διαδικασίας αναγνώρισης. Αυτές είναι οι τάξεις SpechRecognizerΚαι SpeechRecognizerSetup.
Έτσι φαίνεται η διαμόρφωση και η εκκίνηση της αναγνώρισης:

PhonMapper phonMapper = νέο PhonMapper(getAssets().open("dict/ru/hotwords")); Γραμματική γραμματική = νέα Γραμματική (ονόματα, phonMapper); grammar.addWords(hotword); DataFiles dataFiles = νέα DataFiles(getPackageName(), "ru"); Αρχείο hmmDir = νέο Αρχείο(dataFiles.getHmm()); Αρχείο dict = νέο Αρχείο(dataFiles.getDict()); Αρχείο jsgf = νέο Αρχείο(dataFiles.getJsgf()); copyAssets(hmmDir); saveFile(jsgf, grammar.getJsgf()); saveFile(dict, grammar.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(hmmDir) .setDictionary(dict) .setBoolean("-remove_noise", false) .setKeywordThreshold(1e-7f) .getRecognizer(); mRecognizer.addKeyphraseSearch(KWS_SEARCH, hotword); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf);

Εδώ αντιγράφουμε πρώτα όλα τα απαραίτητα αρχεία στο δίσκο (το Pocketpshinx απαιτεί ακουστικό μοντέλο, γραμματική και λεξικό με μεταγραφές για να υπάρχουν στο δίσκο). Στη συνέχεια διαμορφώνεται η ίδια η μηχανή αναγνώρισης. Υποδεικνύονται οι διαδρομές προς το μοντέλο και τα αρχεία λεξικού, καθώς και ορισμένες παράμετροι (όριο ευαισθησίας για τη φράση ενεργοποίησης). Στη συνέχεια, διαμορφώνεται η διαδρομή προς το αρχείο με τη γραμματική, καθώς και η φράση ενεργοποίησης.

Όπως μπορείτε να δείτε από αυτόν τον κώδικα, ένας κινητήρας έχει ρυθμιστεί τόσο για γραμματική όσο και για αναγνώριση φράσεων ενεργοποίησης. Γιατί γίνεται αυτό; Για να μπορούμε να εναλλάσσουμε γρήγορα αυτά που πρέπει να αναγνωρίσουμε αυτήν τη στιγμή. Έτσι μοιάζει με την έναρξη της διαδικασίας αναγνώρισης φράσεων ενεργοποίησης:

MRecognizer.startLstening(KWS_SEARCH);
Και έτσι αναγνωρίζεται ο λόγος σύμφωνα με μια δεδομένη γραμματική:

MRecognizer.startLstening(COMMAND_SEARCH, 3000);
Το δεύτερο όρισμα (προαιρετικό) είναι ο αριθμός των χιλιοστών του δευτερολέπτου μετά από τα οποία η αναγνώριση θα τερματιστεί αυτόματα εάν κανείς δεν πει τίποτα.
Όπως μπορείτε να δείτε, μπορείτε να χρησιμοποιήσετε μόνο έναν κινητήρα για να λύσετε και τα δύο προβλήματα.

Πώς να λάβετε το αποτέλεσμα αναγνώρισης

Για να λάβετε το αποτέλεσμα αναγνώρισης, πρέπει επίσης να καθορίσετε ένα πρόγραμμα ακρόασης συμβάντων που υλοποιεί τη διεπαφή RecognitionListener.
Έχει πολλές μεθόδους που καλούνται από pocketsphinx όταν συμβαίνει ένα από τα γεγονότα:

onBeginningOfSpeech- ο κινητήρας άκουσε κάποιο ήχο, ίσως ήταν ομιλία (ή ίσως όχι)
onEndOfSpeech- τελειώνει ο ήχος
στο Μερικό Αποτέλεσμα- υπάρχουν ενδιάμεσα αποτελέσματα αναγνώρισης. Για μια φράση ενεργοποίησης, αυτό σημαίνει ότι λειτούργησε. Διαφωνία Υπόθεση
στο Αποτέλεσμα- το τελικό αποτέλεσμα της αναγνώρισης. Αυτή η μέθοδος θα κληθεί μετά την κλήση της μεθόδου να σταματήσειστο SpeechRecognizer. Διαφωνία Υπόθεσηπεριέχει δεδομένα αναγνώρισης (string και score)

Εφαρμόζοντας τις μεθόδους onPartialResult και onResult με τον ένα ή τον άλλο τρόπο, μπορείτε να αλλάξετε τη λογική αναγνώρισης και να λάβετε το τελικό αποτέλεσμα. Δείτε πώς γίνεται στην περίπτωση της εφαρμογής μας:

@Override δημόσιο κενό onEndOfSpeech() ( Log.d(TAG, "onEndOfSpeech"); if (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) ( mRecognizer.stop(); ) ) @Override public void ( if (hypothesis == null) επιστροφή; String text = hypothesis.getHypstr(); if (KWS_SEARCH.equals(mRecognizer.getSearchName())) (startRecognition(); ) else (Log.d(TAG, text); ) ) @Override public void onResult(Υπόθεση Υπόθεσης) ( mMicView.setBackgroundResource(R.drawable.background_big_mic); mHandler.removeCallbacks(mStopRecognitionCallback); Κείμενο συμβολοσειράς = υπόθεση != null ? hypothesis. , "onResult " + text if (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) ( if (text != null) ( Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); process(text) ) mRecognizer.startLstening(KWS_SEARCH);

Όταν λάβουμε το συμβάν onEndOfSpeech, και εάν ταυτόχρονα αναγνωρίσουμε την εντολή που πρέπει να εκτελεστεί, τότε πρέπει να σταματήσουμε την αναγνώριση, μετά την οποία θα κληθεί αμέσως το onResult.
Στο onResult πρέπει να ελέγξετε τι μόλις αναγνωρίστηκε. Εάν πρόκειται για εντολή, τότε πρέπει να την εκκινήσετε για εκτέλεση και να αλλάξετε τον κινητήρα για να αναγνωρίσει τη φράση ενεργοποίησης.
Στο onPartialResult μας ενδιαφέρει μόνο να αναγνωρίσουμε τη φράση ενεργοποίησης. Εάν το εντοπίσουμε, ξεκινάμε αμέσως τη διαδικασία αναγνώρισης εντολών. Δείτε πώς φαίνεται:

Ιδιωτικό συγχρονισμένο κενό startRecognition() ( if (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) επιστρέφει; mRecognizer.cancel(); νέο ToneGenerator(AudioManager.STREAMneGeneratoronest.MEX). TONE_CDMA_PIP, 200); post(400, new Runnable() ( @Override public void run() ( mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startLstening(COMMAND_SEARCH, LoListend0); εντολές"); post(4000, mStopRecognitionCallback); ) )); )
Εδώ παίζουμε πρώτα ένα μικρό σήμα για να ειδοποιήσουμε τον χρήστη ότι τον ακούσαμε και είμαστε έτοιμοι για την εντολή του. Κατά τη διάρκεια αυτής της περιόδου, το μικρόφωνο θα πρέπει να είναι απενεργοποιημένο. Επομένως, ξεκινάμε την αναγνώριση μετά από ένα μικρό χρονικό όριο (λίγο μεγαλύτερο από τη διάρκεια του σήματος, για να μην ακούμε την ηχώ του). Ξεκινά επίσης ένα νήμα που θα σταματήσει αναγκαστικά την αναγνώριση εάν ο χρήστης μιλήσει για πολύ καιρό. Σε αυτή την περίπτωση είναι 3 δευτερόλεπτα.

Πώς να μετατρέψετε αναγνωρισμένη συμβολοσειρά σε εντολές

Λοιπόν, όλα εδώ είναι συγκεκριμένα για μια συγκεκριμένη εφαρμογή. Στην περίπτωση του γυμνού παραδείγματος, απλώς βγάζουμε τα ονόματα συσκευών από τη γραμμή, αναζητούμε την επιθυμητή συσκευή και είτε αλλάζουμε την κατάστασή της χρησιμοποιώντας ένα αίτημα HTTP στον ελεγκτή έξυπνου σπιτιού ή αναφέρουμε την τρέχουσα κατάστασή της (όπως στην περίπτωση του έναν θερμοστάτη). Αυτή η λογική μπορεί να φανεί στην κλάση Controller.

Πώς να συνθέσετε την ομιλία

Η σύνθεση του λόγου είναι η αντίστροφη λειτουργία της αναγνώρισης. Εδώ συμβαίνει το αντίστροφο - πρέπει να μετατρέψετε μια γραμμή κειμένου σε ομιλία, ώστε ο χρήστης να μπορεί να την ακούσει.
Στην περίπτωση του θερμοστάτη, πρέπει να κάνουμε τη συσκευή μας Android να λέει την τρέχουσα θερμοκρασία. Χρησιμοποιώντας το API Κείμενο σε ομιλίααυτό είναι πολύ εύκολο να γίνει (ευχαριστώ την Google για το υπέροχο γυναικείο TTS για τη ρωσική γλώσσα):

Ιδιωτικό void speak(Κείμενο συμβολοσειράς) ( συγχρονισμένο (mSpeechQueue) (mRecognizer.stop(); mSpeechQueue.add(text); HashMap params = νέο HashMap (2); params.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID().toString()); params.put(TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf(AudioManager.STREAM_MUSIC)); params.put(TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "true"); mTextToSpeech.speak(κείμενο, TextToSpeech.QUEUE_ADD, παράμετροι); ) )

Μάλλον θα πω κάτι μπανάλ, αλλά πριν από τη διαδικασία σύνθεσης, είναι απαραίτητο να απενεργοποιήσετε την αναγνώριση. Σε ορισμένες συσκευές (για παράδειγμα, όλες οι συσκευές Samsung) είναι γενικά αδύνατο να ακούσετε το μικρόφωνο και να συνθέσετε κάτι ταυτόχρονα.
Το τέλος της σύνθεσης ομιλίας (δηλαδή, το τέλος της διαδικασίας εκφώνησης κειμένου από έναν συνθεσάιζερ) μπορεί να παρακολουθηθεί στον ακροατή:

Ιδιωτικό τελικό TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = νέο TextToSpeech.OnUtteranceCompletedListener() ( @Override public void onUtteranceCompleted(String utteranceId) (συγχρονισμένο (mSpeechQueech.Speech Empty()) ( mRecognizer.startListening ( KWS_SEARCH) ) ) ) );

Σε αυτό, απλώς ελέγχουμε αν υπάρχει κάτι άλλο στην ουρά σύνθεσης και ενεργοποιούμε την αναγνώριση φράσης ενεργοποίησης εάν δεν υπάρχει τίποτα άλλο.

Και είναι όλα;

Ναί! Όπως μπορείτε να δείτε, η γρήγορη και αποτελεσματική αναγνώριση ομιλίας απευθείας στη συσκευή δεν είναι καθόλου δύσκολη, χάρη στην παρουσία τέτοιων υπέροχων έργων όπως το Pocketsphinx. Παρέχει ένα πολύ βολικό API που μπορεί να χρησιμοποιηθεί για την επίλυση προβλημάτων που σχετίζονται με την αναγνώριση φωνητικών εντολών.

Σε αυτό το παράδειγμα, έχουμε συνδέσει την αναγνώριση σε μια εντελώς συγκεκριμένη εργασία - φωνητικός έλεγχος έξυπνων οικιακών συσκευών. Λόγω της τοπικής αναγνώρισης, πετύχαμε πολύ υψηλή ταχύτητα και ελαχιστοποιήσαμε τα σφάλματα.
Είναι σαφές ότι ο ίδιος κωδικός μπορεί να χρησιμοποιηθεί και για άλλες εργασίες που σχετίζονται με τη φωνή. Δεν χρειάζεται να είναι ένα έξυπνο σπίτι.

φωνητικός έλεγχος

μηχανή φωνής

Προσθέστε ετικέτες

Κανένα πρόγραμμα δεν μπορεί να αντικαταστήσει πλήρως τη χειρωνακτική εργασία της μεταγραφής ηχογραφημένης ομιλίας. Ωστόσο, υπάρχουν λύσεις που μπορούν να επιταχύνουν και να διευκολύνουν σημαντικά τη μετάφραση του λόγου σε κείμενο, δηλαδή να απλοποιήσουν τη μεταγραφή.

Η μεταγραφή είναι η εγγραφή ενός αρχείου ήχου ή βίντεο σε μορφή κειμένου. Υπάρχουν πληρωμένες εργασίες στο Διαδίκτυο, όταν ο ερμηνευτής πληρώνεται ένα συγκεκριμένο χρηματικό ποσό για τη μεταγραφή του κειμένου.

Η μετάφραση ομιλίας σε κείμενο είναι χρήσιμη

οι μαθητές να μεταφράζουν ηχογραφημένες διαλέξεις ήχου ή βίντεο σε κείμενο,
bloggers που διαχειρίζονται ιστότοπους και ιστολόγια,
συγγραφείς, δημοσιογράφοι για τη συγγραφή βιβλίων και κειμένων,
επιχειρηματίες πληροφόρησης που χρειάζονται ένα κείμενο μετά το διαδικτυακό σεμινάριο, την ομιλία τους κ.λπ.,
άτομα που δυσκολεύονται να πληκτρολογήσουν - μπορούν να υπαγορεύσουν ένα γράμμα και να το στείλουν σε οικογένεια ή φίλους,
άλλες επιλογές.

Θα περιγράψουμε τα πιο αποτελεσματικά εργαλεία που είναι διαθέσιμα σε υπολογιστές, εφαρμογές για κινητά και διαδικτυακές υπηρεσίες.

1 Ιστότοπος speakpad.ru

Αυτή είναι μια διαδικτυακή υπηρεσία που σας επιτρέπει να μεταφράζετε ομιλία σε κείμενο χρησιμοποιώντας το πρόγραμμα περιήγησης Google Chrome. Η υπηρεσία λειτουργεί με μικρόφωνο και έτοιμα αρχεία. Φυσικά, η ποιότητα θα είναι πολύ υψηλότερη αν χρησιμοποιήσετε εξωτερικό μικρόφωνο και υπαγορεύσετε τον εαυτό σας. Ωστόσο, η υπηρεσία κάνει καλή δουλειά ακόμη και με βίντεο YouTube.

Κάντε κλικ στην «Ενεργοποίηση εγγραφής», απαντήστε στην ερώτηση σχετικά με τη «Χρήση μικροφώνου» - για να το κάνετε αυτό, κάντε κλικ στο «Να επιτρέπεται».

Οι μεγάλες οδηγίες σχετικά με τη χρήση της υπηρεσίας μπορούν να συμπτυχθούν κάνοντας κλικ στο κουμπί 1 στην Εικ. 3. Μπορείτε να απαλλαγείτε από τη διαφήμιση ολοκληρώνοντας μια απλή εγγραφή.

Ρύζι. 3. Υπηρεσία Speechpad

Το τελικό αποτέλεσμα είναι εύκολο να επεξεργαστείτε. Για να το κάνετε αυτό, πρέπει είτε να διορθώσετε με μη αυτόματο τρόπο την επισημασμένη λέξη είτε να την υπαγορεύσετε ξανά. Τα αποτελέσματα της εργασίας αποθηκεύονται στον προσωπικό σας λογαριασμό, μπορείτε επίσης να τα κατεβάσετε στον υπολογιστή σας.

Λίστα μαθημάτων βίντεο σχετικά με την εργασία με το speakpad:

Μπορείτε να μεταγράψετε βίντεο από το Youtube ή από τον υπολογιστή σας, ωστόσο, θα χρειαστείτε ένα μίκτη, περισσότερες λεπτομέρειες:

Βίντεο "ηχητική μεταγραφή"

Η υπηρεσία λειτουργεί σε επτά γλώσσες. Υπάρχει ένα μικρό μείον. Βρίσκεται στο γεγονός ότι εάν χρειαστεί να μεταγράψετε ένα τελικό αρχείο ήχου, τότε ο ήχος του ακούγεται μέσω των ηχείων, γεγονός που δημιουργεί πρόσθετες παρεμβολές με τη μορφή ηχούς.

2 Υπαγόρευση υπηρεσίας.io

Μια υπέροχη διαδικτυακή υπηρεσία που σας επιτρέπει να μεταφράζετε την ομιλία σε κείμενο δωρεάν και εύκολα.

Ρύζι. 4. Υπαγόρευση υπηρεσίας.io

1 στο Σχ. 4 – Η ρωσική γλώσσα μπορεί να επιλεγεί στο τέλος της σελίδας. Στο πρόγραμμα περιήγησης Google Chrome, η γλώσσα είναι επιλεγμένη, αλλά για κάποιο λόγο στο Mozilla δεν υπάρχει τέτοια επιλογή.

Αξίζει να σημειωθεί ότι έχει εφαρμοστεί η δυνατότητα αυτόματης αποθήκευσης του τελικού αποτελέσματος. Αυτό θα αποτρέψει την τυχαία διαγραφή ως αποτέλεσμα του κλεισίματος μιας καρτέλας ή ενός προγράμματος περιήγησης. Αυτή η υπηρεσία δεν αναγνωρίζει ολοκληρωμένα αρχεία. Λειτουργεί με μικρόφωνο. Πρέπει να ονομάσετε σημεία στίξης όταν υπαγορεύετε.

Το κείμενο αναγνωρίζεται αρκετά σωστά, δεν υπάρχουν ορθογραφικά λάθη. Μπορείτε να εισάγετε μόνοι σας σημεία στίξης από το πληκτρολόγιο. Το τελικό αποτέλεσμα μπορεί να αποθηκευτεί στον υπολογιστή σας.

3 RealSpeaker

Αυτό το πρόγραμμα σάς επιτρέπει να μεταφράζετε εύκολα την ανθρώπινη ομιλία σε κείμενο. Έχει σχεδιαστεί για να λειτουργεί σε διαφορετικά συστήματα: Windows, Android, Linux, Mac. Με τη βοήθειά του, μπορείτε να μετατρέψετε την ομιλία που ακούγεται σε μικρόφωνο (για παράδειγμα, μπορεί να ενσωματωθεί σε φορητό υπολογιστή), καθώς και να εγγραφεί σε αρχεία ήχου.

Μπορεί να καταλάβει 13 γλώσσες του κόσμου. Υπάρχει μια έκδοση beta του προγράμματος που λειτουργεί ως διαδικτυακή υπηρεσία:

Πρέπει να ακολουθήσετε τον παραπάνω σύνδεσμο, να επιλέξετε τη ρωσική γλώσσα, να ανεβάσετε το αρχείο ήχου ή βίντεο στην ηλεκτρονική υπηρεσία και να πληρώσετε για τη μεταγραφή του. Μετά τη μεταγραφή, μπορείτε να αντιγράψετε το κείμενο που προκύπτει. Όσο μεγαλύτερο είναι το αρχείο για μεταγραφή, τόσο περισσότερος χρόνος θα χρειαστεί για την επεξεργασία του, περισσότερες λεπτομέρειες:

Το 2017 υπήρχε μια δωρεάν επιλογή μεταγραφής χρησιμοποιώντας το RealSpeaker, αλλά το 2018 δεν υπάρχει τέτοια επιλογή. Είναι πολύ μπερδεμένο το γεγονός ότι το μεταγραμμένο αρχείο είναι διαθέσιμο σε όλους τους χρήστες για λήψη, ίσως αυτό να βελτιωθεί.

Οι επαφές του προγραμματιστή (VKontakte, Facebook, Youtube, Twitter, email, τηλέφωνο) του προγράμματος βρίσκονται στη σελίδα του ιστότοπού του (ακριβέστερα, στο υποσέλιδο του ιστότοπου):

4 Speechlogger

Μια εναλλακτική σε σχέση με την προηγούμενη εφαρμογή για κινητές συσκευές που εκτελούνται σε Android. Διατίθεται δωρεάν στο app store:

Το κείμενο επεξεργάζεται αυτόματα και προστίθενται σημεία στίξης. Πολύ βολικό για να υπαγορεύετε σημειώσεις στον εαυτό σας ή να κάνετε λίστες. Ως αποτέλεσμα, το κείμενο θα είναι πολύ αξιοπρεπούς ποιότητας.

5 Υπαγόρευση του Δράκου

Πρόκειται για μια εφαρμογή που διανέμεται δωρεάν για φορητές συσκευές από την Apple.

Το πρόγραμμα μπορεί να λειτουργήσει με 15 γλώσσες. Σας επιτρέπει να επεξεργαστείτε το αποτέλεσμα και να επιλέξετε τις επιθυμητές λέξεις από τη λίστα. Πρέπει να προφέρετε καθαρά όλους τους ήχους, να μην κάνετε περιττές παύσεις και να αποφύγετε τον τονισμό. Μερικές φορές υπάρχουν λάθη στις καταλήξεις των λέξεων.

Η εφαρμογή Dragon Dictation χρησιμοποιείται από τους ιδιοκτήτες, για παράδειγμα, για να υπαγορεύουν μια λίστα αγορών σε ένα κατάστημα ενώ μετακινούνται στο διαμέρισμα. Όταν φτάσω εκεί, μπορώ να κοιτάξω το κείμενο στη σημείωση και δεν χρειάζεται να ακούσω.

Όποιο πρόγραμμα κι αν χρησιμοποιείτε στην πρακτική σας, να είστε έτοιμοι να ελέγξετε ξανά τα αποτελέσματα και να κάνετε ορισμένες προσαρμογές. Αυτός είναι ο μόνος τρόπος για να αποκτήσετε ένα άψογο κείμενο χωρίς σφάλματα.

Επίσης χρήσιμες υπηρεσίες:

Λάβετε τα πιο πρόσφατα άρθρα παιδείας υπολογιστών απευθείας στα εισερχόμενά σας.
Ήδη περισσότερα 3.000 συνδρομητές

Ανάγνωση:

Ανασκόπηση του smartphone Alpha GT από Συσκευασία και παράδοση Highscreen Τι είναι ο SSD και πώς να τον εγκαταστήσω; Πώς να δώσετε έμφαση σε ένα γράμμα στο Word Πώς να μετατρέψετε εικόνες σε μορφή PNG; Τεχνικά προβλήματα και οι λύσεις τους v

Ανάγνωση: