Ενότητες του ιστότοπου
Η επιλογή των συντακτών:
- Πώς να απενεργοποιήσετε το καλύτερο ρωσικό πρόγραμμα αναγνώρισης ομιλίας Αναγνώριση ομιλίας εκτός σύνδεσης
- Πώς να μάθετε το VID, το PID μιας μονάδας flash και σε τι χρησιμεύουν αυτοί οι αριθμοί αναγνώρισης;
- Huawei P8Lite - Προδιαγραφές
- Πώς να ξεκλειδώσετε ένα τηλέφωνο Xiaomi εάν ξεχάσατε τον κωδικό πρόσβασής σας
- Apptools: πώς να κερδίσετε χρήματα παίζοντας
- Lenovo Vibe K5 Plus - Προδιαγραφές Προδιαγραφές ήχου και κάμερας
- Αποφασίσατε να αλλάξετε από Windows σε Mac;
- Πώς να χρησιμοποιήσετε το Google Photos, επισκόπηση των λειτουργιών σύνδεσης φωτογραφιών Google
- Σύστημα πληρωμών Payza (πρώην Alertpay) Είσοδος Payza στον προσωπικό σας λογαριασμό
- Πώς να ανοίξετε το APK και πώς να το επεξεργαστείτε;
Διαφήμιση
Ενημερώθηκε: Δευτέρα, 31 Ιουλίου 2017 Τι σχέση έχει η ημι-φανταστική ιδέα του να μιλάς σε υπολογιστή με την επαγγελματική φωτογραφία; Σχεδόν κανένα, εκτός αν είστε λάτρης της ιδέας της ατέρμονης ανάπτυξης ολόκληρου του τεχνικού περιβάλλοντος του ανθρώπου. Φανταστείτε για μια στιγμή ότι δίνετε φωνητικές εντολές στην κάμερά σας να αλλάξει την εστιακή απόσταση και να κάνει μια διόρθωση έκθεσης μισού στοπ συν. Ο τηλεχειρισμός της κάμερας έχει ήδη εφαρμοστεί, αλλά εκεί πρέπει να πατήσετε σιωπηλά τα κουμπιά, αλλά εδώ είναι μια κάμερα ακοής! Έχει γίνει παράδοση να αναφέρουμε κάποια ταινία επιστημονικής φαντασίας ως παράδειγμα φωνητικής επικοινωνίας μεταξύ ενός ατόμου και ενός υπολογιστή, για παράδειγμα το «2001: A Space Odyssey» σε σκηνοθεσία Stanley Kubrick. Εκεί, ο ενσωματωμένος υπολογιστής όχι μόνο διεξάγει έναν ουσιαστικό διάλογο με τους αστροναύτες, αλλά μπορεί να διαβάσει τα χείλη σαν κωφός. Με άλλα λόγια, το μηχάνημα έχει μάθει να αναγνωρίζει την ανθρώπινη ομιλία χωρίς λάθη. Ίσως ο απομακρυσμένος φωνητικός έλεγχος της κάμερας να φαίνεται περιττός σε κάποιους, αλλά πολλοί θα ήθελαν αυτή τη φράση «Κάτω μας, μωρό μου»και η φωτογραφία όλης της οικογένειας με φόντο έναν φοίνικα είναι έτοιμη. Λοιπόν, απέδωσα φόρο τιμής στην παράδοση και ονειρευόμουν λίγο. Αλλά, μιλώντας από καρδιάς, αυτό το άρθρο ήταν δύσκολο να γραφτεί και όλα ξεκίνησαν με ένα δώρο με τη μορφή ενός smartphone με λειτουργικό σύστημα Android 4. Αυτό το μοντέλο HUAWEI U8815 διαθέτει μια μικρή οθόνη αφής τεσσάρων ιντσών και ένα πληκτρολόγιο οθόνης. Είναι λίγο ασυνήθιστο να το πληκτρολογείτε, αλλά αποδεικνύεται ότι δεν είναι ιδιαίτερα απαραίτητο. (εικόνα 01) 1. Αναγνώριση φωνής σε smartphone με λειτουργικό AndroidΕνώ δοκίμασα ένα νέο παιχνίδι, παρατήρησα ένα γραφικό ενός μικροφώνου στη γραμμή αναζήτησης Googleκαι στο πληκτρολόγιο στις Σημειώσεις. Προηγουμένως, δεν με ενδιέφερε τι σήμαινε αυτό το σύμβολο. Είχα συζητήσεις μέσα Skypeκαι πληκτρολογήστε γράμματα στο πληκτρολόγιο. Αυτό κάνουν οι περισσότεροι χρήστες του Διαδικτύου. Αλλά όπως μου εξήγησαν αργότερα, στη μηχανή αναζήτησης GoogleΠροστέθηκε φωνητική αναζήτηση στα ρωσικά και εμφανίστηκαν προγράμματα που σας επιτρέπουν να υπαγορεύετε σύντομα μηνύματα όταν χρησιμοποιείτε ένα πρόγραμμα περιήγησης "Χρώμιο".
Δεν ήταν για μένα ανακάλυψη ότι οι σύγχρονες εξελίξεις στον τομέα του φωνητικού ελέγχου καθιστούν δυνατή την παροχή εντολών σε οικιακές συσκευές, αυτοκίνητα και ρομπότ. Η λειτουργία Command εισήχθη σε προηγούμενες εκδόσεις των Windows, OS/2 και Mac OS. Έχω συναντήσει προγράμματα ομιλίας, αλλά σε τι χρησιμεύουν; Ίσως είναι η ιδιαιτερότητά μου ότι μου είναι πιο εύκολο να μιλήσω παρά να πληκτρολογήσω στο πληκτρολόγιο, αλλά στο κινητό δεν μπορώ να πληκτρολογήσω απολύτως τίποτα. Πρέπει να γράψετε επαφές σε φορητό υπολογιστή με κανονικό πληκτρολόγιο και να τις μεταφέρετε μέσω καλωδίου USB. Αλλά το να μιλήσω απλώς σε ένα μικρόφωνο και να γράψω τον υπολογιστή το ίδιο το κείμενο χωρίς λάθη ήταν ένα όνειρο για μένα. Η ατμόσφαιρα της απελπισίας διατηρήθηκε από τις συζητήσεις στα φόρουμ. Παντού υπήρχε μια τόσο θλιβερή σκέψη:
Ταυτόχρονα, οι αξιολογήσεις των αγγλόφωνων προγραμμάτων εισαγωγής φωνητικού κειμένου έδειξαν σαφείς επιτυχίες. Για παράδειγμα, IBM ViaVoice 98 Executive Editionείχε ένα βασικό λεξιλόγιο 64.000 λέξεων και τη δυνατότητα να προσθέσετε τον ίδιο αριθμό δικών σας λέξεων. Το ποσοστό αναγνώρισης λέξεων χωρίς εκπαίδευση του προγράμματος ήταν περίπου 80% και κατά τη διάρκεια της επόμενης εργασίας με συγκεκριμένο χρήστη έφτασε το 95%. Μεταξύ των προγραμμάτων αναγνώρισης ρωσικής γλώσσας, αξίζει να σημειωθεί το "Gorynych" - μια προσθήκη στο αγγλόφωνο Dragon Dictate 2.5. Θα σας πω για την αναζήτηση και στη συνέχεια τη «μάχη με τους πέντε Gorynychs» στο δεύτερο μέρος της κριτικής. Το πρώτο που βρήκα ήταν το «English Dragon». 3. Πρόγραμμα συνεχούς αναγνώρισης ομιλίας «Dragon Naturally Speaking»Σύγχρονη έκδοση του προγράμματος της εταιρείας "Απόχρωση"κατέληξα σε έναν παλιό μου φίλο από το Ινστιτούτο Ξένων Γλωσσών του Μινσκ. Το έφερε πίσω από ένα ταξίδι στο εξωτερικό και το αγόρασε νομίζοντας ότι θα μπορούσε να είναι «γραμματέας υπολογιστή». Αλλά κάτι δεν λειτούργησε και το πρόγραμμα παρέμεινε στο φορητό υπολογιστή, σχεδόν ξεχασμένο. Λόγω της έλλειψης οποιασδήποτε ξεκάθαρης εμπειρίας, έπρεπε να πάω ο ίδιος στον φίλο μου. Όλη αυτή η μακροσκελής εισαγωγή είναι απαραίτητη για τη σωστή κατανόηση των συμπερασμάτων που έχω βγάλει. Το πλήρες όνομα του πρώτου μου δράκου ήταν: . Το πρόγραμμα είναι στα αγγλικά και όλα σε αυτό είναι ξεκάθαρα ακόμα και χωρίς εγχειρίδιο. Το πρώτο βήμα είναι να δημιουργήσετε ένα προφίλ ενός συγκεκριμένου χρήστη για να καθορίσετε τα ηχητικά χαρακτηριστικά των λέξεων στην απόδοσή του. Αυτό έκανα - η ηλικία, η χώρα και τα χαρακτηριστικά προφοράς του ομιλητή είναι σημαντικά. Η επιλογή μου είναι η εξής: ηλικία 22–54 ετών, Αγγλικά ΗΒ, τυπική προφορά. Στη συνέχεια υπάρχουν πολλά παράθυρα όπου διαμορφώνετε το μικρόφωνό σας. (εικόνα 04)
Η ουσία αυτού του σταδίου εργασίας με το πρόγραμμα είναι εξαιρετικά απλή - το κείμενο εμφανίζεται στο παράθυρο, με ένα κίτρινο βέλος πάνω από αυτό. Όταν προφέρεται σωστά, το βέλος κινείται μέσα στις φράσεις και στο κάτω μέρος υπάρχει μια γραμμή προόδου προπόνησης. Είχα ξεχάσει σχεδόν τα Αγγλικά μου για τη συνομιλία, οπότε έκανα πρόοδο με δυσκολία. Ο χρόνος ήταν επίσης περιορισμένος - ο υπολογιστής δεν ήταν δικός μου και έπρεπε να διακόψω την εκπαίδευση. Αλλά μια φίλη είπε ότι έκανε το τεστ σε λιγότερο από μισή ώρα. (εικόνα 05)
Αλλά ήταν σημαντικό για μένα πώς γράφει αυτός ο «δράκος» στα ρωσικά. Όπως καταλάβατε από την προηγούμενη περιγραφή, κατά την εκπαίδευση του προγράμματος, μπορείτε να επιλέξετε μόνο αγγλικό κείμενο, απλά δεν υπάρχει ρωσική γλώσσα. Είναι σαφές ότι δεν θα είναι δυνατή η εκπαίδευση της ρωσικής αναγνώρισης ομιλίας. Στην επόμενη φωτογραφία μπορείτε να δείτε ποια φράση πληκτρολόγησε το πρόγραμμα κατά την προφορά της ρωσικής λέξης "Hello". (εικόνα 06)
Υπάρχει όμως και χρήσιμη εμπειρία. Μια φίλη μου ζήτησε να δει την κατάσταση του laptop της. Κάπως αργά άρχισε να δουλεύει. Αυτό δεν προκαλεί έκπληξη - το διαμέρισμα συστήματος είχε μόνο 5% ελεύθερο χώρο. Κατά τη διαγραφή περιττών προγραμμάτων, είδα ότι η επίσημη έκδοση καταλάμβανε περισσότερα από 2,3 GB. Αυτό το σχήμα θα μας φανεί χρήσιμο αργότερα. (εικόνα.07) Η αναγνώριση της ρωσικής ομιλίας, όπως αποδείχθηκε, ήταν ένα μη τετριμμένο έργο. Στο Μινσκ κατάφερα να βρω το "Gorynych" από έναν φίλο. Έψαχνε για αρκετή ώρα τον δίσκο στα παλιά του μπάζα και, σύμφωνα με τον ίδιο, αυτή είναι η επίσημη δημοσίευση. Το πρόγραμμα εγκαταστάθηκε αμέσως και ανακάλυψα ότι το λεξικό του περιέχει 5.000 ρωσικές λέξεις συν 100 εντολές και 600 αγγλικές λέξεις συν 31 εντολές. Πρώτα πρέπει να ρυθμίσετε το μικρόφωνο, κάτι που έκανα. Μετά άνοιξα το λεξικό και πρόσθεσα τη λέξη "εξέταση"γιατί δεν υπήρχε στο λεξικό του προγράμματος. Προσπάθησα να μιλήσω καθαρά και μονότονα. Τέλος, άνοιξα το πρόγραμμα Gorynych Pro 3.0, ενεργοποίησα τη λειτουργία υπαγόρευσης και έλαβα αυτή τη λίστα με «λέξεις που ακούγονται στενά». (εικόνα.09)
5. Οι δυνατότητες φωνής της GoogleΓια να εργαστείτε με φωνή σε έναν κανονικό υπολογιστή με Windows, θα χρειαστεί να εγκαταστήσετε ένα πρόγραμμα περιήγησης Google Chrome. Εάν το χρησιμοποιείτε στο διαδίκτυο, μπορείτε να κάνετε κλικ στον σύνδεσμο αποθήκευσης λογισμικού κάτω δεξιά. Εκεί, εντελώς δωρεάν, βρήκα δύο προγράμματα και δύο επεκτάσεις για φωνητική εισαγωγή κειμένου. Τα προγράμματα καλούνται "Φωνητικό σημειωματάριο"Και "Voicenot - φωνή σε κείμενο". Μετά την εγκατάσταση, μπορούν να βρεθούν στην καρτέλα "Εφαρμογές"το πρόγραμμα περιήγησής σας "Χρώμιο". (εικόνα. 10)
6. Αποτελέσματα εργασίας με ρωσικά προγράμματα αναγνώρισης ομιλίαςΜια μικρή εμπειρία στη χρήση προγραμμάτων φωνητικής εισαγωγής κειμένου έχει δείξει εξαιρετική εφαρμογή αυτής της δυνατότητας στους διακομιστές μιας εταιρείας Διαδικτύου Google. Χωρίς καμία προκαταρκτική εκπαίδευση, οι λέξεις αναγνωρίζονται σωστά. Αυτό δείχνει ότι το πρόβλημα της αναγνώρισης της ρωσικής ομιλίας έχει λυθεί. Τώρα μπορούμε να πούμε ότι το αποτέλεσμα των εξελίξεων Googleθα είναι ένα νέο κριτήριο για την αξιολόγηση προϊόντων άλλων κατασκευαστών. Θα ήθελα το σύστημα αναγνώρισης να λειτουργεί εκτός σύνδεσης χωρίς πρόσβαση στους διακομιστές της εταιρείας - είναι πιο βολικό και πιο γρήγορο. Αλλά είναι άγνωστο πότε θα κυκλοφορήσει ένα ανεξάρτητο πρόγραμμα για εργασία με συνεχή ροή ρωσικής ομιλίας. Αξίζει, ωστόσο, να υποθέσουμε ότι με την ευκαιρία να προπονηθείτε, αυτή η «δημιουργία» θα γίνει μια πραγματική σημαντική ανακάλυψη. Προγράμματα Ρώσων προγραμματιστών "Gorynych", "Δικτογράφος"Και "Μάχη"Θα μπω σε λεπτομέρειες στο δεύτερο μέρος αυτής της κριτικής. Αυτό το άρθρο γράφτηκε πολύ αργά για το λόγο ότι η αναζήτηση για αρχικούς δίσκους είναι πλέον δύσκολη. Αυτή τη στιγμή, έχω ήδη όλες τις εκδόσεις των ρωσικών μηχανών αναγνώρισης φωνής σε κείμενο εκτός από το "Combat 2.52". Κανένας από τους φίλους ή τους συναδέλφους μου δεν έχει αυτό το πρόγραμμα και εγώ ο ίδιος έχω μόνο μερικές επαινετικές κριτικές στα φόρουμ. Είναι αλήθεια ότι υπήρχε μια τόσο περίεργη επιλογή - κατεβάστε το "Combat" μέσω SMS, αλλά δεν μου αρέσει. (εικόνα 16)
Αυτό το τηλέφωνο έχει αναγνώρισης ομιλίαςή φωνητική είσοδο, αλλά λειτουργεί μόνο μέσω Διαδικτύου, συνδέοντας τις υπηρεσίες της Google. Αλλά ένα τηλέφωνο μπορεί να διδαχθεί να αναγνωρίζει ομιλία χωρίς το Διαδίκτυο, θα δούμε πώς να ενεργοποιήσουμε την αναγνώριση ρωσικής γλώσσας στο εκτός σύνδεσης. Για να λειτουργήσει αυτή η μέθοδος, πρέπει να έχετε εγκαταστήσει δύο εφαρμογές Φωνητική αναζήτησηΚαι Αναζήτηση Google, αν και αυτά τα προγράμματα υπάρχουν ήδη στο εργοστασιακό υλικολογισμικό. Για υλικολογισμικόΜεταβείτε στις ρυθμίσεις του τηλεφώνου σας και επιλέξτε Επιλέξτε Ρωσική γλώσσα και κατεβάστε την. Για υλικολογισμικό 2.8BΣτο νέο υλικολογισμικό το στοιχείο μενού " Αναγνώριση ομιλίας εκτός σύνδεσης"απουσία. Εάν είχατε εγκαταστήσει πακέτα εκτός σύνδεσης πριν από την ενημέρωση υλικολογισμικού και δεν σβήσατε (επαναφέρατε τις ρυθμίσεις) κατά την ενημέρωση, τότε θα έπρεπε να έχουν διατηρηθεί. Διαφορετικά, θα πρέπει να επιστρέψετε στο υλικολογισμικό 2.2 , εγκαταστήστε πακέτα φωνής και μόνο στη συνέχεια ενημερώστε το σύστημα σε 2,8Β. Για συσκευές Rev.BΕγκαθιστούμε την ενημέρωση μέσω ανάκτησης και απολαμβάνουμε αναγνώριση φωνής σε oyline. 2. Κατεβάστε τη βάση δεδομένων για τη ρωσική ομιλία και αντιγράψτε την στην κάρτα SD Λήψη Russian_offline.zip 1301 3. Εισαγάγετε την ανάκτηση κρατώντας πατημένο το (Volume + και On) με το τηλέφωνο απενεργοποιημένο. 4. Επιλέξτε Εφαρμόστε την ενημέρωση από μέσα εξωτερικής αποθήκευσηςκαι επιλέξτε το αρχείο λήψης. ) χρησιμοποιώντας ένα πραγματικό παράδειγμα Hello World ελέγχου οικιακών συσκευών. Γιατί ξαφνικά;Έχοντας συναντήσει πρόσφατα αυτό, ρώτησα τον συγγραφέα γιατί ήθελε να χρησιμοποιήσει την αναγνώριση ομιλίας που βασίζεται σε διακομιστή για το πρόγραμμά του (κατά τη γνώμη μου, αυτό ήταν περιττό και οδήγησε σε κάποια προβλήματα). Για το σκοπό αυτό, θα μπορούσα να περιγράψω λεπτομερέστερα τη χρήση εναλλακτικών μεθόδων για έργα όπου δεν χρειάζεται να αναγνωριστεί τίποτα και το λεξικό αποτελείται από ένα πεπερασμένο σύνολο λέξεων. Και μάλιστα με ένα παράδειγμα πρακτικής εφαρμογής...Γιατί χρειαζόμαστε οτιδήποτε άλλο εκτός από το Yandex και το Google;Για αυτήν την πολύ «πρακτική εφαρμογή» επέλεξα το θέμα φωνητικός έλεγχος για έξυπνο σπίτι.Γιατί ακριβώς αυτό το παράδειγμα; Επειδή δείχνει πολλά πλεονεκτήματα της εντελώς τοπικής αναγνώρισης ομιλίας έναντι της αναγνώρισης χρησιμοποιώντας λύσεις cloud. Και συγκεκριμένα:
Σημείωση Επιτρέψτε μου να κάνω μια κράτηση αμέσως ότι αυτά τα πλεονεκτήματα μπορούν να θεωρηθούν πλεονεκτήματα μόνο για μια συγκεκριμένη κατηγορία έργων, Που είμαστε ξέρουμε σίγουρα εκ των προτέρων, με ποιο λεξικό και ποια γραμματική θα λειτουργήσει ο χρήστης. Όταν δηλαδή δεν χρειάζεται να αναγνωρίσουμε αυθαίρετο κείμενο (για παράδειγμα, ένα μήνυμα SMS ή ένα ερώτημα αναζήτησης). Διαφορετικά, η αναγνώριση cloud είναι απαραίτητη. Έτσι, το Android μπορεί να αναγνωρίσει την ομιλία χωρίς Διαδίκτυο!Ναι, ναι... Μόνο στο JellyBean. Και μόνο από μισό μέτρο, όχι παραπάνω. Και αυτή η αναγνώριση είναι η ίδια υπαγόρευση, χρησιμοποιώντας μόνο ένα πολύ μικρότερο μοντέλο. Επομένως, δεν μπορούμε να το διαχειριστούμε ή να το διαμορφώσουμε. Και τι θα μας επιστρέψει την επόμενη φορά είναι άγνωστο. Αν και είναι κατάλληλο για SMS!Τι κάνουμε;Θα εφαρμόσουμε ένα φωνητικό τηλεχειριστήριο για οικιακές συσκευές, το οποίο θα λειτουργεί με ακρίβεια και ταχύτητα, από λίγα μέτρα ακόμα και σε φθηνά, άθλια, πολύ φθηνά smartphone Android, tablet και ρολόγια. Οι πρακτικές εφαρμογές αφθονούν Το πρωί, χωρίς να ανοίξεις τα μάτια σου, χτύπησες την παλάμη σου στην οθόνη του smartphone στο κομοδίνο και έδωσες εντολή «Καλημέρα!» - το σενάριο ξεκινά, η καφετιέρα ανάβει και βουίζει, ακούγεται ευχάριστη μουσική, οι κουρτίνες ανοίγουν. ΜεταγραφέςΗ γραμματική περιγράφει τι τι μπορεί να πει ο χρήστης. Για να ξέρει ο Pocketsphinx, Πωςθα το προφέρει, είναι απαραίτητο κάθε λέξη από τη γραμματική να γράφει πώς ακούγεται στο αντίστοιχο γλωσσικό μοντέλο. Αυτό είναι μεταγραφήκάθε λέξη. Ονομάζεται λεξικό. Οι μεταγραφές περιγράφονται χρησιμοποιώντας μια ειδική σύνταξη. Για παράδειγμα: Κατ 'αρχήν, τίποτα περίπλοκο. Ένα διπλό φωνήεν στη μεταγραφή υποδηλώνει τονισμό. Ένα διπλό σύμφωνο είναι ένα μαλακό σύμφωνο που ακολουθείται από ένα φωνήεν. Όλοι οι δυνατοί συνδυασμοί για όλους τους ήχους της ρωσικής γλώσσας. Είναι σαφές ότι δεν μπορούμε να περιγράψουμε εκ των προτέρων όλες τις μεταγραφές στην εφαρμογή μας, γιατί δεν γνωρίζουμε εκ των προτέρων τα ονόματα που θα δώσει ο χρήστης στις συσκευές του. Επομένως, θα δημιουργήσουμε τέτοιες μεταγραφές "εν πτήσει" σύμφωνα με ορισμένους κανόνες της ρωσικής φωνητικής. Για να το κάνετε αυτό, μπορείτε να εφαρμόσετε την ακόλουθη κλάση PhonMapper, η οποία μπορεί να λάβει μια συμβολοσειρά ως είσοδο και να δημιουργήσει τη σωστή μεταγραφή για αυτήν. Ενεργοποίηση φωνήςΑυτή είναι η ικανότητα της μηχανής αναγνώρισης ομιλίας να «ακούει την εκπομπή» όλη την ώρα για να αντιδρά σε μια προκαθορισμένη φράση (ή φράσεις). Ταυτόχρονα, όλοι οι άλλοι ήχοι και ομιλία θα απορριφθούν. Αυτό δεν είναι το ίδιο με το να περιγράφεις τη γραμματική και να ανοίγεις απλώς το μικρόφωνο. Δεν θα παρουσιάσω εδώ τη θεωρία αυτής της εργασίας και τη μηχανική του πώς λειτουργεί. Επιτρέψτε μου απλώς να πω ότι πρόσφατα οι προγραμματιστές που εργάζονταν στο Pocketsphinx εφάρμοσαν μια τέτοια λειτουργία και τώρα είναι διαθέσιμη εκτός συσκευασίας στο API.Ένα πράγμα σίγουρα αξίζει να αναφέρουμε. Για μια φράση ενεργοποίησης, δεν χρειάζεται μόνο να καθορίσετε τη μεταγραφή, αλλά και να επιλέξετε την κατάλληλη τιμή κατωφλίου ευαισθησίας. Μια τιμή που είναι πολύ μικρή θα οδηγήσει σε πολλά ψευδώς θετικά (αυτό συμβαίνει όταν δεν είπατε τη φράση ενεργοποίησης, αλλά το σύστημα την αναγνωρίζει). Και πολύ υψηλό - στην ανοσία. Επομένως, αυτή η ρύθμιση έχει ιδιαίτερη σημασία. Κατά προσέγγιση εύρος τιμών - από 1e-1 έως 1e-40 ανάλογα με τη φράση ενεργοποίησης. Ενεργοποίηση αισθητήρα εγγύτητας Αυτή η εργασία είναι συγκεκριμένη για το έργο μας και δεν σχετίζεται άμεσα με την αναγνώριση. Ο κώδικας μπορεί να φανεί απευθείας στην κύρια δραστηριότητα. Ας ξεκινήσουμε την αναγνώρισηΤο Pocketsphinx παρέχει ένα βολικό API για τη διαμόρφωση και την εκτέλεση της διαδικασίας αναγνώρισης. Αυτές είναι οι τάξεις SpechRecognizerΚαι SpeechRecognizerSetup.Έτσι φαίνεται η διαμόρφωση και η εκκίνηση της αναγνώρισης: PhonMapper phonMapper = νέο PhonMapper(getAssets().open("dict/ru/hotwords")); Γραμματική γραμματική = νέα Γραμματική (ονόματα, phonMapper); grammar.addWords(hotword); DataFiles dataFiles = νέα DataFiles(getPackageName(), "ru"); Αρχείο hmmDir = νέο Αρχείο(dataFiles.getHmm()); Αρχείο dict = νέο Αρχείο(dataFiles.getDict()); Αρχείο jsgf = νέο Αρχείο(dataFiles.getJsgf()); copyAssets(hmmDir); saveFile(jsgf, grammar.getJsgf()); saveFile(dict, grammar.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(hmmDir) .setDictionary(dict) .setBoolean("-remove_noise", false) .setKeywordThreshold(1e-7f) .getRecognizer(); mRecognizer.addKeyphraseSearch(KWS_SEARCH, hotword); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf); Εδώ αντιγράφουμε πρώτα όλα τα απαραίτητα αρχεία στο δίσκο (το Pocketpshinx απαιτεί ακουστικό μοντέλο, γραμματική και λεξικό με μεταγραφές για να υπάρχουν στο δίσκο). Στη συνέχεια διαμορφώνεται η ίδια η μηχανή αναγνώρισης. Υποδεικνύονται οι διαδρομές προς το μοντέλο και τα αρχεία λεξικού, καθώς και ορισμένες παράμετροι (όριο ευαισθησίας για τη φράση ενεργοποίησης). Στη συνέχεια, διαμορφώνεται η διαδρομή προς το αρχείο με τη γραμματική, καθώς και η φράση ενεργοποίησης. Όπως μπορείτε να δείτε από αυτόν τον κώδικα, ένας κινητήρας έχει ρυθμιστεί τόσο για γραμματική όσο και για αναγνώριση φράσεων ενεργοποίησης. Γιατί γίνεται αυτό; Για να μπορούμε να εναλλάσσουμε γρήγορα αυτά που πρέπει να αναγνωρίσουμε αυτήν τη στιγμή. Έτσι μοιάζει με την έναρξη της διαδικασίας αναγνώρισης φράσεων ενεργοποίησης: MRecognizer.startLstening(KWS_SEARCH); MRecognizer.startLstening(COMMAND_SEARCH, 3000); Πώς να λάβετε το αποτέλεσμα αναγνώρισηςΓια να λάβετε το αποτέλεσμα αναγνώρισης, πρέπει επίσης να καθορίσετε ένα πρόγραμμα ακρόασης συμβάντων που υλοποιεί τη διεπαφή RecognitionListener.Έχει πολλές μεθόδους που καλούνται από pocketsphinx όταν συμβαίνει ένα από τα γεγονότα:
Εφαρμόζοντας τις μεθόδους onPartialResult και onResult με τον ένα ή τον άλλο τρόπο, μπορείτε να αλλάξετε τη λογική αναγνώρισης και να λάβετε το τελικό αποτέλεσμα. Δείτε πώς γίνεται στην περίπτωση της εφαρμογής μας: @Override δημόσιο κενό onEndOfSpeech() ( Log.d(TAG, "onEndOfSpeech"); if (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) ( mRecognizer.stop(); ) ) @Override public void ( if (hypothesis == null) επιστροφή; String text = hypothesis.getHypstr(); if (KWS_SEARCH.equals(mRecognizer.getSearchName())) (startRecognition(); ) else (Log.d(TAG, text); ) ) @Override public void onResult(Υπόθεση Υπόθεσης) ( mMicView.setBackgroundResource(R.drawable.background_big_mic); mHandler.removeCallbacks(mStopRecognitionCallback); Κείμενο συμβολοσειράς = υπόθεση != null ? hypothesis. , "onResult " + text if (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) ( if (text != null) ( Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); process(text) ) mRecognizer.startLstening(KWS_SEARCH); Όταν λάβουμε το συμβάν onEndOfSpeech, και εάν ταυτόχρονα αναγνωρίσουμε την εντολή που πρέπει να εκτελεστεί, τότε πρέπει να σταματήσουμε την αναγνώριση, μετά την οποία θα κληθεί αμέσως το onResult. Ιδιωτικό συγχρονισμένο κενό startRecognition() ( if (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) επιστρέφει; mRecognizer.cancel(); νέο ToneGenerator(AudioManager.STREAMneGeneratoronest.MEX). TONE_CDMA_PIP, 200); post(400, new Runnable() ( @Override public void run() ( mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startLstening(COMMAND_SEARCH, LoListend0); εντολές"); post(4000, mStopRecognitionCallback); ) )); ) Πώς να μετατρέψετε αναγνωρισμένη συμβολοσειρά σε εντολέςΛοιπόν, όλα εδώ είναι συγκεκριμένα για μια συγκεκριμένη εφαρμογή. Στην περίπτωση του γυμνού παραδείγματος, απλώς βγάζουμε τα ονόματα συσκευών από τη γραμμή, αναζητούμε την επιθυμητή συσκευή και είτε αλλάζουμε την κατάστασή της χρησιμοποιώντας ένα αίτημα HTTP στον ελεγκτή έξυπνου σπιτιού ή αναφέρουμε την τρέχουσα κατάστασή της (όπως στην περίπτωση του έναν θερμοστάτη). Αυτή η λογική μπορεί να φανεί στην κλάση Controller.Πώς να συνθέσετε την ομιλίαΗ σύνθεση του λόγου είναι η αντίστροφη λειτουργία της αναγνώρισης. Εδώ συμβαίνει το αντίστροφο - πρέπει να μετατρέψετε μια γραμμή κειμένου σε ομιλία, ώστε ο χρήστης να μπορεί να την ακούσει.Στην περίπτωση του θερμοστάτη, πρέπει να κάνουμε τη συσκευή μας Android να λέει την τρέχουσα θερμοκρασία. Χρησιμοποιώντας το API Κείμενο σε ομιλίααυτό είναι πολύ εύκολο να γίνει (ευχαριστώ την Google για το υπέροχο γυναικείο TTS για τη ρωσική γλώσσα): Ιδιωτικό void speak(Κείμενο συμβολοσειράς) ( συγχρονισμένο (mSpeechQueue) (mRecognizer.stop(); mSpeechQueue.add(text); HashMap Μάλλον θα πω κάτι μπανάλ, αλλά πριν από τη διαδικασία σύνθεσης, είναι απαραίτητο να απενεργοποιήσετε την αναγνώριση. Σε ορισμένες συσκευές (για παράδειγμα, όλες οι συσκευές Samsung) είναι γενικά αδύνατο να ακούσετε το μικρόφωνο και να συνθέσετε κάτι ταυτόχρονα. Ιδιωτικό τελικό TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = νέο TextToSpeech.OnUtteranceCompletedListener() ( @Override public void onUtteranceCompleted(String utteranceId) (συγχρονισμένο (mSpeechQueech.Speech Empty()) ( mRecognizer.startListening ( KWS_SEARCH) ) ) ) ); Σε αυτό, απλώς ελέγχουμε αν υπάρχει κάτι άλλο στην ουρά σύνθεσης και ενεργοποιούμε την αναγνώριση φράσης ενεργοποίησης εάν δεν υπάρχει τίποτα άλλο. Και είναι όλα;Ναί! Όπως μπορείτε να δείτε, η γρήγορη και αποτελεσματική αναγνώριση ομιλίας απευθείας στη συσκευή δεν είναι καθόλου δύσκολη, χάρη στην παρουσία τέτοιων υπέροχων έργων όπως το Pocketsphinx. Παρέχει ένα πολύ βολικό API που μπορεί να χρησιμοποιηθεί για την επίλυση προβλημάτων που σχετίζονται με την αναγνώριση φωνητικών εντολών.Σε αυτό το παράδειγμα, έχουμε συνδέσει την αναγνώριση σε μια εντελώς συγκεκριμένη εργασία - φωνητικός έλεγχος έξυπνων οικιακών συσκευών. Λόγω της τοπικής αναγνώρισης, πετύχαμε πολύ υψηλή ταχύτητα και ελαχιστοποιήσαμε τα σφάλματα. Κανένα πρόγραμμα δεν μπορεί να αντικαταστήσει πλήρως τη χειρωνακτική εργασία της μεταγραφής ηχογραφημένης ομιλίας. Ωστόσο, υπάρχουν λύσεις που μπορούν να επιταχύνουν και να διευκολύνουν σημαντικά τη μετάφραση του λόγου σε κείμενο, δηλαδή να απλοποιήσουν τη μεταγραφή. Η μεταγραφή είναι η εγγραφή ενός αρχείου ήχου ή βίντεο σε μορφή κειμένου. Υπάρχουν πληρωμένες εργασίες στο Διαδίκτυο, όταν ο ερμηνευτής πληρώνεται ένα συγκεκριμένο χρηματικό ποσό για τη μεταγραφή του κειμένου. Η μετάφραση ομιλίας σε κείμενο είναι χρήσιμη
Θα περιγράψουμε τα πιο αποτελεσματικά εργαλεία που είναι διαθέσιμα σε υπολογιστές, εφαρμογές για κινητά και διαδικτυακές υπηρεσίες. 1 Ιστότοπος speakpad.ruΑυτή είναι μια διαδικτυακή υπηρεσία που σας επιτρέπει να μεταφράζετε ομιλία σε κείμενο χρησιμοποιώντας το πρόγραμμα περιήγησης Google Chrome. Η υπηρεσία λειτουργεί με μικρόφωνο και έτοιμα αρχεία. Φυσικά, η ποιότητα θα είναι πολύ υψηλότερη αν χρησιμοποιήσετε εξωτερικό μικρόφωνο και υπαγορεύσετε τον εαυτό σας. Ωστόσο, η υπηρεσία κάνει καλή δουλειά ακόμη και με βίντεο YouTube. Κάντε κλικ στην «Ενεργοποίηση εγγραφής», απαντήστε στην ερώτηση σχετικά με τη «Χρήση μικροφώνου» - για να το κάνετε αυτό, κάντε κλικ στο «Να επιτρέπεται». Οι μεγάλες οδηγίες σχετικά με τη χρήση της υπηρεσίας μπορούν να συμπτυχθούν κάνοντας κλικ στο κουμπί 1 στην Εικ. 3. Μπορείτε να απαλλαγείτε από τη διαφήμιση ολοκληρώνοντας μια απλή εγγραφή. Ρύζι. 3. Υπηρεσία Speechpad Το τελικό αποτέλεσμα είναι εύκολο να επεξεργαστείτε. Για να το κάνετε αυτό, πρέπει είτε να διορθώσετε με μη αυτόματο τρόπο την επισημασμένη λέξη είτε να την υπαγορεύσετε ξανά. Τα αποτελέσματα της εργασίας αποθηκεύονται στον προσωπικό σας λογαριασμό, μπορείτε επίσης να τα κατεβάσετε στον υπολογιστή σας. Λίστα μαθημάτων βίντεο σχετικά με την εργασία με το speakpad: Μπορείτε να μεταγράψετε βίντεο από το Youtube ή από τον υπολογιστή σας, ωστόσο, θα χρειαστείτε ένα μίκτη, περισσότερες λεπτομέρειες: Βίντεο "ηχητική μεταγραφή"
Η υπηρεσία λειτουργεί σε επτά γλώσσες. Υπάρχει ένα μικρό μείον. Βρίσκεται στο γεγονός ότι εάν χρειαστεί να μεταγράψετε ένα τελικό αρχείο ήχου, τότε ο ήχος του ακούγεται μέσω των ηχείων, γεγονός που δημιουργεί πρόσθετες παρεμβολές με τη μορφή ηχούς. 2 Υπαγόρευση υπηρεσίας.ioΜια υπέροχη διαδικτυακή υπηρεσία που σας επιτρέπει να μεταφράζετε την ομιλία σε κείμενο δωρεάν και εύκολα. Ρύζι. 4. Υπαγόρευση υπηρεσίας.io 1 στο Σχ. 4 – Η ρωσική γλώσσα μπορεί να επιλεγεί στο τέλος της σελίδας. Στο πρόγραμμα περιήγησης Google Chrome, η γλώσσα είναι επιλεγμένη, αλλά για κάποιο λόγο στο Mozilla δεν υπάρχει τέτοια επιλογή. Αξίζει να σημειωθεί ότι έχει εφαρμοστεί η δυνατότητα αυτόματης αποθήκευσης του τελικού αποτελέσματος. Αυτό θα αποτρέψει την τυχαία διαγραφή ως αποτέλεσμα του κλεισίματος μιας καρτέλας ή ενός προγράμματος περιήγησης. Αυτή η υπηρεσία δεν αναγνωρίζει ολοκληρωμένα αρχεία. Λειτουργεί με μικρόφωνο. Πρέπει να ονομάσετε σημεία στίξης όταν υπαγορεύετε. Το κείμενο αναγνωρίζεται αρκετά σωστά, δεν υπάρχουν ορθογραφικά λάθη. Μπορείτε να εισάγετε μόνοι σας σημεία στίξης από το πληκτρολόγιο. Το τελικό αποτέλεσμα μπορεί να αποθηκευτεί στον υπολογιστή σας. 3 RealSpeakerΑυτό το πρόγραμμα σάς επιτρέπει να μεταφράζετε εύκολα την ανθρώπινη ομιλία σε κείμενο. Έχει σχεδιαστεί για να λειτουργεί σε διαφορετικά συστήματα: Windows, Android, Linux, Mac. Με τη βοήθειά του, μπορείτε να μετατρέψετε την ομιλία που ακούγεται σε μικρόφωνο (για παράδειγμα, μπορεί να ενσωματωθεί σε φορητό υπολογιστή), καθώς και να εγγραφεί σε αρχεία ήχου. Μπορεί να καταλάβει 13 γλώσσες του κόσμου. Υπάρχει μια έκδοση beta του προγράμματος που λειτουργεί ως διαδικτυακή υπηρεσία: Πρέπει να ακολουθήσετε τον παραπάνω σύνδεσμο, να επιλέξετε τη ρωσική γλώσσα, να ανεβάσετε το αρχείο ήχου ή βίντεο στην ηλεκτρονική υπηρεσία και να πληρώσετε για τη μεταγραφή του. Μετά τη μεταγραφή, μπορείτε να αντιγράψετε το κείμενο που προκύπτει. Όσο μεγαλύτερο είναι το αρχείο για μεταγραφή, τόσο περισσότερος χρόνος θα χρειαστεί για την επεξεργασία του, περισσότερες λεπτομέρειες:
Το 2017 υπήρχε μια δωρεάν επιλογή μεταγραφής χρησιμοποιώντας το RealSpeaker, αλλά το 2018 δεν υπάρχει τέτοια επιλογή. Είναι πολύ μπερδεμένο το γεγονός ότι το μεταγραμμένο αρχείο είναι διαθέσιμο σε όλους τους χρήστες για λήψη, ίσως αυτό να βελτιωθεί. Οι επαφές του προγραμματιστή (VKontakte, Facebook, Youtube, Twitter, email, τηλέφωνο) του προγράμματος βρίσκονται στη σελίδα του ιστότοπού του (ακριβέστερα, στο υποσέλιδο του ιστότοπου): 4 SpeechloggerΜια εναλλακτική σε σχέση με την προηγούμενη εφαρμογή για κινητές συσκευές που εκτελούνται σε Android. Διατίθεται δωρεάν στο app store: Το κείμενο επεξεργάζεται αυτόματα και προστίθενται σημεία στίξης. Πολύ βολικό για να υπαγορεύετε σημειώσεις στον εαυτό σας ή να κάνετε λίστες. Ως αποτέλεσμα, το κείμενο θα είναι πολύ αξιοπρεπούς ποιότητας. 5 Υπαγόρευση του ΔράκουΠρόκειται για μια εφαρμογή που διανέμεται δωρεάν για φορητές συσκευές από την Apple. Το πρόγραμμα μπορεί να λειτουργήσει με 15 γλώσσες. Σας επιτρέπει να επεξεργαστείτε το αποτέλεσμα και να επιλέξετε τις επιθυμητές λέξεις από τη λίστα. Πρέπει να προφέρετε καθαρά όλους τους ήχους, να μην κάνετε περιττές παύσεις και να αποφύγετε τον τονισμό. Μερικές φορές υπάρχουν λάθη στις καταλήξεις των λέξεων. Η εφαρμογή Dragon Dictation χρησιμοποιείται από τους ιδιοκτήτες, για παράδειγμα, για να υπαγορεύουν μια λίστα αγορών σε ένα κατάστημα ενώ μετακινούνται στο διαμέρισμα. Όταν φτάσω εκεί, μπορώ να κοιτάξω το κείμενο στη σημείωση και δεν χρειάζεται να ακούσω.
Επίσης χρήσιμες υπηρεσίες: Λάβετε τα πιο πρόσφατα άρθρα παιδείας υπολογιστών απευθείας στα εισερχόμενά σας. |
Ανάγνωση: |
---|
Δημοφιλής:
Νέος
- Πώς να μάθετε το VID, το PID μιας μονάδας flash και σε τι χρησιμεύουν αυτοί οι αριθμοί αναγνώρισης;
- Huawei P8Lite - Προδιαγραφές
- Πώς να ξεκλειδώσετε ένα τηλέφωνο Xiaomi εάν ξεχάσατε τον κωδικό πρόσβασής σας
- Apptools: πώς να κερδίσετε χρήματα παίζοντας
- Lenovo Vibe K5 Plus - Προδιαγραφές Προδιαγραφές ήχου και κάμερας
- Αποφασίσατε να αλλάξετε από Windows σε Mac;
- Πώς να χρησιμοποιήσετε το Google Photos, επισκόπηση των λειτουργιών σύνδεσης φωτογραφιών Google
- Σύστημα πληρωμών Payza (πρώην Alertpay) Είσοδος Payza στον προσωπικό σας λογαριασμό
- Πώς να ανοίξετε το APK και πώς να το επεξεργαστείτε;
- Ανασκόπηση του smartphone Alpha GT από Συσκευασία και παράδοση Highscreen