Блог

DRILL.CITY

Те, кто занимается с приложением Drill.city в режиме с распознаванием голоса, наверняка хоть раз сталкивались с проблемой ошибок распознавания. Вы уверены, что абсолютно правильно произнесли фразу, но гугл слышит какие-то другие слова и программа засчитывает ответ как неверный. Почему же случаются такие ситуации и что можно сделать чтобы добиться качества распознавания голоса в 99%? Давайте разбираться.

Немного теории

Начнем с того, что ситуации, когда один человек не расслышал другого, никого не удивляют. Люди просто переспрашивают и не замечают проблемы. Пока не создан искусственный интеллект, который так же хорошо понимает человека, как и другой человек, с программным распознаванием голоса все немного сложнее.
Drill.city использует систему распознавания от компании Гугл. На сегодняшний день это лучшее из того что есть на рынке. Гугл активно развивает этот проект, выделяет огромные бюджеты и серверные ресурсы на совершенствование технологии. В мае 2017 Гугл объявил, что достиг точности распознавания в 95.1%, а еще в июле 2016 этот показатель был 91.5%.

Зачем нужно качественное распознавание?

А затем, что любой человек во всякой деятельности ищет комфорт. И если есть возможность положить телефон в карман и изучать язык в режиме диалога не смотря на экран, это дает максимальный уровень комфорта. Потому что можно заниматься во время “пробежки” на орбитреке, делая нескончаемые мелкие домашние дела, или даже в машине, в неспешной тянучке отвозя ребенка в школу. Да и зрение лишний раз поберечь будет полезным.

Но чтобы это стало возможным, нужно очень хорошее качество распознавания, гораздо лучше чем у гугла. Потому что качество 95.1% означает, что если фразы состоят в среднем из 4 слов, то каждая пятая фраза будет распознана с ошибкой. А если вы не носитель языка, то в лучшем случае у вас получится 50/50, а это вообще никуда не годится. Поэтому-то и нет других систем, кроме drill.city, которые предлагают удобный и реально работающий способ занятий в режиме диалога со смартфоном.

Почему так?

Drill.city имеет дополнительную собственную технологию, применяемую вместе с технологией Гугл, которая “доводит” качество распознавания голоса до 99%. Это значит что если все внешние факторы, влияющие на распознавание в порядке, система может сделать ошибку всего 2-3 раза за 45-ти минутный урок.

Факторы, которые влияют на качество распознавания вашего голоса

  • Качество интернета, но не на прием, а на отдачу данных. Ваш голос в виде звука уходит на серверы гугл, и это должно происходить качественно и быстро. Причем важна скорость не на загрузку – Гугл возвращает только распознанный текст, а на отдачу данных, так как нужно передать качественно записанный голос. То есть если у вас отлично работает ютюб, это еще не означает, что ваш голос без искажений передается на серверы гугл для распознавания. Для проверки качества передачи голоса можно протестировать качество соединения скайпа или поговорить с другом по вайберу. А еще лучше – загрузить с маркета бесплатное приложение speedtest.net, и протестировать свое интернет соединение.
  • Качество микрофона. 99% китайских наушников имеют микрофон отвратительного качества – с малой чувствительностью и высокими искажениями звука. Из нашего личного опыта хорошие микрофоны в наушниках, идущих в комплекте с самсунгом или айфоном. Другие нужно пробовать и сравнивать с качеством телефонного микрофона, который обычно нормальный. Для проверки качества микрофона гарнитуры можно сравнить распознавание через микрофон телефона и микрофон гарнитуры.
  • Посторонние шумы. Распознавание голоса в поезде метро будет проблематичным. Определенный уровень шума допустим, например при прогулке по улице с редко проезжающими машинами, у которых исправна выхлопная труба, или в относительно тихом уголке аэропорта.
  • Уровень произношения. Любой сильный акцент сбивает гугл с толку, соответственно чем больше акцент, тем хуже распознавание. Если стараться максимально похоже повторять фразы за диктором – носителем языка, то акцент уменьшается и качество распознавания голоса возрастает. Для перехода к обучению в режиме диалога нужно сначала подтянуть свое произношение в пошаговом режиме.

Если все факторы выше у вас в порядке, есть еще несколько причин колебания качества распознавания голоса.

  • Географическое расположение ученика. Например польский лучше всего распознается в Польше, а Английский – в англоязычных странах, т.к. распознавание голоса требует значительных компьютерных ресурсов, и Гугл отдает приоритет жителям стран, в которых распознаваемый язык является основным.
  • Время дня – в часы пик стран с нативным языком, который вы хотите распознать, у серверов гугл пиковая нагрузка, и распознавание этого языка может ухудшиться. Например это касается английского во второй половине дня по европейскому времени.
  • Четкое произношение. Большинство интровертов все время о чем-то думают и сосредоточены больше на своих мыслях, чем на том, что происходит “снаружи”. В результате речь выходит не всегда четкой.
  • Раздельное произношение. Слитное произношение хорошо для носителей языка, на таком тренировался гугл. То есть нужно придерживаться простого правила – если акцента почти нет, можно говорить “слитно”. Если же есть проблема акцента, лучше произносить фразы, делая паузы между словами, и конечно стараться произносить слова как можно четче.

Что еще можно сделать?

Для требовательных пользователей, за дополнительную оплату возможно подключение к платному сервису распознавания гугл, который выделяет на серверах достаточное количество ресурсов, чтобы обеспечить более высокое качество. В этом случае наша технология также улучшает качество распознавания по сравнению с сервисом гугл.

Также в Drill.city есть функция “Исправление распознавания”, которую можно включить на экране настроек. В таком случае система будет запоминать ошибки распознавания и по возможности исправлять их в следующий раз.

Но если вышеперечисленные советы все-таки не помогли вам решить проблему качественного распознавания – не расстраивайтесь. С Drill.city можно заниматься и без распознавания – произносите фразы не нажимая на иконку микрофона и оценивайте их сами с помощью кнопок на экране смартфона.

Всем удачи в освоении языков, каким бы методом вы ни пользовались 🙂