Что такое обработка естественного языка и как она работает?

Разговор с чат-ботом на смартфоне.
NicoElNino / Shutterstock.com

Обработка естественного языка позволяет компьютерам преобразовывать то, что мы говорим, в команды, которые оно может выполнять. Узнайте, как это работает, и как оно используется для улучшения нашей жизни.

Что такое обработка естественного языка?

Будь то Alexa, Siri, Google Assistant, Bixby или Cortana, у каждого, у кого есть смартфон или умный динамик, сегодня есть голосовой помощник. Каждый год эти голосовые помощники, кажется, лучше распознают и исполняют то, что мы им говорим. Но вы когда-нибудь задумывались, как эти помощники обрабатывают то, что мы говорим? Им удается это сделать благодаря Natural Language Processing или NLP.

Исторически сложилось так, что большинство программного обеспечения было в состоянии реагировать только на фиксированный набор конкретных команд. Файл откроется, потому что вы нажали кнопку Открыть, или электронная таблица вычислит формулу на основе определенных символов и названий формул. Программа взаимодействует с использованием языка программирования, на котором она была закодирована, и, таким образом, будет производить вывод, когда ей дается ввод, который она распознает. В этом контексте слова похожи на набор различных механических рычагов, которые всегда обеспечивают желаемый результат.

Это отличается от человеческих языков, которые являются сложными, неструктурированными и имеют множество значений, основанных на структуре предложения, тоне, акценте, времени, пунктуации и контексте. Обработка естественного языка — это отрасль искусственного интеллекта, которая пытается преодолеть разрыв между тем, что машина распознает как ввод, и человеческим языком. Это так, что когда мы говорим или печатаем естественным образом, машина производит вывод в соответствии с тем, что мы сказали.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Это делается путем сбора огромного количества точек данных для получения значения из различных элементов человеческого языка, помимо значений реальных слов. Этот процесс тесно связан с концепцией, известной как машинное обучение, которая позволяет компьютерам учиться больше, когда они получают больше точек данных. Вот почему большинство машин обработки естественного языка, с которыми мы часто общаемся, со временем, похоже, становятся лучше.

Чтобы лучше осветить концепцию, давайте взглянем на два самых высокоуровневых метода, используемых в НЛП для обработки языка и информации.

СВЯЗАННЫЕ С: Проблема с ИИ: машины учат вещи, но не могут их понять

лексемизацию

токенизация обработки естественного языка

лексемизацию означает разделение речи на слова или предложения. Каждый фрагмент текста является токеном, и именно эти токены обнаруживаются при обработке вашей речи. Звучит просто, но на практике это сложный процесс.

Допустим, вы используете программное обеспечение для преобразования текста в речь, например, клавиатуру Google, чтобы отправить сообщение другу. Вы хотите сообщение «Встретимся в парке». Когда ваш телефон берет эту запись и обрабатывает ее с помощью алгоритма преобразования текста в речь, Google должен затем разделить то, что вы только что сказали, на токены. Этими токенами будут «встретиться», «я», «в», «the» и «парк».

Люди имеют различную длину пауз между словами, и в других языках может не быть очень слабой паузы между словами. Процесс токенизации резко различается между языками и диалектами.

Стемминг и лемматизация

Стемминг и лемматизация включают процесс удаление дополнений или вариаций к корневому слову, которое машина может распознать. Это сделано для того, чтобы интерпретация речи была последовательной для разных слов, которые по сути означают одно и то же, что ускоряет обработку НЛП.

обработка естественного языка

Stemming — это грубый быстрый процесс, который включает удаление аффиксов из корневого слова, которые являются дополнением к слову, присоединенному до или после корневого слова. Это превращает слово в простейшую базовую форму, просто удаляя буквы. Например:

  • «Ходьба» превращается в «прогулку»
  • «Быстрее» превращается в «быстро»
  • «Серьезность» превращается в «Север»

Как вы можете видеть, сокращение может отрицательно сказаться на полном изменении значения слова. «Серьезность» и «Север» не означают одно и то же, но суффикс «ity» был удален в процессе определения.

С другой стороны, лемматизация — более сложный процесс, который включает сокращение слова до их основы, известной как Лемма. Это учитывает контекст слова и то, как оно используется в предложении. Это также включает поиск термина в базе данных слов и их соответствующей леммы. Например:

  • «Есть» превращается в «быть»
  • «Операция» превращается в «работать»
  • «Суровость» превращается в «суровую»

В этом примере лемматизации удалось превратить термин «серьезность» в «серьезный», который является его формой леммы и корневым словом.

Примеры использования НЛП и будущее

Предыдущие примеры только начинают рассказывать о том, что такое обработка естественного языка. Он охватывает широкий спектр практик и сценариев использования, многие из которых мы используем в нашей повседневной жизни. Вот несколько примеров использования НЛП в настоящее время:

  • Интеллектуального ввода текста: Когда вы набираете сообщение на своем смартфоне, оно автоматически предлагает вам слова, которые соответствуют предложению или которые вы использовали ранее.
  • Машинный перевод: Широко используемые потребительские услуги по переводу, такие как Google Translate, для включения высокоуровневой формы NLP для обработки языка и его перевода.
  • Chatbots: НЛП является основой для интеллектуальных чат-ботов, особенно в сфере обслуживания клиентов, где они могут помочь клиентам и обработать их запросы, прежде чем они столкнутся с реальным человеком.

Это еще не все. Использование НЛП в настоящее время разрабатывается и внедряется в таких областях, как средства массовой информации, медицинские технологии, управление рабочим местом и финансы. Есть шанс, что в будущем мы сможем провести полноценную сложную беседу с роботом.

Если вы заинтересованы в том, чтобы узнать больше о НЛП, на На пути к науке о блоге или Стэндфордская национальная группа обработки языков что вы можете проверить.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *