Программисты из канадской компании Maluuba разработали алгоритм, позволяющий находить ответы на вопросы в незнакомом тексте. Программу, построенную на нейронной сети, протестировали на книге «Гарри Поттер и Философский камень», доля правильных ответов составила выше 70 процентов. Видео с тестом программыопубликовано на официальном канале компании на Youtube, подробности об алгоритме сообщает MIT Technology Review.
Алгоритм представляет собой систему для «осмысления» текстов компьютером, основанную на методике глубокого обучения (Deep learning). Она способна отвечать на вопросы по незнакомому тексту, выбирая правильный вариант из нескольких предложенных. Исследователи тренировали алгоритм на нескольких сотнях рассказов для детей, объединенных с парами вопрос-ответ для каждого текста. После завершения обучения программу проверяли на незнакомом тексте.
В частности, при тестах на коротких фрагментах текста первой книги о Гарри Поттере программа безошибочно ответила на вопрос «Что было секретом Дурслей?» выбрав среди вариантов «дрели», «Поттеры», «кошки умеющие читать» и «их маленький сын» ответ «Поттеры». Кроме того, проанализировав сцену сразу после распределения Гарри (финальные фразы Распределяющей шляпы не вошли в отрывок) алгоритм правильно ответил на вопрос «В какой из факультетов шляпа распределила Гарри??».
Авторы отмечают, что ключевым в работе алгоритма является анализ текста на различных масштабах — от отдельных слов к словосочетаниям и предложениям. Для достижения такого эффекта программисты специальным образом настраивали нейросеть перед обучением. В результате этого, по словам разработчиков, процент правильных ответов оказался на 15 процентов выше, чем у других алгоритмов, основанных на глубоком обучении.
Система в первую очередь предназначена для автоматического анализа технических текстов, таких как инструкции по применению и патенты. Она может позволить компьютерам самостоятельно анализировать и «понимать» тексты, открывая новые пути для сбора данных.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: