Posted 9 апреля 2017,, 10:01

Published 9 апреля 2017,, 10:01

Modified 8 марта, 02:14

Updated 8 марта, 02:14

Революция в копирайте: MetaLingva точно определит авторство любого текста

Революция в копирайте: MetaLingva точно определит авторство любого текста

9 апреля 2017, 10:01
10 апреля в Москве пройдет пресс-конференция разработчиков проекта «МetaLingva», двух Сергеев – Ефремова и Иванова. Они продемонстируют возможности определения авторства любых текстов - от спорных диссертаций до скандально известных - «Завещание Петра Первого», «Протоколы сионских мудрецов», «Велесова книга"...

Нейросеть «metaLingva» анализирует не только авторские привычки и литературные приемы, как это делалось до сих пор, но и «психолингвистические лакуны» (то есть то, что автор не может наблюдать, осознавать и отразить в своем литературном языке в силу ограниченности самого языка, которым он пользуется).

До недавнего времени компьютеры умели лишь сравнивать два текста и устанавливать с какой вероятностью автор одного текста может быть автором другого. MetaLingva анализирует огромные массивы данных и способна, по уверениям ее создателей, изменить мир авторства, когда невозможно будет скрыть подлинное авторство любого произведения.

Короче нас ждет счастливое будущее, в котором исчезнут как явление: кража литературных произведений издателями, литературные негры и, конечно же, плагиат. Причем не только литературный, а и научный, что особенно актуально в эпоху скандалов, связанных с незаконным присвоением полуграмотными чиновниками ученых степеней. Об этом - интервью "НИ" с одним из авторов проекта Сергеем ЕФРЕМОВЫМ.

Сергей, для начала: что такое нейросеть и как она работает?

Это такой программно-аппаратный комплекс, который позволяет решать задачи, недоступные обычным компьютерам. Для того, чтобы компьютер решал какую-то задачу, его надо должным образом запрограммировать. Но программирование имеет свои пределы.

Например, вы научили компьютер класть красные конверты в правую корзину, а синие – в левую, и поставили его, допустим, на свадьбе сортировать поздравительные конверты. Он успешно справляется со своей задачей до тех пор, пока ему на рассмотрение не поступит розовый конверт. Или голубой, или желтый... Он повиснет! Цветов, то есть внештатных ситуаций всегда больше, чем тех, которые вы запрограммировали различать. А 1% внештатных ситуаций требует 90% кода.

Запрограммированный компьютер хотя и имеет огромную расчетную мощность, он всегда глупее человека, своего создателя. А вот нейросеть не надо программировать. Она работает по тому же принципу, что и мозг человека.

Больше того, она все время обучается. Чем больше задач ей приходится решать, тем как бы «умнее» она становится. Со временем она разберёт все цвета конвертов по двум категориям – близким к условному красному цвету и близким к условному синему. Вполне возможно, что граница различимости будет проходить где-то, где человеческий глаз уже не способен воспринять разницу. А возможно, нейросеть создаст новую цветовую модель, настолько непривычную для человека, что сложно себе представить.

А так с виду это просто пластиковый ящик с электрической начинкой, подключенный к компьютеру :)

Вы используете в своей работе социолингвистические теории. Каким образом?

Бенджамин Уорф разработал теорию языка, по которой человек воспринимает реальность через призму языка, на котором он мыслит и говорит. То есть, если в языке для какого-то явления нет соответствующего слова, он оказывается неспособен это явление воспринять. Для него нет чувств, для которых нет слов, нет таких социальных связей, которые не названы. В конечном счёте, он даже цвета не может воспринять, которые не названы. Знаете, у Гомера в «Илиаде» и «Одиссее» используются только чёрный, зелёный и белый. Возможно, другие цвета он не различал. В том числе и по причинам лингвистическим. И есть мнения, что оранжевый цвет человечество освоило в языке и начало видеть только в веке 14-15.

Вот эту-то теорию, значительно уточнённую позднее Фишманом, мы и использовали и в нашем проекте.

С авторскими приемами и привычками все более или менее понятно, а не могли бы вы привести пример психолингвистической лакуны?

Это просто. Если автор в своих произведениях ни разу не упоминает слово «друг» и не использует связанные понятия, то надо полагать, что ему неведомо внутреннее состояние, которое бы он связывал с определённым близким человеком, или он просто не научен такой социальной практике, как дружба.

В таких ситуациях нейросеть полагает, что автор просто «не видит» дружбу, и поэтому не может описать ее в своих произведениях. Карта таких слепых зон составляет уникальный профиль автора. Такой же профиль появляется и у произведения. Сопоставляя профили автора и произведений, нейросеть определяет кто является автором и каких произведений.

Бывают и обратные примеры. Скажем, в русском языке есть такая парадигмальная лакуна как «победю». Считается, что это слово неправильное, и в школе за его использование положена двойка. Но по теории Уорфа-Фишмана с этим словом все в порядке. Просто древние славяне не знали такого состояния, которое отражено в этом слове. Ожидание победы в будущем, выраженное от первого лица. Они знали только вероятностное «мочь» - «смогу победить». Но если автору какое-то такое состояние знакомо, и это отражается в его литературных произведениях, такие сведения также попадают в профиль и могут использоваться нейросетью для анализа авторства произведений.

Таким образом в анализе участвуют как слепые зоны, так и специальные фокусы, которые у нас отсутствуют, но которыми автор и нейросеть видят.

Вы можете «накинуть» вашу сеть на авторов, о привычках которых известно (например, Натан Дубовицкий), а как быть с теми, кто почти неизвестен? С тем же «Завещанием Петра Первого»? Ведь от самого Петра осталось не так много письменных источников...

Когда мы только начали разрабатывать “metaLingva”, у нас сразу появилась амбициозная задача покончить с вековыми спекуляциями вокруг литературных подделок, имевших огромное политическое значение в свое время. Здесь мы нашли сторонников в лице Российского исторического общества, которое поделились с нами большой эпистолярной базой петровских времен. В большинстве своем это сканы исторических документов и писем, которые еще предстоит перевести в цифровую форму. То, что уже переведено, мы систематизировали с помощью нейросети. Документы объемом более 10000 знаков уже получили свой профиль произведения.

Французскую базу нам предоставило в прошлом году министерство культуры Французской республики. С ее помощью мы надеемся выяснить кто автор «Протоколов сионских мудрецов» и имеет ли отношение к тексту Морис Жоли и Сергей Нилус.

Эта задача для нас особенно интересна, так как обработка будет происходить сразу на двух языках. Как известно, в каждом языке есть лакуны, занятые в других языках, а также понятия, которых в других языках нет. Возможно, нейросеть поведает нам о русском языке много такого, о чем мы до сих пор даже не задумывались ввиду ограниченности нашего мышления.

Вы не упомянули в вашем пресс-релизе самую, пожалуй, скандально интересную проблему авторства – «Тихий Дон» Шолохова. Вы исследовали эту книгу?

Хорошо, что вы ее упомянули, так как это первое литературное произведение, для которого мы составили профиль произведения.

Несколько лет назад, когда инвесторы попросил продемонстрировать первые результаты нашей работы, мы не нашли ничего умнее, как прогнать через нейросеть весь соцреализм, который был размещен в интернете и сравнить полученные авторские профили с профилем «Тихого Дона». Результаты нас очень удивили, но мы все равно решили показать их и распечатку алгоритма “metaLingva” инвесторам. Результат и для них оказался настолько неожиданным, что они к нашей радости увеличили финансирование, но обязали нас не распространятся по поводу результатов анализа.

Я так понимаю, публикацию экспертизы по «Тихому Дону» они рассматривают как часть рекламной кампании нейросети, когда готовый образец будет готов к коммерческому использованию.

Что нужно для того, чтобы улов вашей нейросети был официально признан? Получить одобрение экспертов? Государственную лицензию?

Когда нейросеть обыграла в Го корейского профессионального игрока, никакого признания ей не потребовалось. Игроки всего мира начали изучать игровые ходы и совершенствовать свое собственное мастерство. Не машина училась у человека, а наоборот, люди начали учиться у машины. Возможно, таково будущее. Машина будет исторгать истины, а люди будут получать их, сравнивать, спорить, искать логические последствия. Кто-то будет принимать, а слепцы отрицать и сопротивляться. Со временем эти истины станут самоочевидными, и какого-то специального признания не потребуется.

Хотя я верю в силу и мудрость нашего правительства, которое со временем найдет возможности прикарманить на нейросетях свои 10%.

Если с художественным произведением более или менее можно представить, как работает нейросеть, то не совсем понятно, как это будет с научными работами, которые пишутся вполне стандартным языком по стандартной модели...

Когда человек исследует какую-то специальную область знания, выдвигает теорию, эта теория начинает жить своей собственной жизнью и диктовать исследовательские условия самому исследователю. И вот здесь нашей нейросети есть где поработать. Потому что нейросеть видит не только то, о чем исследователь говорит, примиряя факты со своей теорией, но и то, о чем он умалчивает. Причем не обязательно сознательно.

Это не имеет отношения к стилю, на котором написано научное произведение. Стиль действительно у разных научных работ более-менее одинаков. Но если автор, допустим, исследуя вопросы эволюции, систематически избегает упоминать какой-то аспект, связанный с усвоением белка у взрослых особей семейства Хищные, а по данным нейросети этот аспект или укладывается, или нет в рабочую гипотезу, то очевидно, что автор об этом аспекте не знает или умалчивает о нем специально. Внеся эти и такого же типа данные в профиль, несложно будет установить всех, кому на заказ он написал кандидатские и докторские работы, а дальше начинается работа следственного комитета – установить связи всех лжекандидатов и лжедокторов наук и найти этого автора, который все эти работы написал.

Как дорого будет стоить ваша нейросеть?

О том, на каких условиях можно будет воспользоваться нейросетью, лучше спросить наших инвесторов, которые сделают официальное заявление в тот день, когда сеть будет активирована на базе их программно-аппаратной архитектуры и станет доступна пользователям через Интернет.

Насколько я понимаю, планы у них именно такие. Другими словами, вряд ли очень уж дорого.

Существуют ли у нее аналоги в других странах? И если да, то насколько эффективно они работают?

Насколько я знаю, еще никто до нас не обучал нейросеть обращаться с текстами. Основная тенденция такова, что нейросети учат больше работать с изображениями. Рисовать картины, превращать двухмерные фотографии в трехмерные проекции, совмещать несколько картин в одну, распознавать изображения, делать черно-белые снимки цветными и т.п. Самое близкое к нашей теме это нейросети, обучающиеся машинному переводу с одного языка на другой. Эта технология реализуется сейчас в Google. И причем она довольно успешна.

Но авторство текста она, конечно же, не определяет.

"