Главная » Статьи » Гостевые (другие авторы) |
© Султан Сулейманов (Meduza)
Преподаватели двух российских вузов рассказали о хитрых попытках обмануть систему «Антиплагиат», на которых они ловили студентов. «Антиплагиат» сравнивает тексты работ (в частности, научных) с источниками, доступными в интернете, - и сообщает, сколько процентов текста автор позаимствовал, а сколько написал сам.
***
Доцент Омского государственного университета им. Достоевского Сергей Демченков, проглядывая отчет «Антиплагиата» о чьей-то дипломной работе, обнаружил, что среди массы заимствований есть большой - на 50 тысяч знаков - кусок текста, который система сочла уникальным. Это была, по всей видимости, статья из региональной газеты, которую вставили несколько раз подряд. Демченкова удивило, что в отчете текст из газеты разрывал собой предложение о разновидностях глаголов. Он открыл диплом в Microsoft Word, вбил в поиск фразу из «уникального» куска, и текстовый редактор перебросил его к тому самому предложению о глаголах. А в нем не оказалось никаких следов «уникального» фрагмента. Демченков рассказывает, что он около 20 минут пытался выяснить, как автору удалось спрятать 50 тысяч знаков между букв. Он поменял цвет шрифта и кегль всего текста, сбросил форматирование - но ничего не помогло. В итоге проверяющий обнаружил, что автор создал в документе объект «Надпись» и вставил весь «уникальный» текст туда. Зато «Антиплагиат» увидел спрятанный текст; а благодаря тому, что треть текста была «уникальной», резко повысилась степень «уникальности» всей дипломной работы. Демченков рассказал, что популярен и другой изощренный метод обхода «Антиплагиата» с помощью Word - правка исходного кода документа. Файлы .docx представляют собой обычные архивы, внутри которых лежат встроенные документы и размеченный текст. Если правильно подправить разметку, текст будет невозможно найти в Word, но при этом его сможет видеть «Антиплагиат».
История первая, рассказанная Сергеем Демченковым
Как заведующий кафедрой я должен подписывать заключения об объёме заимствований в студенческих дипломных работах (по результатам их анализа системой «Антиплагиат»). А я, честно говоря, люблю понимать, что именно я подписываю, поэтому обычно просматриваю не только цифровой отчёт, но по диагонали - и сам размеченный «Антиплагиатом» текст работы. И вот вчера мне довелось пережить подлинный катарсис! Я, конечно, давно знал, что индустрия «профессиональной помощи» при написании курсовых, дипломных и диссертационных работ в последнее десятилетие переживает период пассионарного расцвета. Впрочем, на филфаке с этим сталкиваешься нечасто. Но вот о том, что существует целая индустрия по техническому обходу «Антиплагиата», я до сих пор как-то как-то даже и не задумывался. Итак, в ускоренном темпе листаю отчёт. На фоне привычной цветовой гаммы - белое с красным (оригинальный текст и дословные заимствования) - вдруг вижу огромный кусок девственно белых тонов, причём с абзацными отступами где-то посередине строки. Немного вчитываюсь. Обалдеваю. Аккурат посреди предложения о разновидностях глаголов вклинивается невразумительное нечто объёмом в 50 тысяч знаков (!!!), то есть примерно на треть средней дипломной работы! По стилю и сюжетике напоминает передовицу районной газеты. Однако даже в районках не пишут с таким размахом, поэтому белиберда - от первого до последнего слова - повторена раз пять. Меня одолевает любопытство. Лезу в исходный файл. Ввожу в поиск первую попавшуюся белибердовую фразу. «Ворд» сразу же находит пяток вхождений и перебрасывает меня на страницу, где ... этого текста нет и в помине! Разорванное предложение о глаголах сшито идеально - любой хирург позавидует. Тут я, надо сказать, увлёкся и минут двадцать посвятил изучению технологии :) Первое, что пришло в голову: текст набран мельчайшим кеглем и выкрашен в белый цвет, а потому сливается с фоном. Жму Ctrl + A, выставляю 14-й кегль, перекрашиваю в чёрный. Ничего не меняется! Какие ещё возможны варианты? Например, масштаб шрифта. Ставлю для всего текста стопроцентный. Для пущей надёжности возвращаю все прочие шрифтовые параметры к значениям по умолчанию. Не срабатывает! Посмотрим, что там со стилями? И в стилях ничего криминального! Не уверен, что получится сделать это незаметно, но, установив, отрицательные абзацные отступы, можно попытаться спрятать «неудобный» фрагмент за границами страницы. Снова ошибся! Впрочем, абзацами манипулировать неудобно. Есть варианты поэффективнее. Любой продвинутый текстовый редактор позволяет создавать объекты-контейнеры, в которые можно вставлять текст, но которые допускают произвольное размещение на странице, независимо от абзацного членения. Например, таблицы, «Word Art», так называемые надписи... И тут я покаянно говорю себе: «Упс!». Ведь простодушный «Ворд» с самого начала и пытался мне об этом сообщить, выводя в результатах поиска перед обнаруженным вхождением словечко «Надпись»! Остальное уже - дело техники. Нахожу размещённый за предложением о глаголах крошечный объект размером полтора на два сантиметра, в который втиснута уймища мусорного текста, набранного вторым кеглем и выкрашенного в белый цвет. Приятное свойство объекта «Надпись» состоит в том, что, даже при тотальном выделении содержимого документа, любые шрифтовые и абзацные манипуляции текст надписи не затрагивают. Не подсвечиваются в нём и сомнительные с правописательной точки зрения фрагменты. Пока надпись не открыта на редактирование, для «Ворда» она равнозначна изображению. Эксперимент - дело, безусловно, хорошее. Но коллеги со мной согласятся: без вдумчивого изучения работ предшественников исследователь не ощущает в своём творении благодатной завершённости. Поэтому, разоблачив анти-анти-плагиаторов, я полез в Интернет изучать историю вопроса. Как оказалось, игры с кеглем и масштабом тоже в чести. Так что ход моих мыслей был, в общем-то, правильным. Чтобы проверка правописания не выдала внедрённый лилипутский текст своим подчёркиванием, в параметре «Язык» ему присваивают что-нибудь поэкзотичее, - например, «Албанский» :) Но сегодня такой примитив уже не в моде. Последнее слово науки - это ручная правка исходников. Тем, кто забыл, напоминаю, что вордовский файл последних версий (docx) представляет собой обычный архив, содержащий встроенные объекты и сам текст в формате xml. И умные люди наловчились так править xml-разметку (задавая, например, отрицательные значения для кегля), что текст становится не только невидимым, но и неуловимым: стандартными инструментам «Ворда» расконспирировать его оказывается невозможно. Однако есть у мошенников Ахиллесова пята. Можно, пожалуй, запрятать текст в такие вордовские глубины, что его не увидит никто и никогда. Но это мошенникам не нужно. Им нужно, чтобы мусорный текст не мог увидеть человек, но непременно увидел бы «Антиплагиат», иначе все их маскировочные труды пойдут прахом. А то, что видит «Антиплагиат», увижу и я в его отчёте. Ставка делается на то, что в полный текст отчёта никто обычно не заглядывает. P.s. А студенту, решившему таким занимательным способом повысить процент оригинальности своей ВКР, спасибо! Давно я уже на рабочем месте так не развлекался :) Всё, знаете, учебные планы, да отчёты, да прочие, с позволения сказать, ОПОПы...
* * *
Доцент Пермского государственного университета Иван Печищев рассказал в 2016 году об еще одном необычном документе, который ему передала знакомая. «Антиплагиат» не мог проверить текст, хотя раньше находил в нем множество заимствований. Печищев обнаружил в документе символы юникода, расставленные по всему тексту. Одним из них была «еврейская точка», используемая в иврите. В тексте этот знак выглядит как точки над текстом. В документе к «еврейским точкам» применили скрытый стиль, который менял цвет символов на белый и сильно уменьшал их размеры. Благодаря этому проверяющий, открыв файл, видел обыкновенный текст, без лишних деталей. При этом «Антиплагиат» отказывался проверять работу, потому что видел такую кашу из букв и символов: Чтобы обнаружить скрытые точки, достаточно было скопировать текст в пустой документ Word или в любой другой текстовый редактор.
История вторая, рассказанная Иваном Печищевым
Одна моя коллега (не буду уточнять, из какого вуза) прислала мне диплом студентки с просьбой разобраться, почему сервис Антиплагиат теперь не может проверить текст, хотя раньше всё работало. И раньше Антиплагиат показывал множество заимствований. Я слышал о таких случаях, но подобный файл впервые попал мне в руки. Итак, давайте посмотрим всё, что скрыто. Скрыто в прямом смысле. В тексте я обнаружил множество вставок Unicode-символов, один из которых - «еврейская точка». Она используется в иврите. Эти символы не видно, так как в файле Word к ним применены скрытые стили (их так просто не найдёшь). Стиль меняет цвет символа на белый, ширину уменьшает до 1% и сжимает на 20 пт. В итоге множество посторонних символов сбивает Антиплагиат с толку, и он просто отказывается проверять текст, так как не видит слов как таковых. Выявить секрет можно после копипаста текста в другой документ Word (где нет скрытых стилей) или в любой другой текстовый редактор, поля для текста браузера.
Еврейские точки над русскими буквами. Интересно, не в HomeWork ли было заказано повышение процента именно таким способом?
Я читал форумы о способах обхода Антиплагиата и, надо сказать, этот способ самый продвинутый. Вставка скрытого (белого) текста, замена русских символов на английские и пр. - совсем простые способы. Их можно выявить сравнительно быстро и легко. | |
Просмотров: 1414 | |
Всего комментариев: 0 | |