New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Участник:Ornil/Проект по борьбе с вандализмом — Википедия

Участник:Ornil/Проект по борьбе с вандализмом

Материал из Википедии — свободной энциклопедии

Мне пришла в голову следующая мысль: создать более продвинутую систему по борьбе с вандализмом в русском разделе Википедии, чем просто слежение за свежими правками. В связи с этим у меня ко всем активным участникам несколько вопросов. Кроме этого, я хотел бы услышать ваши мнения и предложения по интерфейсу и технической стороне дела.

Содержание

[править] О предлагаемой системе

Речь идет об отслеживании, полуавтоматическом откате или уведомлении администраторов о вандализме.

[править] Существующие системы

Самая лучшая из существующих систем такого типа на данный момент — en:User:CryptoDerk/CDVF. Но, насколько я могу судить в русской википедии она пока не работает, по крайней мере пока нет бота свежих правок и полноценной поддержки не-ASCII символов (обещают скоро, правда). Помимо этого, у системы есть другие недостатки: это полноценное приложение (на Java), которое нужно сгрузить; каждый участник работает индивидуально, без координации с другими; система расчитана на много пользователей, отслеживающих сотни правок в минуту, а не сотню в час. Есть еще и IRC-bot (en:User:Cool_Cat/IRC_Bot), который отмечает подозрительные правки. Проблемы с этим приблизительно те же, плюс невозможность персонализации.

Что для меня здесь важно: я хочу использовать браузер, а не специальное приложение, которое нужно грузить и которое привлекает внимание соседей. Но на самом деле еще важней, что я хочу отслеживать не столько последние правки, сколько важные для меня изменения (вандализм или другие интересные мне изменения), пусть даже они недельной давности. При этом, конечно, более новые изменения важнее при прочих равных условиях.

[править] Идеальная система для ru.wikipedia с моей точки зрения

Среда: браузер. Возможно с использованием AJAX (т.е. с поддержкой динамической загрузки элементов и интерактивности без перезагрузки страницы). Страница обновляется/перегружается автоматически (или нет, как решит участник).

Интерфейс: список правок в порядке важности/подозрительности. Каждая строка содержит всю (ну почти) информацию, необходимую для оценки правки и кнопки для отката/уведомления или наоборот для подтверждения качества. Порядок отображения правок определяется автоматически алгоритмом (см. ниже более полное описание). Порядок в принципе персонализирован. В частности, если вы не доверяете конкретному участнику, вы можете сделать так, чтобы все его правки считались (для вас) весьма важными. Кроме того, все правки статей в вашем списке наблюдения могут быть отмечены как более важные. Обратите внимание: если правок в статье несколько, то вы увидите их отдельно (или все вместе с последнего раза, когда вы на них смотрели, нажимая на ссылку внутри системы), в отличие от стандартного списка наблюдения. Это помогает против хитрого вандализма. Можно также отслеживать правки, содержащие ключевые слова, или правки статей в определенной категории, включая собственно добавление/удаление статьи в таковую. Если много уважаемых участников посмотрели на правку и не откатили ее, ее важность падает.

Автоматический анализ: со временем можно создать модуль, занимающийся автоматической классификацией на основе решений, принятых участниками. (Подобного рода вещи — практически моя специальность). Это еще более облегчит задачу участников.

Идентификация подозрительных участников: при откате анонимного или недавно зарегистрированного участника, можно автоматически его предупреждать. И, заодно, отслеживать число предупреждений. В определенных случаях - привлекать внимание администраторов (почтой или ICQ).

Другие модули: дать возможность другим разработчикам использовать систему.

Более детальное описание системы см. ниже.

[править] Система на практике

Понятно, что все это сделать (особенно сразу) не получится. Но сделать основную систему (без персонализации), думаю, можно быстро. Вопрос в том, нужно ли? Все это, кстати, подразумевает, что мы не достигнем размеров английской википедии в ближайшее время. Иначе ресурсов моего сервера не хватит по той же причине, по которой все эти вещи не встроены в википедию ее разработчиками.

[править] Вопросы

Учитывая количество времени и труда, которое уйдет на это дело, я бы хотел знать нужно ли это все кому-то? Поэтому, пожалуйста ответьте на вопросы:

[править] Следите ли вы за свежими правками и как часто?

  • Слежу постоянно (по мере возможности стараюсь просматривать все правки, кроме правок опытных участников) MaxiMaxiMax 02:09, 3 ноября 2005 (UTC)
  • Точно так же сслежу и правлю, откатываю или удаляю (если новая вандальная)--Torin 04:12, 3 ноября 2005 (UTC)
  • Слежу, правда в основном по интересующим иеня тематикам. Часто ставлю {{delete}}. Rokur 04:19, 3 ноября 2005 (UTC)
  • Если не занят другим, приблизительно треть всего времени в ВП, в порядке убывания приоритета: отслеживание моего списка изменений, отслеживание новых статей (на предмет удаления, наруш. авт. прав), отслеживание анонимных правок (другое: М1 — примерно треть времени (ранее — 90%), др. проекты или доработка хвостов — ещё треть). --Дмитрий (DaeX) 05:49, 3 ноября 2005 (UTC)
    • Я — как ни странно — просматриваю правки в том же порядке, что и DaeX. И начинаю, конечно же, со списка наблюдения. С. Л. 18:37, 3 ноября 2005 (UTC)
  • Сейчас редко, в какие-то случайно выбранные промежутки (около часа например) --ajvol 07:16, 3 ноября 2005 (UTC)
  • Стараюсь следить, но некоторые новые правки проходят мимо. --Butko 07:40, 3 ноября 2005 (UTC)
  • Слежение отнимает достаточно много времени, обычно процедура следующая:
    • Всегда захожу в раздел новые статьи и обязательно просматриваю все новые статьи, созданные анонимами.
    • Проверяю (по возможности) все анонимные правки.
    • В обязательном порядке проверяю анонимные правки на «значимых статьях» (типа «История России», «Президент России» etc.) Если натыкаюсь на вандализм, то включаю статью в свой «Лист слежения».
    • Правки опытных участников смотрю только в случае, если тема меня интересует.--Okman 09:37, 3 ноября 2005 (UTC)
  • Слежу за правками статей, в которых принимал деятельное участие. — wulfson 13:44, 3 ноября 2005 (UTC)
  • За свежими правками вообще (пункт «Свежие правки» в главном меню) — очень редко. Свой список наблюдения просматриваю регулярно, естественно. ~ Aegicen 15:49, 3 ноября 2005 (UTC)
  • Слежу постоянно (в поисках не интервикифицированных статьей). --Obersachse 16:12, 5 ноября 2005 (UTC)

[править] Пользовались ли вы упомянутыми выше (или другими) системами борьбы с вандализмом?

Если нет, то можете не отвечать. Если да, то что вам нравится или не нравится в них?

  • CryptoDerk/CDVF мне очень понравился. Я точно помню, что проблему с русским языком там давно уже исправили. Кажется автор старался создать коллективную систему проверки, чтобы можно было распределять усилия проверяющих. Не стал в результате его использовать, т. к. нет времени для тотальной проверки всех изменений.
Ага, насчет проблемы с русским я не разобрался. --Ornil 07:32, 3 ноября 2005 (UTC)

[править] Стоит ли делать предлагаемую систему?

  • Думаю что в принципе стоит. Пока что у нас ещё не слишком большое количество правок, но если будет делаться 5-10 правок в минуту, то без такой системы не обойтись и лучше подготовить её заранее. Другое дело, что если уже существуют аналогичные системы то, возможно, лучше дорабатывать их (наверняка они открытые), а не создавать свою с нуля. MaxiMaxiMax 02:49, 3 ноября 2005 (UTC)
  • Это точно, пока гром не грянул, лучше подготовиться. Да и нам всё равно надо научиться с такой системой работать.--Torin 04:13, 3 ноября 2005 (UTC)
  • Да, однозначно. --Дмитрий (DaeX) 06:05, 3 ноября 2005 (UTC)
  • Если есть время, то почему бы нет. Удобный интерфейс (аля Google Reader) и ранжирование правок по степени пожозрительности — веские аргументы. --ajvol 07:16, 3 ноября 2005 (UTC)
  • Стоит, при увеличении количества пользователей такая система будет всё нужней. И удобный инструмент не помешает. --Butko 07:43, 3 ноября 2005 (UTC)
  • Да, стоит. Обязательно нужна функция типа "исключить проверенные правки", указывающая, что эту конкретную правку уже проверил кто-то из опытных участников - тогда реально будет экономиться время других участников. --Okman 09:43, 3 ноября 2005 (UTC)
  • Думаю, стоит, потому что комплексная система подобного рода может в перспективе существенно помочь в борьбе с вандализмом и прочими неприятными явлениями (хотя не могу утверждать с уверенностью — раньше с такими системами не сталкивался). ~ Aegicen 15:49, 3 ноября 2005 (UTC)
  • Полагаю — да, стоит включить. Система интересная, возможностей много. К счастью, пока «массированных» нападений вандалов не было, но кто знет... С. Л. 18:43, 3 ноября 2005 (UTC)

[править] Будете ли вы лично ей пользоваться?

  • Я не уверен, так как меня лично интересует не только вандализм. Возможно я буду ей пользоваться в то время когда у меня нет возможности подробно следить за всеми правками. MaxiMaxiMax 02:09, 3 ноября 2005 (UTC)
  • Обязательно! --Torin 04:15, 3 ноября 2005 (UTC)
  • Да, конечно. --Дмитрий (DaeX) 06:05, 3 ноября 2005 (UTC)
  • Возможно, но только если это будет не система сплошной проверки правок — на это нет времени :( --ajvol 07:16, 3 ноября 2005 (UTC)
  • Скорее всего, буду пользоваться в той же мере, что и сейчас разделом «Свежие правки» — т. е., очень редко. ~ Aegicen 15:49, 3 ноября 2005 (UTC)
  • Буду ли пользоваться — пока не знаю, всё зависит от наличия свободного времени. С. Л. 18:46, 3 ноября 2005 (UTC)

[править] Комментарии и предложения по функциональности

  • Неоднократно задумывался о необходимости антивандальной системы: главное, имхо, что поможет - возможность верификации (подтверждения) правок - в таком случае не будет двойной работы - составлю список кому можно доверять и не буду смотреть уже подтверждённое ими. Совсем недавно, правя анонимов, я находил неоткаченный вандализм и двухдневной и недельной и месячной давности (по вкладу вандалов). Уже сейчас, например, удаляя copyvio не проверяю на предмет соответствия текста удаляемой статьи статьи, помеченные MaxiMaxiMax, Torin и др. админов, помеченные новыми участниками приходится смотреть - на всякий случай.
  • Ключевые слова - мат (редко встречается в статьях), смайлики, слова - привет, пошли вы все, автоматически вставляемых текст из кнопок панели - было бы неплохо отслеживать автоматически и привлекать внимание.
  • Кстати, всё думал к кому обратиться с идеей автомат. проверки на копирайт. Сейчас я проверяю по яндексу и реже по гуглу, беря пару-тройку предложений из разн. частей текста, а ведь это можно делать автоматом - если есть совпадения - обращать внимание - выдал наглядный результат - посмотрел на него - нажал кнопку "пометить" и всё. --Дмитрий (DaeX) 06:04, 3 ноября 2005 (UTC)
  • В помощь админу - есть категории для удаления copyvio и просто для удаления - напоминать, если прошёл срок. --Дмитрий (DaeX) 06:11, 3 ноября 2005 (UTC)

[править] Детальное описание системы и алгоритмов

Я собираюсь написать ее на Ruby/Rails с базой данных (правок и пользователей системы) на MySQL. Я собираюсь узнать насчет IRC-бота свежих правок для ru и использовать его, чтобы не дергать сервер каждую минуту. Тем не менее, система будет подключаться и подбирать сам текст правки для анализа. Или, возможно, просто текст статьи в XML. Надо разобраться как это у нас работает.

Алгоритм упорядочивания будет сравнительно простым. Каждая правка имеет определенную важность (действительное число), являющуюся линейной комбинацией (или просто суммой) факторов. Правки будут отсортированы по убыванию важности.

[править] Факторы, связанные с самой правкой

  • Время. Чем позже, тем важнее (последние правки будут выше в списке).
  • Помечена как мелкая правка. Если да, то менее важна
  • Краткое описание. Если отсутствует, то правка более важна (подозрительна). Если содержит мат или что-то в этом роде, более важна.
  • Пространство имен. Если основное, то важнее, если обсуждение, то менее важно и т. д.
  • Количество показов внутри данной системы. Чем выше, тем ниже важность. Если другие участники нажали на ссылку (но не откатили), еще ниже. Если отметил как хорошую правку, еще ниже.

[править] Факторы, связанные с автором правки

  • Если аноним, более важна.
  • Срок регистрации. Чем меньше, тем правка важнее
  • Количество правок. Чем меньше, тем правка важнее
  • История/рейтинг. Если предыдущие правки были откачены, то правка важнее. Если несколько участников добавили в свой список потенциальных вандалов / врагов, то правка важнее. Каждый участник будет иметь внутренний рейтинг (но он не будет никому показываться).

[править] Факторы, связанные с текстом правки

  • Размер правки. Чем больше, тем важнее.
  • Размер статьи после правки. Чем меньше, тем важнее. Если стала пустой, очень важно.
  • Если изменен только интервики-линк, менее важно. Только категория — аналогично. Только вики-разметка — аналогично.
  • Если в добавленном тексте мало вики-разметки, важнее. (copyvio?)
  • Если в изменении присутствуют «плохие термины» (мат, рекламные адреса, экспериментация новичка и т.п.) — важнее.

[править] Факторы, связанные со статьей на данный момент (возможно после других правок)

  • Если были другие правки, менее важно (возможно проблема исправлена). Тут требуется продумать детально. В некоторых случаях мы можем автоматически определить был ли откат или несвязанное изменение.
  • Если на данный момент статья без категории, более важно
  • Если на данный момент статья без интервики, более важно

[править] Персонализированные факторы

  • Автор правки в специальном личном списке отслеживания — существенно важнее.
  • Статья в списке наблюдения — существенно важнее.
  • Статья в наблюдаемой категории — существенно важнее. (Mediawiki это не умеет).
  • Изменение содержит слово из личного списка отслеживания ключевых слов — существенно важнее.

[править] Ваши предложения по другим факторам?

  • Думаю что нужен «белый список», в который автоматически вносятся зарегистрированные боты, а также произвольные участники по выбору пользователя. MaxiMaxiMax 02:43, 3 ноября 2005 (UTC)
Ага, правильно. --Ornil 03:16, 3 ноября 2005 (UTC)
Да, думаю стоит обращать внимание на изменения в страницах относящихся к namespace Википедия, так как это делается нечасто по делу. Ещё один частый вандализм - редактирование страниц участников другими участниками. MaxiMaxiMax 05:09, 3 ноября 2005 (UTC)

Несколько заметок:

  • Мне кажется, лучше получать список свежих правок по RSS. Если будет потребность, думаю можно будет исправить этот вывод, что-то добавив в него.
  • Должно быть организована коллективная проверка — незачем проверять те правки, что уже проверил MaxiMaxiMax. Но рейтинг доверия проверяющим, ИМХО, делать пока не стоит.
  • Неплохо бы не затачиваться специально под русскую версию, в случае успеха системы можно было бы привлеч в помощь разработчиков из других вики.
  • Разработчики тут недавно предлагали разместить полезных ботов на специальном сервере, с хорошим каналом связи к БД. При необходимости можно воспользоваться возможностью.

--ajvol 07:16, 3 ноября 2005 (UTC)

 

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu