Webplanet: Web 2.0 и тэговый спам

Вначале был текст. Потом, чтобы различать тематику текстов, придумались ключевые слова. Два-три ключевых слова, как правило, точно и исчерпывающе описывали тематику статьи, поэтому применялись (и до сих пор применяются) в научных и серьезных статьях (монографиях). Поскольку первыми пользователями были ученые осваивающие Сеть, то использование ключевых слов дало простой, но достаточно мощный и эффективный механизм поиска и группировки статей на необходимую тему без использования сложного (и неудобного для Web) библиотечного каталога.

Когда блоггеры столкнулись с той же проблемой — поиском и группировке записей по определенной теме, то применили тот же механизм — ключевые слова.

Тэги

С ростом социализации глобальной сети и распространением идей фолксономии в ход пошла несколько переработанная версия ключевых слов — тэги (tags). Реинкарнация потребовалась из-за того, что ключевые слова оптимизированы под каждый сайт или блог — и, если попытаться объединить ключевые слова с разных блогов в одну кучу, то такие разношерстные наборы фолксономия не потянет.

Технически же тэги от ключевых слов мало чем отличаются, главным образом упрощением: таги (в отличие от ключевых слов) не могут быть иерархическими и состоять из нескольких слов.

Отличие тэгов от ключевых слов — в основном в схемах использования. Если ключевые слова чаще всего отражают основные темы записей (статей) и ориентированы на внутреннее использование, то тэги ориентированы на экспорт (хотя никто не запрещает их использовать и локально) в общую копилку (распределенная фолксономия возможна, но сложна в реализации). Копилка может быть как глобальной (Technorati), так и не очень (на уровне сервиса; например, diigo).

Наличие копилки приводит к двум интересным моментам:

— для тэгов лучше не использовать уникальные слова — они будут тонуть на фоне частоупотребимых и, соответственно, вылетать из облака тэгов — популярного средства презентации тэгов посетителям,

— поиск, если его специально не ограничивать, будет идти по этой копилке и показывать результаты сразу из нескольких источников при достаточно условной релевантности.

Кроме того, тэги — это максимальное упрощение классификаторов, так как более продвинутые системы массовый лемминг может и не освоить — ему нужны максимально простые и удобные возможности.

Шумы

Такие нюансы и приводят к тому, что в тэгах присутствуют не только главные темы, но и все упомянутые в заметке или статье темы. Поэтому ситуация, когда на десять предложений в заметке приходится десять тэгов — вполне нормальная. Чем больше тэгов — тем больше вероятность, что статью (заметку) найдут. Так сайты и становятся генераторами шума (кстати, если взять текст заметки, выкинуть общеупотребимые слова, а оставшиеся использовать в качестве тэгов — то получится весьма продвинутый генератор шума).

Обратная сторона такого подхода — при поиске по какому-то тэгу мы найдем кучу записей, но больше 90% записей будут для нас бесполезны, так как нужная нам тема упоминается в них вскользь и не является основной.

В итоге: искать (делать выборку) по тэгам можно, но толку от этого мало — шумов много. Соответственно, эффективность использования тагов составляет порядка 10% от возможной.

Зашумление, кстати, проблема не только тэгов, но и остальных социальных инструментов Web 2.0.

Гадкие спаммеры

Пользователям Web 2.0 невероятно везет. Спаммеры пока еще мало внимания обращают на социальные сети и сервисы. Но как только обратят — все сильные стороны (которые и привлекают пользователей) тут же станут их слабым местом. Например, в один прекрасный момент вы с удивлением обнаружите, что в закладочном сервисе по тэгу php выдаются линки не на php, а на порнуху, хотя их описание практически совпадает с правильными.

Если спаммеры перейдут с массовых методов ковровой бомбардировки на использование более тонких социальных методов (на использовании которых и основаны Web 2.0 сервисы и сети), то деваться будет уже некуда, так как спам будет распознаваться только в последний момент. Тогда же, наверное, и появится термин социальный спам. По крайней мере, термины тэговый дорвей или дорвей в стиле Web 2.0 уже есть. А фильтров, способных противостоять такой технологии, пока нет. В Яндексе вообще полагают, что спамить теги нет смысла.

В этой ситуации сервисы действительно ничего не проигрывают, а вот пользователи… пользователи будут вынуждены обратиться к информационным посредникам и менеджерами знаний.

Оцените статью
BYBANNER.COM