Web 3.0. Эпоха предсказаний.
В настоящее время уже все, кто хоть как-то связан с областью веб-технологий, наслышаны о таком понятии как Веб 2.0. Появление этого явления обычно ассоциируют с публикацией статьи «Tim O’Reilly — What Is Web 2.0», русский перевод которой можно прочитать здесь: [ссылка].
А если коротко, то Веб 2.0 – это новая версия платформы веба. То есть там все происходит по другим правилам. Если раньше мы старались создать огромное кол-во уникального контента сайта вручную и тем самым привлечь как можно больше пользователей, то сейчас пользователи сами генерируют контент. Чем больше пользователей у сайта, тем больше контента на нем появляется, и тем популярней он становится. Если раньше мы разбивали разделы сайта по категориям, то сейчас каждому элементу присваивают ключевые слова (теги) и ключевым элементом навигации становятся они. Именно такие принципы лежат в основе веба 2.0. Некие задатки, так сказать, самоорганизующейся системы. Некоторые конечно приписывают еще и технологию Ajax к движущим силам веб 2.0, но я так не думаю.
Кроме того, начинает набирать популярность синдикация информации (многие знают про RSS – это одно из проявлений синдикации). Синдикация стирает привязанность информации к конкретному ресурсу и делает ее доступной из любой точки (из которой удобнее ее получать пользователю, например). Другими словами информация теперь доставляется пользователям, как beer`ка к пиву 😉
Это все веб 2.0. Но время не стоит на месте, как и Интернет-технологии. Теперь же все большую популярность приобретают Веб 3.0 концепции. Вот это для некоторых читающих уже что-то новенькое, готов поспорить.
Что ж, эта статья как раз про Веб 3.0, так что у Вас есть реальная возможность заполнить некоторые пробелы 😉
Предпосылки
В настоящее время информация в вебе представляет собой набор разнообразных страниц различных сайтов. При этом каждая страница имеет уникальный адрес, даже эта страница, которую Вы читаете (адрес в адресной строке браузера). Другими словами, весь веб (именно веб, Интернет – это более общее понятие) - это огромное количество информационных кусков (страниц), каждый из которых имеет свой уникальный адрес.
Посредством своих адресов все эти страницы связаны между собой, что позволяет пользователю и поисковым системам хоть как-то увязывать между собой однородную информацию.
Тут правда следует подчеркнуть особую роль поисковых систем, таких как Яндекс и google.
Допустим, человек интересуется веб-разработкой и современными тенденциями в этой области, то он набирает в адресной строке браузера https://i-novice.net и получает необходимую ему информацию 😉 Но, давайте будем откровенными – эта информация не исчерпывающая.
Тексты на этом блоге просто физически не могут покрыть всю ДОСТУПНУЮ на текущий момент информацию, которая относится к теме веб-разработки. А поисковые системы, как раз, играют роль классификатора для всей информации в вебе. Они собирают самую подходящую информацию по заданному поисковому тексту пользователя и выводят ее в порядке уменьшения значимости.
Если подумать, то эти системы преодолевают один очень важный барьер “неделимости” информационных страниц в вебе. Ведь посредством адресов страниц можно однозначно указывать на информацию с точностью только до страницы, на которой она находится. А что, если Вас интересуют телефоны компаний, изготавливающих пластиковые окна в Вашем городе?
В этом случае текущая платформа веба не в состоянии предоставить необходимую информацию сразу и однозначно (надо сначала найти сайт компании, а уже там искать контакты), даже силами поисковых систем. В результате чего человек получает большое количество избыточной информации, тратит время и его деятельность становится неэффективной.
Общие сведения
Вот и мы и добрались до самого интересного. Все что я написал выше – это далеко не единственные проблемы, или лучше сказать ограничения, которые становятся на пути человеческой мысли. Но есть и хорошие новости – все эти проблемы разрешимы, по крайней мере, первые шаги по их разрешению уже предпринимают
Наверняка, многие уже слышали про такое изобретение, как микроформаты.
Вот краткое определение из всемилюбимой википедии.
“Микроформаты (иногда сокращается до ?F или uF) — часть языка разметки, которая позволяет помечать семантику в веб-страницах на HTML или XHTML. Программы могут извлекать данные из веб страниц, которые помечены одним или несколькими микроформатами.”
После прочтения этого определения, сомневаюсь, что все сразу встало на свои места для многих. Но если вспомнить про мою мысль, относительно информационной “неделимости” в вебе, то сразу становится понятно, для чего же нужны эти микроформаты.
Микроформаты – это первый шаг на пути к семантическому вебу. Ранее “неделимые” страницы начинают приобретать обособленные области, которые содержат информацию и указывают на ее тип (номер телефона, адрес, имя человека, название компании и т.д.).
Я знаю, звучит не совсем понятно. Покажу на примере. Вот, допустим, указывается на странице контактная информация какого-то менеджера какой-то компании:
Вася Пупкин, MicroCompany, 123-45-67, .
Если на такую страницу зайдет поисковик, то он не поймет, что это за информация, а просто увидит текст, цифры и ссылку.
А если эта информация будет записана с использованием микроформата hCard:
<div class="vcard"> <div class="fn">Василий Пупкин</div> <div class="org">Microcompany</div> <div class="tel">123-45-67</div> <a class="url" href=https://microcompany.org/vasya> https://microcompany.org/vasya</a> </div>
То как только поисковик зайдет на страницу, то сразу поймет, что в компании MicroCompany есть такой сотрудник как Вася Пупкин с телефоном 123-45-67 и сайтом https://microcompany.org/vasya/ . А данные сохранит у себя в базе. Позже, эти данные могут быть использованы в результатах поиска.
В этом и заключается задача микроформатов – указывать тип (назначение) информации для участков страниц.
Эта технология хоть и не так широко распространена (не надолго это), но уже имеет большое количество реализаций.
Например:
hAtom – для разметки синдицированных данных непосредственно в html.
hCalendar – для разметки событий
hCard – для контактной информации
hReview – для обзоров
hResume – для резюме
ну и много других.
Большинство из них пока что находят применение только внутри небольших систем, отдельных организаций и компаний.
Как видите, микроформаты не несут никакой прямой информации для человека. Как он видел раньше на странице имя Вася Пупкин, так оно и будет выглядеть после внедрения микроформата hCard. Но, микроформаты призваны очень облегчить жизнь машинам, обрабатывающим и структурирующим огромные количества веб-информации, так как содержат в себе информацию о типе информации или метаданные.
Знание
Следует понимать разницу между двумя понятиями – информация и знание. Информацию несет в себе все, что существует в этом мире. А вот определение знания:
“Знание — форма существования и систематизации результатов познавательной деятельности человека.”
Если говорить грубо, то знание – это ПОЛЕЗНАЯ информация. Смотря с этой точки зрения можно сказать, что поисковые системы занимаются выделением знаний из огромного кол-ва информация доступной в вебе.
Вполне очевидно, что микроформаты выполняют аналогичную задачу, но в небольших масштабах.
Вспомним последний пример:
Есть у нас информация: Вася Пупкин, 123-45-67, . Для любой машины – это просто набор цифр и букв, который может быть похожим, на то, что Вы ищите.
А вот если оформить это в микроформат, то эта информация становится знанием, потому что мы узнаем, что 123-45-67 – это телефон Васи Пупкина, а – это его сайт.
Тут мы подходим к еще одной особенности платформы Web 3.0. Web 3.0 – оперирует знанием, а не информацией. Как она это может делать? Этот вопрос уже немного технический, но объяснить можно и простыми словами.
Один из подходов к реализации знания в вычислительной технике – это так называемая техника триплетов. Все знания, доступные машине оформляются в удобной форме: субъект – предикат – объект.
Если говорить проще, то знание “Yandex – это поисковая система” хранится в виде
Субъект | Предикат | Объект
———————————————-
Yandex | это | поисковая система
Тот, кто еще не забыл уроки дискретной математики, должен понимать, что такая модель может быть реализована в графах или матрицах, что является очень привлекательным с точки зрения программирования.
Это все звучит довольно абстрактно, я согласен, но если Вас интересуют подробности реализации этой технологии, то в конце статьи я приведу ссылки на описание концепции RDF.
Эпоха предсказаний.
Современные поисковые системы работают с так называемыми алгоритмами Text Mining, которые анализируют и классифицируют текст, с целью выявления знаний, затрачивая на огромное кол-во ресурсов (у каждого текста может быть несколько тысяч характеристик).
В результате мы получаем списки ресурсов схожих с поисковым текстом в порядке убывания схожести.
Люди знакомые, с такими областями как Text Mining и Data Mining знают, что основной отличительной особенностью между ними является кол-во характеристик объектов, с которыми эти алгоритмы работают. Алгоритмы Data Mining, например, работают с уже подготовленными и в некотором роде структурированными объектами с небольшим кол-вом характеристик (несколько десятков и меньше).
К чему это я? А к тому, что фактически, после масштабного внедрения микроформатов, поисковые системы смогут активно применять уже алгоритмы Data Mining, вместо ресурсоемких Text Mining, потому что в их распоряжении будет не просто текст, как раньше, а типизированные объекты, которые уже гораздо легче и точнее можно классифицировать.
В результате, необходимую информацию по поисковому тексту люди будут получать в первых же строках результатов. Кто знает, может вероятность верного ответа поисковой системы на поисковый текст станет такой большой, что ручной отсев пользователем лишних результатов станет не нужен вообще? И тогда все забудут про такие сайты как и , потому что их работа будет скрыта от глаз пользователей и браузеры будут работать с ними самостоятельно.
“А теперь, представьте себе, какие возможности открываются в перспективе этой платформы! Учитывая огромные вычислительные ресурсы поисковых систем и те гигантские объемы доступной им информации в хронологическом порядке заархивированной, можно ведь проанализировать все собранные эмпирические данные и выявить невероятное кол-во закономерностей, которые позволят предсказывать некоторые события!” – хотел бы я сказать в этом разделе, но, увы, все выглядит не так оптимистично, пока. Пока что удел алгоритмов добычи знаний – это классифицировать информацию и давать вероятностную оценку некоторым фактам. Поэтому, не стоит заблуждаться относительно безграничных возможностей новой платформы.
Хотя, даже то, что уже сегодня возможно, после внедрения Web 3.0 может привести, например, к реализации таких проектов, как браузер Aurora от MozzilaLabs:
Очень советую посмотреть это видео. Речь там английская, но и без нее все понятно
Ограничения
Есть правда несколько небольших проблем на пути масштабного внедрения платформы Web 3.0. Даже не столько внедрения, сколько полноценной работы. Первая проблема – это достоверность предоставляемых данных. Нельзя гарантировать, что информация о человеке, размещенная в hCard является правдой. Вторая проблема – как заставить всех пользователей при заполнении контента их сайта пользоваться микроформатами?
Так что, скорее всего Web 3.0 начнет свое движение с больших проектов, вроде социальных сетей и других сервисов, которые будут сами заинтересованы в предоставлении достоверной информации (может материально даже, учитывая быстрорастущий рынок on-line рекламы?). А поисковики, будут пробовать внедрять свои технологии ранжирования уже для знаний, а не для информации, и оценивать им придется степень достоверности данных и ранжировать результаты по этому критерию. Но это, как говориться, уже совсем другая история… 😉
Информация по теме:
- Перевод первой статьи о Web 2.0
- Микроформаты
- Подробно об RDF (англ.)
- W3C про RDF
- Data Mining на INTUIT.ru
P.S: Помните я недавно затрагивал тему облака тегов? Автор блога [ссылка] предложил свою версию реализации алгоритма.
… людей уже заменяют роботы. Они гораздо быстрее общаются между собою.
Вэб2 вымирает. Вэб вообще уже координально меняет свои схемы.
В общем, бизнес уйдет в свою сеть, которая создаётся с помощью
прикладных программ для обмена информацией и дальнейшему ее анализу.
Все вложения пойдут именно в бизнес-сеть. Мусорный хлам в виде сайтов
постепенно будет отчищаться мутировавшими роботами. Без капитало-
вложений Вэб в том виде, что его знают - просто исчезнет.
Родится новый киберсапиенс, которому не грозит ничего вирусного.
“Продвижение” будет в истории Вэба как Монгольское иго.
Интересная гипотеза
Web 3.0-это будущее которое оставит в конце концов человечество без проблем)