подписка: RSS | Комментарии | Email

Разговоры Во Время Секса. Нужны Ли?
share this article on delicious share this article on stumbleupon share this article on technorati share this article on linkedin share this article on google bookmarks share this article on furl share this article on newsvine
!
Второй Белорусский Минибаркэмп – ByCamp 2

Open Calais. Семантический Веб На Практике

6 comments

Calais 01

2008 год – год семантических сервисов. Firefox 3 теперь моддерживает микроформаты, New York Times не отстаёт, а Google выпускает Social Graph API. Я уже не говорю о появлении сервисов типа FreeBase. Всё очень просто – крупные компании сфокусировались на структурировании информации. А это, дорогие мои читатели, как раз то, что и определяет семантические технологии. Структура, разложение по полочкам, теггирование, ну и в том же духе.

И международный новостной и бизнес гигант Reuters сделал возможно один из самых значимых вкладов в это благое дело – запустил систему Open Calais, которая через API позволяет делать семантическую размётку неструктурированных документов, говоря проще – чистого текста. Она распознаёт людей, места, компании, события и многое другое. Делает текст машинопонимаемым!

Принцип работы Open Calais

Всё элементарно – она вытягивает из текста метаинформацию, говоря проще – на каждый кусок текста создаёт целую кучу тегов, которые можно затем использовать по своему усмотрению. Вся информация, содержащаяся в тексте, представляется в виде трёх основных категорий – Объекты (люди, компании, организации, книги, авторы, альбомы и т.д.), Факты (должности, степени, заслуги, виды деятельности и т.д.), События (спортивные, управленческие, бизнес-конференции, протесты и т.д.)

При том учитывайте, что обработка данных происходит очень быстро, за одну секунду вы получаете полный анализ вашего текста, даже если он очень большой.

По ходу дела, Calais не может обрабатывать статические HTML страницы, ему нужен XML документ, то есть подойдут любые динамические сайты. Из недостатков системы можно назвать перенасыщенность получаемых текстов сторонним кодом, всё таки было бы круто, если бы на выходе можно было получать только теги и их позиции в тексте.

Кстати, забыл сказать, что Calais абсолютно бесплатна! Для некоммерческого использования, естественно.

Зачем это нужно вообще?

Пожалуйста. Во-первых – улучшенный поиск. Зная, что конкретно вы ищете, вы сужаете область поиска, задав объекты, свойства или события перед вводом ключевых слов. Во-вторых – интеллектуальная система поиска похожего контента. В-третьих – улучшение качества текстов, например, посредством автоматической вставки в них ссылок. Вот вы пишите про Беларусь, а система автоматически ставит ссылку на сайт президента :) В-четвёртых – отличная система уведомлений о появлении новой информации по конкретным объектам или событиям. Ну и наконец неплохо бы если весь этот процесс происходил на стороне браузера, это бы значительно повысило скорость анализа и позволило бы настолько расширить функционал нового браузера, что даже страшно подумать :)

Зачем это нужно Reuters?

Бесплатный сыр бывает только в мышеловке. Мы не платим за использование этого чудесного сервиса, но медиамонстр замышляет коварные планы… Гэрри Кэмпбелл (Gerry Campbell), отвечающий за всякие технические инновации в Reuters, так и сказал: «Мы присвоим теги всему миру!». Как только весь мировой контент станет легкодоступным, структурированным и машинопонимаемым (уж простите меня за это определение, но другого не подобрал), Reuters выиграет. Если конечно на рынке не появятся другие такие же мощные игроки.

Можете также пофантазировать на тему гигантской базы данных мировой информации, которую собирает сейчас Reuters. Ведь в ней так или иначе, рано или поздно, появится всё представляющее хоть какой-нибудь интерес. И вся эта база будет динамически изменяться, между её сегментами будут образовываться связи, можно будет отслеживать все мировые явления и т.д. и т.п. Ведь всё, что для этого надо – так это сайты, использующие данную технологию себе во благо!

Вывод

Open Calais – символ прихода новой эры информационного общества, эры, которая ещё не получила своё название, но обязательно получит. Это не хорошо и не плохо, это логическое развитие технологий. И оно принесёт нам только пользу, всё станет проще и доступней для пользователей, сложные инструменты окажутся очень даже дружелюбными, мы сможем значительно повысить эффективность работы.

Но какие скрытые последствия повлечёт за собой тотальная стандартизация информации – предугадать тяжело…

http://www.opencalais.com/


  1. Во-первых, извинений за машинный перевод. Быстрой коррекции – Calais, если бесплатно не только для личного использования, – но вы можете свободно использовать до 40000 раз в день для коммерческого использования, как хорошо.

    Привет,

  2. Igor Kandyba:

    Its okay, I know, I`m participating in developing of Polymeme.com, which uses Open Calais. We are proud to use it, it works as a dream :))

  3. А как FF3 поддерживает микроформаты?

  4. Igor Kandyba:

    Ну хотя бы вот так: https://addons.mozilla.org/en-US/firefox/addon/3886
    А вообще рекомендую почитать http://www.readwriteweb.com/archives/mozilla_does_microformats_firefox3.php

    Извиняюсь, что комменты не приходят на почту, еще не настроил мэйл-сервер :))

  5. новостной и бизнес гигант Reuters сделал возможно один из самых значимых вкладов в это благое дело – запустил систему Open Calais

    ну он кстати не запустил, а купил компанию Clearforest, которая эту систему уже давно разрабатывала. так немного точнее :)

  6. По ходу дела, Calais не может обрабатывать статические HTML страницы, ему нужен XML документ, то есть подойдут любые динамические сайты. Из недостатков системы можно назвать перенасыщенность получаемых текстов сторонним кодом, всё таки было бы круто, если бы на выходе можно было получать только теги и их позиции в тексте.

    == не совсем так. сервис Calais работает через API, а вот что вы скормите этому API – это ничем не ограничено. можно любой текст или статический HTML. ну и опять же – на выходе API можно получать только тэги, и ничего лишнего, или весь размеченный текст, или и то, и другое :-)

Leave a Reply