Новости Статьи для Neural Ru Я составил файл установки и DEPENDENCES.cfg для neuralsite

Поработал с коннектором HTTP

Степан Ломов  2007-11-16 04:41

Поработал с коннектором HTTP. Это такая хрень, что если натравить ее на чужой сайт, то можно отсосать оттуда материал. Но, к сожалению не все так просто: материал-то будет в дизайне того сайта. Это не проблема, так как простое XSLT преобразование вырезает все теги, и остается что-то очень похожее на наш сайт. Правда остаются заголовок и окончание страницы, которые тоже здорово бы подрезать. Как это сделать на XSLT в общем случае - я не знаю, поэтому пришлось придумать прототип эвристического алгоритма. Он показывает удовлетворительные результаты, но все-таки далек от совершенства...

Эвристический алгоритм это просто нечто. Идея в том, что бы найти наибольшую область с наименьшей плотностью тегов. Заголовок и окончание вырезает на "раз", остается только текстовая область. Правда, походу в центре текста попадаются какие-то всплески плотности вероятности и от области остается либо хвост, либо грива. Все-таки это не марковский процесс. Надо что-то придумать и для такого случая.

Эпицентр Zope3 Учат тут Нейросети Репозиторий Статистика Редакторам Проекты
Подписаться на RSS Feed Официальный сайт Zope3 Московская группа изучения реактивного движения The Dream Bot Site noooxml