Web-мастер: курс молодого бойца

Можно ли?

   

 Добавлено 2009-07-14 14:41:41
AnyKey


Сообщений: 54
Зарегистрирован: 15.12.2008

Цитировать
Здравствуйте всем!
Передо мной встала небходимость выдёргивания статей посредством парсера с овостного сайта, конкретно отсюда: http://kr.oblast74.ru/
Из полей мне соответственно нужны: заголовок, описание ну и сам текст..
Я читал информацию про xml парсеры, с этим проблем нет - из ленты информация выдёргивается..
А как из страниц а именно то место где новости прописываются можно выдернуть статью?? исходный код главной страницы меня малсть тормозит..
Пытался воспользоватся скриптом, который здесь приводили:
<?php 
$html 
file_get_contents'http://kr.oblast74.ru/' ); 
preg_match_all'#<div class="news_text">(.+?)</div>#is'$html$matches ); 
echo 
$matches[1]; 
foreach ( 
$matches[1] as $value ) echo $value.'<hr>'
?>
Описание выводится, уже радует, но естественно с кучей левых тегов..
Насколько я понимаю мне раземнее всего заносить результат в базу, а оттуда вытаскивать?? потому как новость должна выводиться на главной в качестве анонса и переходя по ссылке на внутреней странице сайта...
Возможно ли это сделать в принципе? то есть выдернуть сам текст избавив его попутно от тех тегов которые на моём сайте мгут оформление портить??

Помогите пожалуйста с решением!))
Наверх  Посмотреть профиль   Отредактировано автором 14.07.2009

 Добавлено 2009-07-14 22:05:52
evgenijj
Модератор




Сообщений: 1371
Зарегистрирован: 09.11.2007

Цитировать
Мутно как-то написал. От тегов избавиться можно - есть функция srip_tags()
AnyKey пишет:
из ленты информация выдёргивается
А что означает - "из ленты выдергивается"? Если мы имеем корректный XML, можно воспользоваться штатными функциями PHP для извлечения информации:
Создание RSS-ленты новостей
Тут дело в следующем: есть сайт, информацию с которого нам хотелось бы использовать. Если этот сайт дает возможность нам получит эту информацию вполне официально (например, есть RSS-лента) - нам повезло. Если нет - выкручиваемся сами: запрашиваем страницу, и "вытягиваем" нужную информацию. При этом, надо понимать, что владельцу сайта это может не понравится. Он может нас и заблокировать по IP.

Поэтому - о каких решениях может идти речь? Все очень индивидуально.


Денежные купюры пронумерованы для того, чтобы когда-нибудь я мог сложить их все одну к одной, по порядку.
Наверх  Посмотреть профиль   Сайт автора  

 Добавлено 2009-07-15 05:59:59
AnyKey


Сообщений: 54
Зарегистрирован: 15.12.2008

Цитировать
evgenijj пишет:
А что означает - "из ленты выдергивается"?
Нну это примерно и означает, что берутся данные из rss и заносятся на свой сайт..
По поводу главного вопроса. Основная суть такая: взять (незаметненько=) с другого сайта информацию новостного характера и, посредством парсера скопировать её на другой сайт.. То есть просто автоматическое заполнение новостного контента..
Я с этим дела не имел раньше, потому и спрашиваю совета..
Про rss тоже думал, но там получается только заголовок от новости и краткое описание.. Для полной новости маловато всё ж будет..
..в идеале же должно получитсья так:
- на главной выводится заголовок новости и по ссылке переход на страницу с полным текстом..

А ещё мне нужно будет сделать сайт, который бы так же парсил данные с яндекс.маркета - это возможно вообще?o_O Ну то есть.. с яндекса.. тырить инфу.. идеи не мои - я исполнитель просто собстно..
Наверх  Посмотреть профиль    
   
Быстрый ответ
 
Цвет шрифта: Закрыть все теги
Сообщение
Защитный код