Rambler's Top100
"Knowledge itself is power"
F.Bacon
Поиск | Карта сайта | Помощь | О проекте | ТТХ  
 Круглый стол
  
Правила КС
>> Настройки

Фильтр вопросов
>> Новые вопросы
отслеживать по
>> Новые ответы

Избранное

Страница вопросов
Поиск по КС


Специальные проекты:
>> К л ю к в а
>> Г о л о в о л о м к и

Вопрос №

Задать вопрос
Off-topic вопросы

Помощь

 
 К н и г и
 
Книжная полка
 
 
Библиотека
 
  
  
 


Поиск
 
Поиск по КС
Поиск в статьях
Яndex© + Google©
Поиск книг

 
  
Тематический каталог
Все манускрипты

 
  
Карта VCL
ОШИБКИ
Сообщения системы

 
Форумы
 
Круглый стол
Новые вопросы

 
  
Базарная площадь
Городская площадь

 
   
С Л С

 
Летопись
 
Королевские Хроники
Рыцарский Зал
Глас народа!

 
  
ТТХ
Конкурсы
Королевская клюква

 
Разделы
 
Hello, World!
Лицей

Квинтана

 
  
Сокровищница
Подземелье Магов
Подводные камни
Свитки

 
  
Школа ОБЕРОНА

 
  
Арсенальная башня
Фолианты
Полигон

 
  
Книга Песка
Дальние земли

 
  
АРХИВЫ

 
 

Сейчас на сайте присутствуют:
 
  
 
Во Флориде и в Королевстве сейчас  13:58[Войти] | [Зарегистрироваться]
Ответ на вопрос № 59903

Вопросы с аналогичными сообщениями об ошибках:
  • Abstract error (13)

    02-03-2008 15:35
    Господа, разбираюсь с mshtml и парсингом html.
    Изучил статью http://www.delphikingdom.com/asp/viewitem.asp?catalogid=366#SimplyParser и »вопрос КС №37747«.
    (саму страницу получаю через idHTTP и потом конвертирую в IHTMLDocument2, по методу из вопроса »вопрос КС №45315«. кстати, это самый оптимальный вариант?)
    Пытаюсь написать несколько функций для упрощения парсинга:

    getElementsByAttr('имя атрибута', 'свойство атрибута', 'значение атрибута'); // getElementsByAttr("div", "class", "tableborder")
    getElementsByTagName('имя атрибута');
    ...


    каждая из функций в результате должна возвращать Tstrings, каждый элемент которой будет содержать innerHTML той части html, которая удовлетворяет условию.

    Но, на первой функции все остановилось:


    function getElementsByAttr(iDoc: IHTMLDocument2; iTagName, iAttribute, iValue: String): TStrings;
    var
        iDisp: IDispatch;
        iElement:IHTMLElement;
        i:integer;
    begin
      getElementsByAttr := TStrings.Create();
      if not Assigned(iDoc) then begin
        getElementsByAttr.Clear;
        Exit;
      end;

      for i:=1 to iDoc.All.Get_length do begin
        iDisp := iDoc.Get_all.item(pred(i), 0);
        iDisp.QueryInterface(IHTMLElement, iElement);
        if Assigned(iElement) then
        begin
          If (iElement.Get_tagName = iTagName) And (iElement.getAttribute(iAttribute, 0) = iValue) Then
            getElementsByAttr.Add(iElement.innerHTML);
        end;
      end;

    end;


    при использовании функции программа выдает Abstract Error.
    Не могу понять в чем ошибка.

    (или, может, я изобретаю велосипед и такие функции уже есть?)

    [+] Добавить в избранные вопросы

    Отслеживать ответы на этот вопрос по RSS

    Ответы:


    Уважаемые авторы вопросов! Большая просьба сообщить о результатах решения проблемы на этой странице.
    Иначе, следящие за обсуждением, возможно имеющие аналогичные проблемы, не получают ясного представления об их решении. А авторы ответов не получают обратной связи. Что можно расценивать, как проявление неуважения к отвечающим от автора вопроса.

    28-06-2010 04:30
    А чего их делать - регулярные выражения всегда решают все проблемы. А на кой использовать WebBrowser для парсинга мне не понятно совершенно. Сложно, а пользы практически никакой. Ну может поначалу кажется проще, а потом - регулярные выражения становятся столь просты, что про WebBrowser просто забываешь как про страшный сон. Не, для отображения он конечно хорош, а вот для парсинга ну никуда не годен.

    WebBrowser не обяхательно использовать. Можно воспользоваться IHTMLDocument2 как уже указвали ранее.

    Использовать регулярные выражения для парсинга в данном случае черевато ошиьками (сам так делал, признаю). Конкретнее почему НЕ надо использовать регекс здесь: http://stackoverflow.com/questions/701166 ( Can you provide some examples of why it is hard to parse XML and HTML with a regex? )

    06-04-2008 15:13
    >>> парсингом html и не сделал для себя несколько удобных функций
    А чего их делать - регулярные выражения всегда решают все проблемы. А на кой использовать WebBrowser для парсинга мне не понятно совершенно. Сложно, а пользы практически никакой. Ну может поначалу кажется проще, а потом - регулярные выражения становятся столь просты, что про WebBrowser просто забываешь как про страшный сон. Не, для отображения он конечно хорош, а вот для парсинга ну никуда не годен.
    >>> насколько использование mshtml "утяжеляет" конечный файл
    Я использую XMLDocument для парсинга XML и размер выходного файла вырос на 150 килобайт. В принципе, несущественно.

    29-03-2008 16:19 | Сообщение от автора вопроса
    а нет ли у кого-нить готовых функций getElementsByAttr, getElementsByTagName, написанных без использования mshtml? насколько использование mshtml "утяжеляет" конечный файл?

    06-03-2008 04:37
    говорит ли это о том, что её можно парсить как xml?
    Насколько я понимаю, да. Т.е. вообще HTML - нестрогий, теги могут закрываться, а могут и нет, например у абзаца (параграфа) может быть закрывающий тег, а может и не быть, атрибуты не обязательно - в кавычках и т.д. В XHTML - всё строго, как в XML.
    Есть ли в этом какие-нибудь преимущества?
    На мой взгляд, нет. Для XML-парсера документ - просто древовидная структура. HTML-парсер из IE (mshtml.dll) знает о конкретном устройстве HTML страницы, что у нее есть body, title и т.д., знает о конкретных ее элементах.

    Например, как я уже написал, можно сходу получить все ссылки на странице просто через свойство Document.Anchors.
    А через интерфейс IHtmlAnchor можно получить практически всю информацию о ссылке. Это просто пример.

    05-03-2008 13:37 | Сообщение от автора вопроса
    Спасибо всем за ответы!

    Если страница в заголовке содержит
    <?xml version="1.0" encoding="UTF-8"?>
    <html xmlns="http://www.w3.org/1999/xhtml">

    говорит ли это о том, что её можно парсить как xml?
    Есть ли в этом какие-нибудь преимущества?

    05-03-2008 05:00 | Комментарий к предыдущим ответам
    И еще, в Дельфи строчки
        iDisp := iDoc.Get_all.item(pred(i), 0);
        iDisp.QueryInterface(IHTMLElement, iElement);
    можно заменить на
      iElement := iDoc.Get_all.item(pred(i), 0) as IHTMLElement;
    Код получается короче и имхо понятней.

    05-03-2008 04:48 | Комментарий к предыдущим ответам
    IHtmlDocument2 и IHtmlDocument2
    в смысле IHtmlDocument2 и IHtmlDocument3 :)

    05-03-2008 04:47 | Комментарий к предыдущим ответам
    >>>Html не возможно распарсить ввиде дерева, его всегда выводят.
    Html распарсить можно. Это делает например встроенный в IE парсер из mshtml.dll, которым пользуется автор вопроса.

    Автору: советую изучить интерфейсы IHtmlDocument2 и IHtmlDocument2 из MSHTML_TLB. Там есть множество полезных функций. Интерфейс IHtmlDocument3 можно получить из переменной типа IHtmlDocument2 через оператор as.
    Например в IHTMLDocument3:

        function getElementsByName(const v: WideString): IHTMLElementCollection; safecall;
        function getElementById(const v: WideString): IHTMLElement; safecall;
        function getElementsByTagName(const v: WideString): IHTMLElementCollection; safecall;
        property documentElement: IHTMLElement read Get_documentElement;



    В IHtmlDocument2:

        property activeElement: IHTMLElement read Get_activeElement;
        property images: IHTMLElementCollection read Get_images;
        property applets: IHTMLElementCollection read Get_applets;
        property links: IHTMLElementCollection read Get_links;
        property forms: IHTMLElementCollection read Get_forms;
        property anchors: IHTMLElementCollection read Get_anchors;
        property title: WideString read Get_title write Set_title;
        property scripts: IHTMLElementCollection read Get_scripts;


    05-03-2008 04:26
    Html не возможно распарсить ввиде дерева, его всегда выводят. А под парсингом подразумевается нахождение определенных значений. Это делается средствами регулярных выражений. А зачем вам это потребовалось не понятно.

    04-03-2008 10:56 | Сообщение от автора вопроса
    Неужели никто вплотную не занимался парсингом html и не сделал для себя несколько удобных функций?
    Очень рассчитываю на Вашу помощь!

    03-03-2008 15:13 | Сообщение от автора вопроса
    пока получились такие функции:


    function getElementsByAttr(iDoc: IHTMLDocument2; iTagName, iAttribute, iValue: String): TStringList;
    var
        iDisp: IDispatch;
        iElement:IHTMLElement;
        i:integer;

    begin
      getElementsByAttr := TStringList.Create();
      if not Assigned(iDoc) then begin
        getElementsByAttr.Clear;
        Exit;
      end;

      for i:=1 to iDoc.All.Get_length do
      begin
        iDisp := iDoc.Get_all.item(pred(i), 0);
        iDisp.QueryInterface(IHTMLElement, iElement);
        if Assigned(iElement) then
        begin
            If UpperCase(iElement.Get_tagName) = UpperCase(iTagName) Then
              If iElement.getAttribute(iAttribute, 0) <> null then
                  If UpperCase(iElement.getAttribute(iAttribute, 0)) = UpperCase(iValue) Then
                    getElementsByAttr.Add(iElement.innerHTML);
        end;
      end;

    end;

    function getElementsByTagName(iDoc: IHTMLDocument2; iTagName: String): TStringList;
    var
        iDisp: IDispatch;
        iElement:IHTMLElement;
        i:integer;

    begin
      getElementsByTagName := TStringList.Create();
      if not Assigned(iDoc) then begin
        getElementsByTagName.Clear;
        Exit;
      end;

      for i:=1 to iDoc.All.Get_length do
      begin
        iDisp := iDoc.Get_all.item(pred(i), 0);
        iDisp.QueryInterface(IHTMLElement, iElement);
        if Assigned(iElement) then
        begin
            If UpperCase(iElement.Get_tagName) = UpperCase(iTagName) Then
                getElementsByTagName.Add(iElement.innerHTML);
        end;
      end;

    end;



    Хотелось бы в результате работе функций получать не TStringList, а IHTMLDocument2 снова, чтобы были возможны конструкции вида:


      getElementsByTagName(getElementsByAttr(iHTTP, 'div', 'id', 'content'), 'div');


    хотя такая запись ненаглядна, и в идеале добавить бы методы к стандартному IHTMLDocument2, чтоб были возможны конструкции:


      linkslist := d.getElementsByAttr('div', 'id', 'content')[0];
      validlinkslist := linkslist.getElementsByTagName('tr');
      // или даже:
      validlinkslist := d.getElementsByAttr('div', 'id', 'content')[0].getElementsByTagName('tr');


    Возможно ли такое? Как можно реализовать?

    Кстати, обнаружил интересный комментарий к функции getAttribute в MSDN:
    When retrieving the CLASS attribute using this method, set the strAttributeName to be "className"
    (долго не мог понять почему же по запросу iElement.getAttribute('class', 0) ничего не возвращается)

    03-03-2008 06:26 | Сообщение от автора вопроса
    Нет, я парсю html, а не xml

    03-03-2008 05:07 | Вопрос к автору: запрос дополнительной информации
    Вы парсите XML? Тогда лучше импортировать MSXML_TLB и загружать туда фаил
    var
      XMLDOM: RXMLDOM;
      PI: IXMLDOMProcessingInstruction;
    begin
      XMLDOM.IDoc := CoDOMDocument.Create;
      XMLDOM.IDoc.Set_async(False);
      PI := XMLDOM.IDoc.CreateProcessingInstruction('xml', 'version="1.0"');
      XMLDOM.IDoc.appendChild(PI);

      XMLDOM.IDoc.loadXML(..);

    02-03-2008 16:28
    Заменил код проверки на

    If (UpperCase(iElement.Get_tagName) = UpperCase(iTagName)) And (UpperCase(iElement.getAttribute(iAttribute, 0)) = UpperCase(iValue)) Then

    (чтоб регистр не учитывался), вроде стало более-менее работать. Тем не менее, почему-то на этой строке иногда появляется ошибка -
    Couldn't convert variant of type (Null) into type (String)
    это getAttribute что ли возвращает null?

    и, пока еще не понял, какова глубина работы моей функции...
    т.е. если запрос таков
    getElementsByAttr("div", "class", "text") и html содержит текст вида:
    <div class="text">
      some text 1...
      <div class="text">
      some text 2...
      </div>
    </div>

    то моя функция должна вернуть мне две строки или одну?

    02-03-2008 15:52 | Сообщение от автора вопроса
    Замена TStrings на TStringsList решила проблему с Abstract Error.
    Но в результате работы функции получаю пустоту. Почему?

    Добавьте свое cообщение

    Вашe имя:  [Войти]
    Ваш адрес (e-mail):На Королевстве все адреса защищаются от спам-роботов
    контрольный вопрос:
    Какой месяц идет после марта?
    в качестве ответа на вопрос или загадку следует давать только одно слово в именительном падеже и именно в такой форме, как оно используется в оригинале.
    Надоело отвечать на странные вопросы? Зарегистрируйтесь на сайте.
    Тип сообщения:
    Текст:
    Жирный шрифт  Наклонный шрифт  Подчеркнутый шрифт  Выравнивание по центру  Список  Заголовок  Разделительная линия  Код  Маленький шрифт  Крупный шрифт  Цитирование блока текста  Строчное цитирование
  • вопрос Круглого стола № XXX

  • вопрос № YYY в тесте № XXX Рыцарской Квинтаны

  • сообщение № YYY в теме № XXX Базарной площади
  • обсуждение темы № YYY Базарной площади
  •  
     Правила оформления сообщений на Королевстве

    Вопросы с аналогичными сообщениями об ошибках:
  • Abstract error (13)


    Страница избранных вопросов Круглого стола.
  •   
    Время на сайте: GMT минус 5 часов

    Если вы заметили орфографическую ошибку на этой странице, просто выделите ошибку мышью и нажмите Ctrl+Enter.
    Функция может не работать в некоторых версиях броузеров.

    Web hosting for this web site provided by DotNetPark (ASP.NET, SharePoint, MS SQL hosting)  
    Software for IIS, Hyper-V, MS SQL. Tools for Windows server administrators. Server migration utilities  

     
    © При использовании любых материалов «Королевства Delphi» необходимо указывать источник информации. Перепечатка авторских статей возможна только при согласии всех авторов и администрации сайта.
    Все используемые на сайте торговые марки являются собственностью их производителей.

    Яндекс цитирования