Rambler's Top100
"Knowledge itself is power"
F.Bacon
Поиск | Карта сайта | Помощь | О проекте | ТТХ  
 Сокровищница
  
 

Фильтр по датам

 
 К н и г и
 
Книжная полка
 
 
Библиотека
 
  
  
 


Поиск
 
Поиск по КС
Поиск в статьях
Яndex© + Google©
Поиск книг

 
  
Тематический каталог
Все манускрипты

 
  
Карта VCL
ОШИБКИ
Сообщения системы

 
Форумы
 
Круглый стол
Новые вопросы

 
  
Базарная площадь
Городская площадь

 
   
С Л С

 
Летопись
 
Королевские Хроники
Рыцарский Зал
Глас народа!

 
  
ТТХ
Конкурсы
Королевская клюква

 
Разделы
 
Hello, World!
Лицей

Квинтана

 
  
Сокровищница
Подземелье Магов
Подводные камни
Свитки

 
  
Школа ОБЕРОНА

 
  
Арсенальная башня
Фолианты
Полигон

 
  
Книга Песка
Дальние земли

 
  
АРХИВЫ

 
 

Сейчас на сайте присутствуют:
 
 
 02:05 Geo
 
 
Во Флориде и в Королевстве сейчас  02:05[Войти] | [Зарегистрироваться]

Обсуждение материала
Алгоритмы нечеткого сравнения строк. Практическое применение.
Полный текст материала


Другие публикации автора: Left Left

Цитата или краткий комментарий:

«... Алгоритмы нечеткого сравнения строк. Практическое применение. ...»


Важно:
  • Страница предназначена для обсуждения материала, его содержания, полезности, соответствия действительности и так далее. Смысл не в разборке, а в приближении к истине :о) и пользе для всех.
  • Любые другие сообщения или вопросы, а так же личные эмоции в адрес авторов и полемика, не относящаяся к теме обсуждаемого материала, будут удаляться без предупреждения авторов, дабы не мешать жителям нормально общаться.
  • При голосовании учитывайте уровень, на который расчитан материал. "Интересность и полезность" имеет смысл оценивать относительно того, кому именно предназначался материал.
  • Размер одного сообщений не должен превышать 5К. Если Вам нужно сказать больше, сделайте это за два раза. Или, что в данной ситуации правильнее, напишите свою статью.
Всегда легче осудить сделанное, нежели сделать самому. Поэтому, пожалуйста, соблюдайте правила Королевства и уважайте друг друга.



Добавить свое мнение.

Результаты голосования
Оценка содержания

  Содержит полезные и(или) интересные сведения
[1]133.3%
 
  Ничего особенно нового и интересного
[2]266.7%
 
  Написано неверно (обязательно укажите почему)
[3]00%
 
Всего проголосовали: 3

Оценка стиля изложения

Всего проголосовали: 0




Смотрите также материалы по темам:
[INTERBASE] [Поиск и сортировка] [Обработка текста] [Нечеткое сравнение]

Комментарии жителей
Отслеживать это обсуждение

Всего сообщений: 6

17-04-2020 16:03
Перевёл на c (с некоторыми удалениями - у меня текст уже подготовлен, без пробелов и т.п.)


int Flag(int Count_, char* S1_, char* S2_, int i, int j)
{
    int Result = 0;
    if ((i + Count_ <= strlen(S1_)) && (j + Count_ <= strlen(S2_)))
    {
        if (S1_[i+Count_] == S2_[j+Count_])
        {
            Result = 1;
        }

    }
    return Result;
}

// translated from Pascal.
// Source: http://delphikingdom.com/asp/viewitem.asp?catalogid=1147
int CompareStrings(char* S1, char * S2, int MatchCount, int * NCount)
{
    int Count_;
    int Count = 0;
    *NCount = 0;

    if(!strlen(S1) || !strlen(S2))
    {
        *NCount = 255;
        return 0;
    }


    int i = 1;
    do
    {
        int j = 1;
        do
        {
            if(S1[i] == S2[j])
            {
                Count_ = 1;
                while(Flag(Count_, S1, S2, i, j)) ++Count_;
                i = i + Count_ - 1;
                j = j + Count_ - 1;
                if (Count_ >= MatchCount) Count = Count + Count_;
            }

            ++j;
        }
        while(j < strlen(S2));
        ++i;
    }
    while(i < strlen(S1));

    if (strlen(S1) < strlen(S2))
        Count_ = strlen(S1);
    else
        Count_ = strlen(S2);

    *NCount = Count_ - Count;
    return Count;
}



18-05-2009 01:51
Выдаёт высокую релевантность для ооочень далёких фраз.


14-11-2005 09:13
Есть в этой функции подводный камень на который я напоролся: не всегда кол-во несовпадений равно кол-ву символов в меньшей строке минус кол-во совпавших символов.
В качестве примера:
S1 = '00280ММПТИЦАПРОДОМАРКЕТПРОДОМАРКЕТЛЕНИНА87'
S2 = '00050ММПТИЦАПРОДОМАРКЕТЮРША100'
число совпавших символов = 30
длина наименьшей строки = 30
число несовпадений = 0!!!
и это с учетом, что MatchCount = 4



29-08-2005 04:40
сообщение от автора материала
Кстати насчет искуственного ин-та:
Пробывал составить "нейроннуюсеть" и обучить ее.
Задача настолько трудоемкая, что проще все написать if-ами
 Left


20-08-2005 16:14
И мне пришлось конвертировать базу данных с ФИО и адресами. Для экономии времени надо первоначально
проверять записи с совпадающими первыми символами фамилии, имени и отчества,и лишь при неудаче плавно переходить к нечеткому сравнению.


01-08-2005 16:29
"Качество" работы такой функции можно оценить двумя числами: процентом ложных нахождений, когда функция признает совпадающими совершенно разные строки, и процентом пропусков совпадений, когда она не признает совпадающими те строки, которые нам бы хотелось "по смыслу" видеть совпадающими.

Так вот, думаю, что у такой функции есть значительный резерв повышения качества, за счет отказа от универсальности, и "погружения" ее в конкретные особенности сравниваемых строк. Например, если часто встречаются сокращения некоторых слов, типа "Договор" - "дог.", "Свидетельство" - "св-во", то можно жестко закодировать перечень подобных сокращений. Если какие-то слова встречаются часто, то есть текст перегружен ими, и они дают завышенный процент совпадения на разных фразах, например "государственный", "типовой", то опять же можно составить список таких слов, и научить алгоритм учитывать их с ментшим весовым коэффициентом. И наоборот, если какие-то слова являются ключевыми, можно составить их список и учитывать их с большим  весовым коэффициентом.

Короче говоря, я бы посмотрел на случаи ложных срабатываний, разобрался с причинами, и устранял бы их способами вроде приведеных. А вообще - тема неисчерпаемая, переходящая в искусственный интеллект.


Добавьте свое cообщение

Вашe имя:  [Войти]
Ваш адрес (e-mail):На Королевстве все адреса защищаются от спам-роботов
контрольный вопрос:
Раз дощечка, два дощечка будет лесенка. Раз словечко, два словечко, будет ЧТО?
в качестве ответа на вопрос или загадку следует давать только одно слово в именительном падеже и именно в такой форме, как оно используется в оригинале.
Надоело отвечать на странные вопросы? Зарегистрируйтесь на сайте.

Оценка содержания
 
Содержит полезные и(или) интересные сведения
 
Ничего особенно нового и интересного
 
Написано неверно (обязательно укажите почему)


Оценка стиля изложения
 
Все понятно, материал читается легко
 
Есть неясности в изложении
 
Непонятно написано, трудно читается

Текст:
Жирный шрифт  Наклонный шрифт  Подчеркнутый шрифт  Выравнивание по центру  Список  Заголовок  Разделительная линия  Код  Маленький шрифт  Крупный шрифт  Цитирование блока текста  Строчное цитирование
  • вопрос Круглого стола № XXX

  • вопрос № YYY в тесте № XXX Рыцарской Квинтаны

  • сообщение № YYY в теме № XXX Базарной площади
  • обсуждение темы № YYY Базарной площади
  •  
     Правила оформления сообщений на Королевстве
      
    Время на сайте: GMT минус 5 часов

    Если вы заметили орфографическую ошибку на этой странице, просто выделите ошибку мышью и нажмите Ctrl+Enter.
    Функция может не работать в некоторых версиях броузеров.

    Web hosting for this web site provided by DotNetPark (ASP.NET, SharePoint, MS SQL hosting)  
    Software for IIS, Hyper-V, MS SQL. Tools for Windows server administrators. Server migration utilities  

     
    © При использовании любых материалов «Королевства Delphi» необходимо указывать источник информации. Перепечатка авторских статей возможна только при согласии всех авторов и администрации сайта.
    Все используемые на сайте торговые марки являются собственностью их производителей.

    Яндекс цитирования