Journal d'apprenti sage (greenadine) wrote,
Journal d'apprenti sage
greenadine

Интеллектуальный исправитель ачипяток

Увидел опечатку "чудто" и вспомнил идею, которую мы с genem вынашивали в бытность нашу работниками IMedia, 1998 год.
Дали нам увлекательную задачу (тут, боюсь, никаких кавычек не хватит, чтобы передать мою интонацию в слове "увлекательную"...)
Разобраться с проблемой "дублонов" при слиянии двух баз.

Т.е. классические
ООО Октябрь
Октябрь, ООО
ООО "Октябрь"
OOO Oktiabr
разбираются тривиально.
Откровенно "в морг" ситуации вроде "White Wind" и "Белый ветер" даже не рассматривали (пример реальный).
Подсказки вроде номера телефона или адреса тоже внесли свою лепту в общее дело.
Но помимо перестановки слов, люди еще и опечатывались.
Мы попытались прикрутить движок spell checker Word.
Мы нашли модуль "фонетического анализа", который выдавал "коэффициент похожести звучания двух слов".
Мы написали свою "поделку из бумаги", которая тоже что-то там когда-то находила.

И тогда родилась идея %subj%.

В самом деле, возьмем "чудто". Word, скорее всего, увидит слово не из словаря и проведет простой поиск всех форм, отличающихся от данной минимальным набором стандартных опечаток. Т.е. пропущена буква, лишняя буква, замена двух букв местами, замена одной буквы другой. Возможно еще что-то.
Мы же собирались добавить при этом вероятность _реальной_ опечатки. Учитывая раскладку клавиатуры, метод набора, личность наборщика, дополнительные утилиты.
В данном случае, "чудо" подходит великолепно при наборе на русской клавиатуре, потому как "т" и "о" расположены очень близко. "Будто" - только при десятипальцевом методе (симметрия особенно сильна на слаборазвитых мышцах, а "б" и "ч" висят на средних (или безымянных) пальцах разных рук, мало у кого они накачаны). А вот "чу то", например, не катит совсем. Нереально, чтобы кто-то ударил по "д" вместо пробела.
Аналогично при сканировании текста предпочтение нужно отдавать заменам "о" и "е", "ю" и "10" и т.д.
При пользовании транслитом - "ч" и "х", "сч" и "щ" и т.д.
Человек, знающий другие языки, использует написания слов в этих языках: "атрибут" и "attribute", сдвоенная "т"; "клас" и "класс" для жителя Украины, пишущего по-русски.
Предполагалось ввести обучение, когда программа наблюдает, как именно в итоге человек исправляет свои ошибки.
Была еще утопическая идея смотреть за временем нажатия, т.е. если "п" и "р" набираются с интервалом более четверти секунды, то это нормально, если менее - то палец задел две кнопки.
И совсем параноидальный режим, который замечает, что если после такого "дуплета" идет пауза (человек почувствовал пальцем две кнопки и остановился посмотреть на экран), то при наличии определенной статистики исравлений (он таки убрал лишнюю букву) можно предлагать эту операцию полу-автоматически.

А потом наступил август, и всем нам стало настолько не до того...
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 9 comments