Автор:
Александр Мельников, Наталья Лозинская (Краматорск, Украина)
- Интернет-провайдеры – компании, предоставляющие услуги доступа к всемирной сети Интернет – занимают в последние годы одно из ведущих положений на рынке услуг. Рост числа интернет-пользователей приводит к росту предложения в этой экономической нише и, соответственно, усилению конкуренции между провайдерами.
- Многие производители программного обеспечения поддерживают разработки так называемых биллинговых систем, предназначенных для учета и тарификации всего спектра услуг, предоставляемых операторами связи. Как правило, такие системы являются многофункциональными, модульными, с открытым программным кодом, обеспечивающими комплексные возможности в реальном масштабе времени, значительную гибкость и масштабируемость для менеджмента и ускоренного внедрения услуг. Однако в большинстве таких систем не поддерживается использование математических методов для интеллектуального анализа имеющихся данных, что могло бы лучше обосновать принимаемые решения.
- Наш интернет-провайдер использует биллинговую систему ABillS, которая предоставляет пользователю сайта следующий набор разделов: «Пакеты», «Поиск», «Новый пользователь», «Наряды», «Статистика», «Касса», «Журналы», «Карты», «Склад», «Справочники», «Online». Каждый раздел, в свою очередь состоит из нескольких подразделов. Так, подраздел «Статистика / Должники» предоставляет информацию по клиентам, имеющим задолженность по оплате – их данные (логин, ФИО, телефон и домашний адрес), сумму задолженности, дату последнего подключения и примечание.
- Постановку задачи можно сформулировать следующим образом.
- Классифицировать пользователей, имеющих задолженность (таблица «Должники») – объединить их в группы для удобства отработки и выдвижения гипотез о причинах возникновения долга.
- Классифицировать операторов в зависимости от преобладающих в их деятельности типах действий (таблица «Действия оператора») – объединить их в группы для удобства анализа деятельности и выявления предпочтений.
- В обоих случаях мы не можем заранее выделить число и характерные признаки каждой группы (класса объектов), поэтому необходимо решать задачу кластеризации. Также мы не можем четко определить число кластеров, поэтому в нашем случае целесообразно использование алгоритма иерархической агломеративной кластеризации [1].
- Значимыми полями в таблице должников являются данные о районе, сумме долга и число дней, прошедших со дня последнего подключения. В действиях операторов – данные о времени и содержании действия, однако расчетным фактором во втором случае нужно считать частоту выполнения каждого действия оператора за период времени.
- Необходимо разработать собственную программную систему, которая выполняла бы импорт данных из файла существующей информационной системы (html-страницы), обработку (приведение) исходных данных, решение задач кластеризации агломеративным иерархическим методом, представление результатов расчета в понятном и доступном виде.
- Проектирование системы выполнялось на языке UML [2]. Возможности системы в виде диаграммы вариантов использования представлены на рис. 1, структура системы в виде диаграммы классов показана на рис. 2.
Рисунок 1 – Диаграмма вариантов использования
Рисунок 2 – Диаграмма классов
Литература
- Чубукова И.А. Data Mining: Учебное пособие / И.А. Чубукова. – М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2006. – 382 с.
- Мельников А.Ю. Объектно-ориентированный анализ и проектирование информационных систем: Учебное пособие / А.Ю. Мельников. – Краматорск: ДГМА, 2006. – 184 с.
Сведения об авторах:
Мельников Александр Юрьевич, к.т.н., доцент
Лозинская Наталья Александровна