База наиболее вероятных участников тендеров

для продажи тендерных займов и банковских гарантий

База победителей тендеров

1. Вступление

После нескольки месяцев разработки мы рады представить вам новый продукт.

Первоначально целью являлось создать уникальный продукт, который облегчал бы вам задачу по поиску клиентов на выдачу тендерных займов на обеспечение заявок, однако получилось гораздо больше чем ожидалось.

Новый, уникальный продукт, позволяет работать на опережение и брать клиента на полный цикл:

  • 1. предложить поучаствовать в аукционе
  • 2. помочь подготовить документацию для участия в аукционе
  • 3. предложить обеспечечит заявку на участие в аукционе
  • 4. помочь выдать банковскую гарантию

2. Изучение и обзор существующих аналогов

Очевидно, что база победителей совершенно не пригодна для таких целей.

Более того, база победителей зазвонена донельзя, с ней всё тяжелее работать с каждым днем, победители не желают общаться, бросают трубки, и большинство из них уже работают с постоянными клиентами.

В настоящее время большинство существующих баз на тенд. займы предлагают следующий алгоритм: 1) берутся все объявленные аукционы за вчера 2) по ОКПД2 (ОКВЭД в случае 223-фз) каждого тендера ищутся подобные тендеры у того же заказчика 3) победители в них считаются потенциальными поставщиками так как ранее побеждали у того же заказчика по тендерам с таким же ОКПД2.

Однако подобная база, с нашей точки зрения, мало пригодна для работы, так как:

  • Поле ОКПД2 является полем свободного заполнения и на заказчика не накладывается никакой отвествеснности за его ошибочное заполнение.
  • База тендерных займов пытается навязать вам установку, что единственный клиент будет участвовать в данной закупке.
  • Зачастую непонятно, почему был отобран именно этот клиент для участия в этом аукционе. Вы звоните коту в мешке!
  • Чаще всего участники в существующих аналогах предлагаются только из тех участников, которые играли у того же самого заказчика.
  • Зачастую поиск по тематике или неиспользуется или выдает неподходящие результаты.

Пример Заказчик объявил аукцион на поставку "Синих шариков". Ранее у него были ТРИ контракта с "Зеленой компанией" на поставку "Зеленых шариков" и ОДИН с "Синей компанией" на поставку "Синих шариков". И существующая база по количеству заключенных ранее контрактов у заказчика предполагает что синии шарики будет поставлять "Зеленая компания". Это неправильно! Очевидно, что в топе ладдера данного аукциона должны быть "Синия компания" и ей нужно звонить первой!

Мой продукт устраняет все вышеописанные недостатки.

Для того, чтобы точнее предсказывать потенциальных участников мы используем следующие поля от тендерной базы:

  • Название аукциона
  • Код ОКПД2
  • Название ОКПД2
  • Содержание конкурсной документации
  • Заказчик
  • Балансы. Даже если мы нашли потенциального поставщика у того же заказчика по аукциону с тем же ОКВЭД - прошедший тендер может быть на 10.000р, а этот на 10 миллионов рублей и поставщик пролетает по балансам, а вам эту компанию суют как потенциального поставщика и вы как дураки будете звонить ей, не зная этого факта, хотя на самом деле есть другая компания с близким оквэд и спокойно проходит. Этот момент тоже надо учесть в базе на ТЗ.
  • Сумма аукциона
  • Дата аукциона

3. Возможности продукта

Мой новый продукт с высокой точностью предсказывает будучих участников закупок, он содержит уникальные технологии и программные алгоритмы:

  • уникальный поисковый движок
  • 32 тематических словаря русского языка для существительных и прилагательных
  • умеет правильно применять любое слово по числу, падежу и роду
  • имеет встроенный словарь сокращений
  • умеет грамотно работать с большинством географических наименований России
  • умеет грамотно работать c именами собственными
  • содержит базу синонимов на ~563.000 слов
  • нмеет транслитерировать английские названия в русские и наоборот (бмв = BMW)
  • знает прописью все основные цифры (например "Закупка 100 процессоров", "Закупка ста процессоров" дадут 100% схожесть)
  • другие

4. Целевая аудитория

  • МФО
  • Посреднические компании на выдачу тендерных займов
  • Cпециалисты, предлагающие подготавить техническую документацию
  • Аналитики, желающие анализировать возможных участников аукционов
  • Остальные брокерские конторы и банки, посредники в выдаче банковских гарантийю

5. Постановка целей и задач

Когда мы начинаем предполагать, предсказывать будь то падение монетки или участников по аукциону - мы уходим в теорию вероятностей. Она говорит нам, что возможен не один вариант развития событий и о шансах на то или иное событие.

Цель моего продукта - не навязать вам решение задачи и дать конкретных участников. Цель - показать вам вероятностную картину того, что ожидать в ближайшее время на рынке, сориентировать среди предстоящих разыгрываемых аукционов, показать возможности участия компаний по данным аукционам и при этом не взрывать мозг лишней информцией. Иными словами - дать в цифрах детализацию всех самых важных моментов которые предстоят, показать связи между компаниями и позволить принять решение о работе с ними.

6. Первичные цели

Самая главная задача новой базы - максимально точно предсказывать будущих участников. Однако при кажущейся простоте эта задача технически сложна потому что:

  • Машина не человек, она лишь работает по заложенному алгоритму
  • Историческая выборка содержит более 40 млн тендеров
  • Недостаточно в выборке учитывать только один из факторов - ключевые слова, окпд, заказчика. Мы должны ориентроваться на полную совокупность факторов, чтобы максимально приближенно выводить компании, которые реально могут поучаствовать в свежем аукционе
  • А еще желательно учитывать имена собственные, синонимы, транслит и ошибки
  • Ну и конечно должна быть возможность предлагать участвовать компаниям, которые ранее вообще не участвовали в аукционах

На настоящий момент вся тендерная база у меня содержит более 500,000,000 слов, включая повторения и всевозможные написания включая род, число и падеж.

7. Принцип понятности

В моей базе вы будете видеть полную аналитику как по заказчику так и по участникам, такие как количество участий, проигрышей.

Вы будете видеть топовые максимально похожие аукционы того же заказчика. Визуально понимать, по какой причине именно этот поставщик был выбран программой для участия в объявленном аукционе, а не только в случае совпадения ОКПД2. И уже принимать решение - как с этой компание работать. Программа вам подсказывает и советует - но окончательное решение принимаете только вы!

8. Шаг в будущее

Как наверно многие знают, я предоставляю базу аккредитованных со всех площадок включая коммерческие. Не только аккредитованные, которые хотя бы раз участвовали в закупках, но и которые и не разу не участвовали! Знаю на каждой площадки когда она аккредитована, c какого числа, и чем она заниматся.

В зависимости от того на какой площадке предстоит аукцион, программа может легко выбрать компании, которые на ней аккредитованы но никогда не участвовали в торгах и по совокупности факторов (оквэд, максимальная сумма сделки и другие) их ранжировать.

Я понимаю, что шанс этих компаний предсказать очень сложно и он будет довольно низкий. Поэтому эти компании будут вам предоставляться под "спойлером". Они не будут вообще вам мозолить глаза, но у вас всегда будет возможность нажать "+" и развернуть эти компании, если вам это интересно c ними поработать, позвонить, познакомиться, дать о себе знать и предложить поучаствовать в будущем аукционе.

9. Уникальный поисковый движок

Конечно, первая моя мысль при подборе потенциальных участников при создании базы тендерных займов была - задействовать существующий поисковик. Однако продолжительные тесты показали, что в этом случае его применение нецелесообразно по ряду причин:

  • Когда мы ищем короткое название аукциона в длинном - всё хорошо, но когда мы оцениваем длинное название аукциона в длинном - наступает полный бардак. От этой ситуации не спасает ничто. Существующие поисковики работают только с частотами лемматизированных слов, они не могут работать с фразами, только со словами! Для них слово - это сущность за рамки которого они не могут выйти.
  • Нет данных о частях речи. Тупо взять названия всех 40+ млн аукционов, посчитать к-во повторений слов и на основании арифметической формулы сделать прогноз - получится лажа.
  • Существующие поисковики стоят частотный словарь по всей выборке сразу. В нашем же случае было бы идеально если была мини-база по частоте встречающихся слов по каждому заказчику. Например, 300.000 заказчиков - 300.000 мини-словарей. Тоже не вариант.

10. Хэши, супер-хэши, гипер-хэши

Рассмотрим состоявшийся аукцион: Поставка автомобиля BMW, ОКПД2 - 33.17.19.000

Если бы мы искали просто "BMW", то проблем бы никаких не было. Однако у нас задача иная: у нас есть объявленный аукцион - "Поставка автомашины БМВ для пользования заказчика такого-то" ОКПД2 - 45.20.11.000. Нам нужно найти максимально похожий тендер с учетом ряда составляющих. Фактически мы ищем множество во множестве. ОКПД2 разные, слова в названии не совпаюат практически вообще за исключением паразииного слова "поставка", и фактически победитель по состоявшемуся аукциона вылетает ко всем матерям из базы ТЗ, хотя на самом деле он должен а ней стоять первым. А все почему...? Правильно, заказчик постарался, назвал автомашину автомобилем, назвал BMW - БМВ, и возможно чтобы кое-кто проспал это аукцион.

Итак, идея такая - представить каждый тендер в виде своеобразного документа, а каждый документ в виде небольшой сигнатуры (вектора). Это будет основание схожести документов. То есть все тендеры превращаются в хэши, словами мы практически не будем оперировать.

Скорость поиска тендера в тендерах (множества во множестве множеств) составляет ~1/10 секунды среди 40+ миллионов тендеров.

Сейчас база хранит несколько десятков миллиардов хэшей и размером в 48 ГБ. Но это не страшно, так как разумеется используются и другие алгоритмы которые ускоряют поиск, например Map-reduce и кластеризация.

У нас задача такая - нам нужно оценить полный вектор данных о предстоящем аукционе, проанализировать все слова, и найти максимально приближенный, и отобразить его на топе списка.

Иными словами - аукционы "На поставку угля" и "На поставку бумаги" должны давать 100% разницу потому что это два совершенно разных аукциона пусть даже а) они у одного и того же заказчика и б) слова "на" и "поставку" есть в том и другом аукционе.

С другой стороны аукционы "На поставку техники эппл" и "На поставку техники Apple". Должны давать 100% схожесть, так как это одно и тоже, ибо слова Apple и эппл - синонимы.

Моя система умеет справляться с такими вещами.

11. Использование конкурской документации при подборе

Частично при подборе подобных аукционов используется конкурская документация

Для тестирования нашей системы мы создали свециальную программу. Она принимает множество параметров и в зависимости от запроса выдает результаты. К примеру мы ищем подобные аукционы по "лиофилизат".

Как вы видите поисковик выдает 3 аукциона в которых есть это слово, а также 0128200000118000704 c названием аукциона просто - "Поставка реагентов".

Даже если зайти в аукцион http://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0128200000118000704 там вообще слова "лиофилизат" нет! Однако поисковик знает, что лиофилизат имел непосредственное отношение к данному аукциону и победитель по нему скорее всего сможет его поставлять.

Как результат поиск и предсказания возможных участников при испотзовании документации будут более еще точнее и компании, которые вообще пропадали из базы ТЗ по таким аукционам возможно будут в топе списка возможных участников.

12. Сбалансированное лингвистическое дерево предметных связей

Давайте спросим у поисковичка, какие фрукты закупает некий заказчик..

Свежие и свежемороженные!

А как насчет изделий?

Как вы видите, система знает, что он закупает не только колбасные изделия, но при этом они варёные!

Не важно сколько качеств есть у предмета и как они расположены в предложении - слева или справа, через согласительный союз "и" - система старается все их связать и грамотно извлечь.

А как насчёт продукции?

Тут как вы видите он тоже без проблем определил свежемороженую и рыбную продукцию.

Сейчас система может определить связанные факты только по конкретному заказчику, но очень скоро можно будет спросить по всей тендреной базе - "скажи мне, а какая 'продукция' вообще бывает", или "а какие 'яица' закупают"? И она мгновенно ответит на этот вопрос.

Возвращаясь к вопросу о синих и красных шариках в примере выше - дерево предметных связей сразу и без проблем решает этот вопрос. По сути коды ОКПД2 вообще не нужны. Скорее всего они в скором времени вообще не будут использоваться в этой базе.

Конечно, дерево еще нужнается в доработке, например закупка "изделий из мяса" не выдаст "изделия мясные", но это проблема решаема и решится.

Вообще, дерево может решить сложные поисковые задачи. Оно сбалансировано и упорядочено, все факты в нем связаны между собой. Система может прогуляться по листикам или ветвям этого дерева и понять, например что яйцо бывает куриное, а курица - это птица, значит яйцо - это продукт птицы.

Еще раз отмечу что дервья пока работают только внутри заказчиков, но потом они будут работать даже по соседним областям!

13. Варианты обеспечения заявки

Да, в базе у вас будут данные о возможных вариантах - денежные средства или БГ, как указал заказчик в документации.

14. Подсветка постоянных клиентов.

В этой базе вы увидите кто из ваших клиентов может поучаствовать в аукционе, предложить им участие, подготовить документацию, выдать тендерный займ а потом и банковскую гарантию. Полный цикл.

Сейчас вы максимум своих клиентов видите в базе день в день, когда они уже победили. Сейчас вы будете звонить им за 15 дней: "Дружище, ты ранее участвовал в аукционе 'Возведение дома из камня" а сейчас появился аукцион "Постройка здания из кирпича", участвовать будем?"

Не хотите звонить за 15 дней? Без проблем, будете получать ее к примеру за 4 рабочих дня, только по своим клиентам. Возможности настройки очень гибкие.

15. Компании-дубликаты.

Система может успешно отслеживать компании-дубликаты, специально созданные для участия в закупках.

Как вы видите на экране выше, система подобрала участников в аукционе на ремонт автомобильных дорог. И три из них с разными ИНН-ами, но одинаковыми учредителями. Такие случаи ослеживаются, и будут либо удаляться либо под спойлер.

16. Чистота базы

Все компании, прекратившие деятельность, пусть даже вчера, исключаются из базы. Иными словами каждый день берется массив данных из налоговой и смотрится, жива ли компания. Очень много компаний, участвующий в закупках закрываются. Лично смотрел и оценивал.

С победителями такой проблемы нет, так как они все живые (почти :). Но в случае с вероятноми участниками - нет смысла звонить ИП который поставлял молоко 6 месяц назад и уже ликвидирован.

Этому моменту должно и будет уделяться много внимания.

17. Интеграция с CRM

Новая база заливается в нашу CRM без проблем со всеми вытекающими плюсами.

18. Гибкие настройки

Вы можете настроить для себя новую базу по любым признакам - по обласям, по датам, по рабочим или календарным дням.

Например вы можете получать базу потенциальных участников по акционам к которых срок окончания подачи заявок наступит строго через 6 рабочих дней. Или например получать базу только по Нижегородской области в которой аукцион объявлен 4 дня назад. Есть много других вариантов.

19. Заключение

Работа над этой базой ведется каждый день, она совершенствуется, в ней учитываются ваши пожелания, устраняются недочеты.

Мы уверены, что разрабатываемый нами продукт будет востребован на рынке и вы будете его использовать с таким же удовольствием, с которым мы создавали его для вас!