Для оценки стоимости автомобиля по объявлению нам необходимо сделать sql запрос по модели и марке автомобиля. Сделать выборку по году, учитывая интересующее нас объявление. В случае отсутствия сравнительных данных на рассматриваемый год взять соседние года и сделать переоценку по коэффициенту амортизации. После необходимо сравнить пробеги и привести к пробегу рассматриваемого автомобиля с помощью коэффициента амортизации по пробегу. Для точного определения автомобиля, необходимо учесть переходы в поколениях, возможно, наш автомобиль является переходной и нельзя сравнивать рестайлинг с предыдущей и наоборот. Поэтому мы обратимся к VIN и спарсим необходимые данные оттуда. Итак, наша модель на данном этапе делает выборку по интересующему нас объявлению среди всех находящихся в базе. Однако, среди всей выборки скорее всего окажутся объявления, которые могут сместить минимальные и максимальные значения цен. Поэтому нам необходимо сделать регрессионный анализ полученных данных и определить выбросы нашей модели. (Допустим автомобиль эксклюзивный, у которого цена завышена относительно других стоковых или вообще не на ходу - занижена). Далее необходимо сделать запрос в компании производители о комплектациях (объем двигателя, коробка и другие фичи). После распределения нашей выборки на комплектации (по VIN) мы можем определить диапазоны цен для каждой из них. Также внесем поправочный коэффициент на количество владельцев. Чтобы модель точнее отрабатывала по сравнительному анализу, необходимо учитывать цены автомобилей на момент, когда объявление исчезает из продажи (цена реальной сделки), а не актуальные объявления. По затратному методу мы можем оценить количество посещений станции технического обслуживания и истории замененных деталей. Также мы должны учесть аварии из баз ДПС, и величину ущерба из стоимости страховых возмещений. Учет работы автомобиля в такси или каршеринге. В данном случае мы учитываем моточасы в нашей модели. Все эти показатели формируют коэффициент поправки в зависимости от класса автомобиля. Учитывая, затратный метод мы можем рассчитать к какому диапазону цен относится рассматриваемый автомобиль, разделив все объявления на 2 части (дорогой и дешевый диапазоны цен). В заключение наша модель должна учесть локацию (продажи/эксплуатации), сезон запрашиваемого объявления и сделать выборку максимальных и минимальных цен соответствующих предложений. Итак, модель соотносит наше объявление согласно нескольким классификациям диапазонов: по комплектациям, по "эксплуатационным качествам". Также мы должны ранжировать все корреляции влияющие на цену автомобиля и определить показатели наиболее интересующие потенциальные запросы, исходя из ретроспективы. Дополнительные фичи, которые мы можем предложить, интересанту самостоятельно ранжировать по его усмотрению по степени важности индикатора и, соответственно расчеты в нашей модели скорректируют минимальные и максимальные цены на рассматриваемое объявление согласно его рекомендациям. На этапе тестирования мы проверяем стандартные объявления и отлаживаем по расчетам, произведенным в excel формах. Но в процессе тестирования, возможно нам поступит запрос на оценку диапазона цены нового автомобиля или эксклюзивного, которого нет в базе. Поэтому необходимо вносить все данные по автомобилю, как только он поступает на рынок, причем не только российский. Сложность модели заключается в том, что мы можем максимально сузить диапазон и тонко настроить, согласно требованиям интересанта или расширить его до марки и модели автомобиля.
krastykovyaz / yandex_assignment Goto Github PK
View Code? Open in Web Editor NEWAnalysis of the Vertical project