Skip to content

Эта работа - проект для сессии старшего курса.Но в ней сосредоточены основные требования работадателей

Notifications You must be signed in to change notification settings

KatayevDair/hotels

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

hotels

Описание

Наш набор данных - отзыввы людей об отелях. В нем содержится информация о локации отеля, места, откуда приехал человек, отзыв и конечная оценка отеля в ревью. Вообще, эта работа - проект для сессии старшего курса.Но в ней сосредоточены основные требования работадателей, а именно:

  1. Проверка Гипотез
  2. Машинное обучение для текстов
  3. Визуализация данных
  4. Python.List Comprehension, Lambda Functions, f-Strings
  5. Построение и улучшение моделей машинного обучен
Прежде чем расмматривать этот проект, надо понимать, что в датасете всего 800 наблюдений, чего невероятно мало для построения и отладки модели и проверки гипотез(с ней были проблемы, об этом далее). Еще, в наборе данных буквально отсутсвовали 2 столбца, один из которых - рекомендует ли человек отель или нет(целевой признак так то). как мне сказали, есть полная версия датасета, но ее нельзя использовать потому-что так сказал учитель. ну ладно, пришлось работаь с маленькой выборкой.

Проверка Гипотез

Нам было предложено сформулировать и проверить гипотезу с помощью z-test'a, что было сделать крайне сложно, потому-что нам надо было найти 2 множества значений с одинаковым распределением и одинаковой дисперсией и в то же время, чтобы там было достаточно наблюдений, чтобы можно было делать какие то выводы. Я сгрупировать средние оценки по штатам и взять топ-2 по количеству. Смысла в этом немного, но с учетом того, что нам самим было предложенно выбрать гипотезу и проект учебный ничего в моем выборе нет.

Обучение и проверка модели

Из-за того, что у нас буквально 800 строк в датасете сложно было обучить достойную модель. По этой же причине я решил не стандартно разделить на три выборки(трейн, валид, тест) а использовать кросс-валидацию, чтобы более менее адекватно оценить модель. Еще я разделил оценки пользователей на две корзины:

  • Меньше 4
  • Больше 3
  • Это решение было принято потому-что, скорее всего, изначално надо было предсказывать категориальную переменную(dorecommend) и мне дали самому выбрать целевой признак и чтобы сохранить изначльную идею(задача классификации, а не регрессии) поэтому так и поступил.

    Машинное обучение для текстов

    Я выбрал TF-IDF в качестве метода векторизации потому-что в большинстве отзывов встречааются одни и те же слова(сервис, номер, цена) и TF-IDF прекрасно "показывает" модели какие слова важные в масштабах текста.

    About

    Эта работа - проект для сессии старшего курса.Но в ней сосредоточены основные требования работадателей

    Topics

    Resources

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published