hotels

Описание

Наш набор данных - отзыввы людей об отелях. В нем содержится информация о локации отеля, места, откуда приехал человек, отзыв и конечная оценка отеля в ревью. Вообще, эта работа - проект для сессии старшего курса.Но в ней сосредоточены основные требования работадателей, а именно:

Проверка Гипотез
Машинное обучение для текстов
Визуализация данных
Python.List Comprehension, Lambda Functions, f-Strings
Построение и улучшение моделей машинного обучен

Прежде чем расмматривать этот проект, надо понимать, что в датасете всего 800 наблюдений, чего невероятно мало для построения и отладки модели и проверки гипотез(с ней были проблемы, об этом далее). Еще, в наборе данных буквально отсутсвовали 2 столбца, один из которых - рекомендует ли человек отель или нет(целевой признак так то). как мне сказали, есть полная версия датасета, но ее нельзя использовать потому-что так сказал учитель. ну ладно, пришлось работаь с маленькой выборкой.

Проверка Гипотез

Нам было предложено сформулировать и проверить гипотезу с помощью z-test'a, что было сделать крайне сложно, потому-что нам надо было найти 2 множества значений с одинаковым распределением и одинаковой дисперсией и в то же время, чтобы там было достаточно наблюдений, чтобы можно было делать какие то выводы. Я сгрупировать средние оценки по штатам и взять топ-2 по количеству. Смысла в этом немного, но с учетом того, что нам самим было предложенно выбрать гипотезу и проект учебный ничего в моем выборе нет.

Обучение и проверка модели

Из-за того, что у нас буквально 800 строк в датасете сложно было обучить достойную модель. По этой же причине я решил не стандартно разделить на три выборки(трейн, валид, тест) а использовать кросс-валидацию, чтобы более менее адекватно оценить модель. Еще я разделил оценки пользователей на две корзины:

Меньше 4

Больше 3

Это решение было принято потому-что, скорее всего, изначално надо было предсказывать категориальную переменную(dorecommend) и мне дали самому выбрать целевой признак и чтобы сохранить изначльную идею(задача классификации, а не регрессии) поэтому так и поступил.

Машинное обучение для текстов

Я выбрал TF-IDF в качестве метода векторизации потому-что в большинстве отзывов встречааются одни и те же слова(сервис, номер, цена) и TF-IDF прекрасно "показывает" модели какие слова важные в масштабах текста.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
Untitled.ipynb		Untitled.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

hotels

Описание

Проверка Гипотез

Обучение и проверка модели

Машинное обучение для текстов

About

Releases

Packages

Languages

KatayevDair/hotels

Folders and files

Latest commit

History

Repository files navigation

hotels

Описание

Проверка Гипотез

Обучение и проверка модели

Машинное обучение для текстов

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages