Наш набор данных - отзыввы людей об отелях. В нем содержится информация о локации отеля, места, откуда приехал человек, отзыв и конечная оценка отеля в ревью. Вообще, эта работа - проект для сессии старшего курса.Но в ней сосредоточены основные требования работадателей, а именно:
- Проверка Гипотез
- Машинное обучение для текстов
- Визуализация данных
- Python.List Comprehension, Lambda Functions, f-Strings
- Построение и улучшение моделей машинного обучен
Нам было предложено сформулировать и проверить гипотезу с помощью z-test'a, что было сделать крайне сложно, потому-что нам надо было найти 2 множества значений с одинаковым распределением и одинаковой дисперсией и в то же время, чтобы там было достаточно наблюдений, чтобы можно было делать какие то выводы. Я сгрупировать средние оценки по штатам и взять топ-2 по количеству. Смысла в этом немного, но с учетом того, что нам самим было предложенно выбрать гипотезу и проект учебный ничего в моем выборе нет.
Из-за того, что у нас буквально 800 строк в датасете сложно было обучить достойную модель. По этой же причине я решил не стандартно разделить на три выборки(трейн, валид, тест) а использовать кросс-валидацию, чтобы более менее адекватно оценить модель. Еще я разделил оценки пользователей на две корзины:
Я выбрал TF-IDF в качестве метода векторизации потому-что в большинстве отзывов встречааются одни и те же слова(сервис, номер, цена) и TF-IDF прекрасно "показывает" модели какие слова важные в масштабах текста.