Аннотация:
Задача ранжирования в современных поисковых информационных системах может рассматриваться как особый класс задач машинного обучения. По типу обучающей выборки она может быть отнесена к задачам классификации, по типу целевой функции – к задачам регрессии. Задача ранжирования состоит в отыскании верного ранжирующего отображения на основе обучающей выборки и заданного на ней верного порядка документов, найденных по данному запросу. Задача ранжирования в данном случае может быть решена с помощью методов опорных векторов и стохастического градиентного спуска. Метод опорных векторов может быть представлен задачей квадратичного программирования, в которой задействованы наборы весов при-знаков ранжирования. Алгоритм минимизирует целевую функцию, зависящую от неверно присвоенных признакам весов, то есть от отступов между классами релевантности. Метод стохастического градиентного спуска основан на случайном выборе поискового запроса и пары документов и последующем градиентном шаге на основе этих документов. Результирующая ранжирующая функция может быть оценена с помощью таких метрик, как доля «дефектных» пар, средняя точность и нормализованная приведенная совокупная полезность. Однако, не существует наилучшей метрики оценки качества полученной модели. Каждая метрика подходит для своей предметной области.