Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
Luận văn Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng tìm hiểu về học máy thống kê, quy trình khai thác dữ liệu, phân tích thống kê; xây dựng mô hình dự đoán mức lương trên quảng cáo tuyển dụng ứng dụng phương pháp phân tích hồi quy; đánh giá mô hình dự đoán ứng dụng các phương pháp đánh giá mô hình.
Mục lục nội dung
1. Mở đầu
1.1 Lí do chọn đề tài
Trong lĩnh vực tuyển dụng ngày nay, khoảng một nửa số công ty họ không công khai mức lương tuyển dụng trên các quảng cáo tuyển dụng. Với vai trò là một người tìm kiếm công việc tác giả cảm thấy rất khó khăn để làm sao biết được mức lương công việc của quảng cáo tuyển dụng mà tác giả quan tâm, liệu rằng mức lương nào là phù hợp hoặc không phù hợp với từng loại công việc trên quảng cáo tuyển dụng đó. Và với vai trò là nhà tuyển dụng tác giả muốn biết được hoặc tham khảo để có thể đưa ra mức lương hợp lý trên các quảng cáo tuyển dụng của doanh nghiệp mình. Do đó rất cần một giải pháp để mang lại nhiều thông tin hơn trong lĩnh vực này. Từ đó có thể giúp người tìm kiếm việc làm và nhà tuyển dụng ước lượng được mức lương của một công việc hoặc nhóm công việc nào đó là phù hợp hoặc không phù hợp, họ sẽ có những điều chỉnh hoặc sự chuẩn bị tốt hơn trong công tác tuyển dụng hoặc tìm kiếm việc làm.
1.2 Mục tiêu nghiên cứu
Luận văn tập trung nghiên cứu về các nghiệp vụ về quảng cáo việc làm, nghiên cứu các nhân tố ảnh hưởng đến mức lương công việc trên quảng cáo tuyển dụng. Những nhân tố đó có thể là nhóm công việc, loại công việc, loại hợp đồng hoặc là địa điểm làm việc mà một quảng cáo tuyển dụng cần có. Từ đó xây dựng mô hình dự đoán dựa trên những nhân tố ảnh hưởng đó để đưa ra kết quả dự đoán với độ tin cậy và độ chính xác cao nhất.
1.3 Đối tượng nghiên cứu
Về nghiệp vụ, đối tượng nghiên cứu là những vấn đề liên quan đến quảng cáo tuyển dụng. Các nhân tố liên quan đến quảng cáo tuyển dụng như: nhóm công việc, loại công việc, loại hợp đồng, địa điểm làm việc, công ty tuyển dụng, nguồn quảng cáo tuyển dụng, vị trí tuyển dụng.v.v.
Về dữ liệu, đối tượng nghiên cứu liên quan đến quảng cáo việc làm được công bố tại Anh được cung cấp bởi Kaggle.
Về kỹ thuật, đối tượng nghiên cứu là các lý thuyết về học máy thống kê và khai thác dữ liệu, cụ thể là phân tích hồi quy dựa theo tài liệu tham khảo trong phần tài liệu tham khảo của luận văn này.
Về quy trình, đối tượng nghiên cứu là quy trình khai thác dữ liệu chuẩn công nghiệp CRISP-DM
Về công cụ, đối tượng nghiên cứu là công cụ phân tích dữ liệu R
2. Nội dung
2.1 Cơ sở lí thuyết
Mô hình khai thác dữ liệu CRISP - DM
- Tìm hiểu nghiệp vụ
- Tìm hiểu dữ liệu
- Chuẩn bị dữ liệu
- Mô hình hóa
- Đánh giá
- Triển khai
Hồi quy tuyến tính đơn
- Phương trình hồi quy tuyến tính đơn
- Khoảng tin cậy và kiểm định giả thuyết trong hồi quy đơn
- Kiểm định tham số hồi quy tổng thể
- Phân tích phương sai hồi quy
- Dự báo trong phương pháp hồi quy tuyến tính đơn
Hồi quy tuyến tính đa biến
- Mô hình hồi quy
- Phương trình hồi quy
- Phân tích phương sai hồi quy
- Ước lượng khoảng tin cậy và kiểm định giả thuyết trong hồi quy đa biến
Phương pháp đánh giá độ chính xác của mô hình
- Phương pháp chia ngẩu nhiên
- Kiểm tra chéo K - Fold
- Kiểm tra chéo Leave - one - out
Tổng quan công cụ R
- Giới thiệu R
- Sử dụng R
- Sử dụng RStudio
- Một số lệnh cơ bản trong R
2.2 Ứng dụng phân tích hồi quy
Tìm hiểu dữ liệu
Chuẩn bị dữ liệu
Mô hình hóa
- Biến độc lập và Biến phụ thuộc
- Phân tích ảnh hưởng của nhóm công việc lên mức lương
- Phân tích ảnh hưởng của loại công việc lên mức lương
- Phân tích ảnh hưởng của loại hợp đồng lên mức lương
- Phân tích ảnh hưởng của địa điểm làm việc lên mức lương
- Phân tích ảnh hưởng của địa điểm làm việc là Luân Đôn lên mức lương
- Phân tích ảnh hưởng của tiêu đề công việc cho vị trí ứng viên có kinh nghiệm lên mức lương
- Phân tích ảnh hưởng của tiêu đề công việc cho vị quản lý lên mức lương
- Phân tích ảnh hưởng của mô tả công việc cho vị trí ứng viên có kinh nghiệm lên mức lương
- Phân tích ảnh hưởng của mô tả công việc cho vị trí quản lý lên mức lương
- Mô hình 0
- Mô hình 1
- Mô hình 2
- Mô hình 3
- Mô hình 4
Đánh giá mô hình
- Phương pháp lựa chọn từng bước
- Mô hình hồi quy Ridge
- Mô hình Lasso
- Kiểm tra với bộ dữ liệu giả định
Kiểm tra chéo với K - Fold
3. Kết luận
Trong phạm vi luận văn này đã thực hiện xây dựng mô hình dự đoán trên dữ liệu quảng cáo tuyển dụng ở Anh được công bố trong một cuộc thi được cung cấp bởi Kaggle. Trên cơ sở đó tác giả đi xây dựng mô hình dự đoán mức lương dựa trên các đặc trưng mà dữ liệu cung cấp: Nhóm công việc, loại công việc, loại hợp đồng, địa điểm làm việc, tiêu đề công việc và mô tả công việc. Bằng việc thêm vào một số đặc trưng như thay vì dùng biến đặc trưng địa điểm để phân tích, tác giả đi vào việc sử dụng một địa điểm làm việc cụ thể (ví dụ: Luân Đôn) hoặc phân loại dữ liệu của các đặc trưng về tiêu đề công việc và mô tả công việc theo vị trí ứng viên có kinh nghiệm hoặc vị trí quản lý. Sau đó phân tích mức độ ảnh hưởng của các đặc trưng lên mức lương tuyển dụng để đưa ra một mô hình dự đoán tối ưu nhất
4. Tài liệu tham khảo
An Introduction to Statistical Learning with Applications in R (Fourth Printing), G. James, D. Witten, T. Hastie and R. Tibshirani, Springer-Verlag, 2014
IBM SPSS Modeler CRISP-DM Guide, IBM Corporation, 1994-2011
CRISP-DM 1.0, Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler), 1999-2000
The Elements of Statistical Learning (Second Edition), T. Hastie, R. Tibshirani and J. Friedman, Springer-Verlag, 2009....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI