Vấn Đề Xử Lý Bất Thường ( Outlier Là Gì, Nghĩa Của Từ Outlier

Related Articles

Outliers / anomalies ( tài liệu ngoại lai / tài liệu không bình thường ) là một trong những thuật ngữ được sử dụng rất thoáng rộng trong quốc tế data và đặc biệt quan trọng là data science. Xác định và vô hiệu outliers là một bước cực kỳ quan trọng trong quy trình giải quyết và xử lý tài liệu. Việc giải quyết và xử lý những tài liệu ngoại lai sẽ giúp tăng cao độ đúng chuẩn cho những quy mô Dự kiến hay những báo cáo giải trình doanh nghiệp một cách đáng kể .Bạn đang xem : Outlier là gì

Trong bài này chúng ta sẽ cùng tìm hiểu các vấn đề sau:

Outliers thực chất là gì?Tầm quan trọng của việc xác định và loại bỏ outliers?Cùng so sánh và phân tích kết quả của trước và sau khi loại bỏ outliersPhương pháp và các bước thực hiện loại bỏ OutliersThực hành xử lý Outliers bằng MySQLCuối cùng là câu hỏi cho bạn thực hànhOutliers thực ra là gì ? Tầm quan trọng của việc xác lập và vô hiệu outliers ? Cùng so sánh và nghiên cứu và phân tích tác dụng của trước và sau khi vô hiệu outliersPhương pháp và những bước triển khai vô hiệu OutliersThực hành xử lý Outliers bằng MySQLCuối cùng là câu hỏi cho bạn thực hành thực tế

Lưu ý: Bài viết sẽ không đi nghiên cứu quá sâu về Outliers. Bài này chỉ dừng lại ở mức cơ bản để các bạn có thể đọc, hiểu và thực hành ngay.

Mục Lục5 Các bước cần thực hiện để xác định Outliers

Outliers (dữ liệu ngoại lai) là gì?

5 Các bước cần triển khai để xác lập OutliersĐể hiểu được thực chất thực sự của outliers là gì, những bạn có thứ nhất tìm hiểu thêm những hình bên dưới. Chú ý sự khác nhau giữa điểm màu đỏ với những điểm còn lại .**Outliers của bộ trên tài liệu 2 chiều – Nguồn ảnhOutliers của bộ trên tài liệu 1 chiều dựa trên độ phân tán của tài liệuQua những bức ảnh trên, chắc những bạn cũng thấy được điểm chung của những outliers. Hiểu đơn thuần thì Outliers là một hoặc nhiều thành viên khác hẳn so với những thành viên còn lại của nhóm. Sự độc lạ này hoàn toàn có thể dựa trên nhiều tiêu chuẩn khác nhau như giá trị hay thuộc tính .

Đối với 2 hình trên, chúng ta có thể dễ dàng xác định các outliers dựa trên giá trị của chúng vì những giá trị này khác xa với các giá trị còn lại của nhóm.

Ví dụ: trong một lớp học gồm 100 học sinh, phần lớn học sinh đều đạt kết quả dao động từ 5 đến 7 riêng chỉ có 1 bạn đạt điểm 1 và một bạn đạt điểm 10. Trong trường hợp này, 2 bạn có điểm 1 và 10 có thể được xem là 2 Outliers cho bài kiểm tra đó.

Trong trường hợp khác thì các outliers là những thành phần có thuộc tính hoặc tính cách khác với số còn lại.

*Outliers dựa thuộc tính của tài liệu – Nguồn ảnh

Ví dụ: một công ty với mô hình B2B có rất nhiều khách hàng khác nhau nhưng trong những khách hàng này có một doanh nghiệp đến từ nước ngoài. Doanh nghiệp nước ngoài này có thể được xem là một outliers khi xét về tính chất khách hàng. Vì họ có thể có những hành vi mua hàng rất khác với khách hàng nội địa.

Trên thực tiễn, người ta chia outliers ra khá nhiều loại khác nhau. Nhưng ở đây mình chỉ muốn những bạn hiểu được thực chất của outliers và cách xác lập những loại outliers đơn thuần. Vậy nên mình gộp chung lại thành 2 dạng như trên .

Nếu muốn tìm hiểu xâu hơn về Outliers, các bạn có thể Google về nó. Có khá nhiều tài liệu cả tiếng Anh lẫn tiếng Việt giải thích về thuật ngữ này. Mình sẽ không phân tích sâu thêm nữa về định nghĩa cũng như phân loại.

Xem thêm : Những Bài Hát Tiếng Anh Về Mưa Hay Nhất, Thổn Thức Những Ca Khúc Nghe Trong Mưa

Khi nào cần xác định và loại bỏ outliers

Trên trong thực tiễn, khi tất cả chúng ta làm báo cáo giải trình hay thiết kế xây dựng Mã Sản Phẩm, sẽ rất khó để đạt giá trị tuyệt đối. Trong hầu hết những trường hợp, tài liệu xấu hoặc không bình thường sẽ luôn sống sót. Những tài liệu này sống sót do khá nhiều nguyên do khác nhau tùy vào thực trạng và quy mô kinh doanh thương mại .

Một vài ví dụ cụ thể như:

Lỗi phát sinh trong quá trình nhập và chỉnh sửa dữ liệu như dư hay thiếu vài số 0 hay sai địa chỉ. Lỗi này mình thấy cực kỳ phổ biến.Đối với các mô hình online, người ta có thể cố ý tạo ra giá trị ảo để test thị trường hoặc làm mồi nhử. Ví dụ một căn nhà có thể được ra bán với giá 100,000 đồng hay 999 tỷ. Nếu bạn tính trung bình giá nhà tại khu vực tính luôn cả nhà phía trên, đảm bảo giá nhà sẽ cao ngất ngưởng so với thực tế.Khi muốn biết tổng giá trị sản phẩm bán ra trong ngày của một cửa hàng, chúng ta phát hiện có một vài ngày, con số này cao một cách đột biến so với các ngày còn lại. Nguyên nhân là do gần đó có một sự kiện cộng đồng kiến khách hàng đột ngột tăng lên.Lỗi phát sinh trong quy trình nhập và chỉnh sửa tài liệu như dư hay thiếu vài số 0 hay sai địa chỉ. Lỗi này mình thấy cực kỳ thông dụng. Đối với những quy mô trực tuyến, người ta hoàn toàn có thể cố ý tạo ra giá trị ảo để test thị trường hoặc làm mồi nhử. Ví dụ một căn nhà hoàn toàn có thể được ra bán với giá 100,000 đồng hay 999 tỷ. Nếu bạn tính trung bình giá nhà tại khu vực tính luôn cả nhà phía trên, bảo vệ giá nhà sẽ cao ngất ngưởng so với trong thực tiễn. Khi muốn biết tổng giá trị mẫu sản phẩm bán ra trong ngày của một shop, tất cả chúng ta phát hiện có một vài ngày, số lượng này cao một cách đột biến so với những ngày còn lại. Nguyên nhân là do gần đó có một sự kiện hội đồng kiến người mua bất thần tăng lên .Chúng ta hoàn toàn có thể thấy được với 2 ví dụ ( 1 ) và ( 2 ) thì những tài liệu xấu này cần được vô hiệu để tăng tính đúng mực cho những Mã Sản Phẩm hoặc báo cáo giải trình. Nhưng với trường hợp thứ ( 3 ), những outliers này lại hoàn toàn có thể cho tất cả chúng ta thấy được một tiềm năng lệch giá mới. Nếu tất cả chúng ta tìm hiểu và khám phá nguyên do tại sao lại có marketing tăng đột biến và sẵn sàng chuẩn bị cho kỳ tiếp theo, năng lực là sẽ có thêm được nhiều doanh thu .Vậy nên việc xác lập Outliers là thiết yếu trong phần nhiều những trường hợp. Nhưng việc giải quyết và xử lý chúng như thế nào thì còn tùy thuộc vào từng thực trạng. Chúng ta cần tìm hiểu và khám phá sâu hơn nguyên do gây ra những Outliers trước khi quyết định hành động vô hiệu hay giữ lại những outliers này .

Phương pháp xác định Outliers

Vì thực chất của outliers có khá nhiều loại khác nhau nên cũng sẽ có nhiều giải pháp khác nhau để xác lập outliers. Trong bài viết này tất cả chúng ta sẽ chỉ tập trung chuyên sâu vào một loại outliers là những data point có giá trị quá cao hoặc quá thấp so với phần đông tài liệu .Chúng ta sẽ sử dụng bộ tài liệu là SuperStore Sales và tìm outliers dựa trên tổng giá trị của mỗi hóa đơn tại mỗi state. Với câu hỏi này, tài liệu mà tất cả chúng ta cần giải quyết và xử lý chỉ có một chiều ( xem lại hình 2 ). Bạn nào chưa có tài liệu SupperStore thì xem hướng dẫn tại đây .*Extreme value Analysis – Nguồn ảnhKết hợp với loại outliers, mình sẽ sử dụng giải pháp Extreme Value Analysis. Phương pháp này đơn thuần là xác lập những data points có giá trị cực cao / thấp ( extreme value ). Các giá trị extreme sẽ được xác lập bằng khoảng cách của chúng so với giá trị trung bình ( Average / Mean ). Toàn bộ những giá trị Extreme đều được xác lập là outliers .

Lưu ý: trên thực tế, các giá trị outliers có khả năng không phải là giá trị Extreme. Đặc biệt là đối với các mảng dữ liệu nhiều hơn 1 chiều.

Bạn nào tò mò những giải pháp khác thì hoàn toàn có thể vào hỏi Google hoặc xem tại blog này

Okay, trước khi đi vào hướng dẫn các tìm và loại bỏ outliers, các bạn cùng xem một báo cáo mẫu do mình thiết kế trên Tableau để có thể hình dung ra được các Outliers là như thế nào.

Báo cáo mẫu về loại bỏ Outlier trên Tableau

Sử dụng báo cáo giải trình này như thế nào :Các bạn có thể rê chuột trên các giá trị để có thể thấy được những giá trị outliers.So sánh sự khác nhau giữa giá trị trung bình mỗi hóa đơn trước và sau khi loại bỏ Outliers.Điều chỉnh giá trị phía trên góc phải để thấy được sự thay đổi của Outliers. Các bạn sẽ hiểu những biến này ở phần sau của bài viết.Comment phía dưới xem bạn đã tìm được insight gì hay từ report này?Đổi chế độ điện thoại sang ngang (landscape) nếu không thấy rõ số liệu Boxplot trong hình chỉ để mục đích so sánh vì cách tính khác nhauCác bạn hoàn toàn có thể rê chuột trên những giá trị để hoàn toàn có thể thấy được những giá trị outliers. So sánh sự khác nhau giữa giá trị trung bình mỗi hóa đơn trước và sau khi vô hiệu Outliers. Điều chỉnh giá trị phía trên góc phải để thấy được sự đổi khác của Outliers. Các bạn sẽ hiểu những biến này ở phần sau của bài viết. Comment phía dưới xem bạn đã tìm được insight gì hay từ report này ?Các bạn hoàn toàn có thể tải Workbook này xuống để tìm hiểu thêm cách làm. Nếu có nhiều nhu yếu mình sẽ làm bài mới hướng dẫn từng bước cách làm một cái tương tự như như vậy .

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Advertismentspot_img

Popular stories