Về cơ bản, khai phá dữ liệu là về xử lý tài liệu và nhận ra các chủng loại và các xu thế trong thông tin đó để bạn có thể quyết định hoặc tiến công giá. Những nguyên tắc khai phá dữ liệu đã được dùng nhiều năm rồi, tuy vậy với sự thành lập của big data (dữ liệu lớn), này lại càng phổ biến hơn.

Bạn đang xem: Khai thác dữ liệu

Big data tạo ra một sự bùng nổ về áp dụng nhiều kỹ thuật khai phá dữ liệu hơn, một trong những phần vì size thông tin lớn hơn không ít và vì thông tin có xu hướng phong phú và mở rộng hơn về chính bản chất và câu chữ của nó. Với các tập hợp dữ liệu lớn, để cảm nhận số liệu thống kê tương đối đơn giản và dễ dàng và dễ dãi trong khối hệ thống vẫn chưa đủ. Với 30 hoặc 40 triệu bản ghi thông tin người sử dụng chi tiết, việc biết rằng 2 triệu người tiêu dùng trong số đó sống tại một địa điểm vẫn không đủ. Bạn có nhu cầu biết liệu 2 triệu người tiêu dùng đó tất cả thuộc về một đội tuổi ví dụ không với bạn vẫn muốn biết thu nhập cá nhân trung bình của mình để chúng ta cũng có thể tập trung vào các yêu cầu của khách hàng hàng của chính mình tốt hơn.

Những yêu cầu hướng sale này đã biến đổi cách kéo ra và thống kê dữ liệu đơn giản dễ dàng sang việc khai phá dữ liệu phức hợp hơn. Vấn đề kinh doanh hướng về việc để mắt tới dữ liệu sẽ giúp xây dựng một mô hình để mô tả các thông tin nhưng cuối cuộc đã dẫn đến việc tạo ra báo cáo kết quả. Hình sau đây phác thảo quá trình này.

*

Quá trình so sánh dữ liệu, mày mò dữ liệu cùng xây dựng quy mô dữ liệu thường lặp lại khi chúng ta tập trung vào và nhận ra các thông tin khác biệt để chúng ta cũng có thể trích ra. Chúng ta cũng phải hiểu cách tùy chỉnh quan hệ, ánh xạ, phối hợp và phân cụm thông tin đó với dữ liệu khác để tạo nên kết quả. Thừa trình nhận thấy dữ liệu mối cung cấp và những định dạng nguồn, rồi ánh xạ thông tin đó tới tác dụng đã đến của shop chúng tôi có thể chuyển đổi sau khi chúng ta phát hiện ra những yếu tố và những khía cạnh khác biệt của dữ liệu.

Các công cụ khai phá dữ liệu

Khai phá dữ liệu chưa phải là toàn bộ về những công cố gắng hay phần mềm cơ sở tài liệu mà nhiều người đang sử dụng. Bạn có thể thực hiện khai thác dữ liệu bằng các hệ thống cơ sở dữ liệu thông thường và các công cụ 1-1 giản, bao hàm việc tạo ra và viết ứng dụng riêng của người sử dụng hoặc sử dụng những gói phần mềm bán ngoại trừ cửa hàng. Khai thác dữ liệu phức hợp được tận hưởng từ kinh nghiệm trong quá khứ và các thuật toán đã tư tưởng với phần mềm và các gói ứng dụng hiện có, với các công vậy nhất định nhằm thu được một mối quan hệ hoặc uy tín lớn hơn bằng các kỹ thuật khác nhau.

Gần đây những tập phù hợp dữ liệu rất lớn và câu hỏi xử lý dữ liệu theo các và quy mô lớn tất cả thể chất nhận được khai phá tài liệu để bố trí và lập báo cáo về các nhóm và các mối tương quan của dữ liệu phức tạp hơn. Hiện giờ đã gồm sẵn không hề ít công nuốm và hệ thống hoàn toàn mới, bao gồm các hệ thống lưu trữ cùng xử lý tài liệu kết hợp.Bạn có thể khai phá dữ liệu với tương đối nhiều tập hợp tài liệu khác nhau, gồm những cơ sở tài liệu SQL truyền thống, dữ liệu văn bạn dạng thô, những kho khóa/giá trị và những cơ sở dữ liệu tài liệu. Các cơ sở tài liệu có phân cụm, như Hadoop, Cassandra, CouchDB cùng Couchbase Server, lưu trữ và cung ứng quyền truy vấn vào tài liệu theo biện pháp không tương xứng với kết cấu bảng truyền thống.

Đặc biệt, định dạng tàng trữ cơ sở dữ liệu tài liệu linh hoạt rộng lại gây ra một trung tâm và sự tinh vi khác về xử lý thông tin. Những cơ sở dữ liệu SQL áp đặt các kết cấu chặt chẽ và cứng rắn vào lược đồ, làm cho việc tầm nã vấn chúng và phân tích dữ liệu trở nên dễ dàng theo quan điểm nắm rõ định dạng và cấu trúc thông tin.

Các cơ sở tài liệu tài liệu, có một tiêu chuẩn chỉnh chẳng hạn như kết cấu thực thi JSON hoặc những tệp có cấu trúc đọc được bằng máy tính xách tay nào đó, cũng dễ xử trí hơn, tuy nhiên chúng rất có thể làm tăng thêm sự tinh vi do cấu trúc khác nhau và hay núm đổi. Ví dụ, với việc xử lý dữ liệu trọn vẹn thô của Hadoop, rất có thể phức tạp để phân biệt và trích ra nội dung trước khi bạn bước đầu xử lý và đối sánh tương quan với nó.

Các nghệ thuật chính

Một số chuyên môn cốt lõi, được thực hiện trong khai thác dữ liệu, bộc lộ kiểu hoạt động khai phá và vận động phục hồi dữ liệu. Thật không may là những công ty và các phương án khác nhau chưa hẳn lúc nào cũng dùng chung những thuật ngữ. Chính các thuật ngữ này hoàn toàn có thể làm tăng lên sự mơ hồ với sự phức tạp.

Hãy coi xét một số kỹ thuật thiết yếu và ví dụ về phong thái sử dụng các công cụ không giống nhau để dựng lên việc khai phá dữ liệu.

Sự kết hợp

Sự kết hợp (hay mối quan hệ) chắc hẳn rằng là kỹ thuật khai thác dữ liệu được nghe biết nhiều hơn, phần đông quen thuộc và solo giản. Ở đây, bạn triển khai một sự tương quan đơn giản dễ dàng giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu. Ví dụ, khi theo dõi thói quen mua sắm chọn lựa của bạn dân, chúng ta có thể nhận hiểu được một người tiêu dùng luôn tải kem khi họ cài dâu tây, nên chúng ta cũng có thể đề xuất rằng lần tới khi họ mua dâu tây, bọn họ cũng rất có thể muốn download kem.

Việc xây dựng các công cụ khai phá dữ liệu dựa vào sự kết hợp hay mọt quan hệ rất có thể thực hiện đơn giản dễ dàng bằng các công vắt khác nhau. Ví dụ, trong InfoSphere Warehouse một trình hướng dẫn giới thiệu các cấu hình của một luồng tin tức được áp dụng kết hợp bằng phương pháp xem xét tin tức nguồn nguồn vào của cơ sở dữ liệu, tin tức về cửa hàng ra quyết định và thông tin đầu ra của bạn. Hình 2 cho biết thêm một lấy một ví dụ của cơ sở tài liệu ví dụ mẫu.

*

Sự phân loại

Bạn có thể sử dụng sự phân một số loại để kiến tạo một ý tưởng phát minh về kiểu dáng khách hàng, kiểu món đồ hoặc phong cách đối tượng bằng phương pháp mô tả nhiều thuộc tính để nhận ra một lớp vắt thể. Ví dụ, bạn cũng có thể dễ dàng phân loại những xe xe hơi thành các kiểu xe khác nhau (xe mui kín, 4x4, xe có thể bỏ mui) bằng cách xác định những thuộc tính khác nhau (số chỗ ngồi, mẫu mã xe, các bánh xe cộ điều khiển). Với một loại xe mới, chúng ta cũng có thể đặt nó vào trong 1 lớp cố kỉnh thể bằng cách so sánh các thuộc tính với định nghĩa đã biết của bọn chúng tôi. Bạn có thể áp dụng các nguyên tắc tương tự ấy cho những khách hàng, ví dụ bằng cách phân loại khách hàng theo độ tuổi với nhóm buôn bản hội.

Hơn nữa, chúng ta cũng có thể sử dụng việc phân một số loại như một nguồn cấp, hay như là kết quả của các kỹ thuật khác. Ví dụ, chúng ta cũng có thể sử dụng những cây quyết định để xác định một phương pháp phân loại. Việc phân cụm sẽ được cho phép bạn sử dụng các thuộc tính thông thường theo những cách phân loại khác nhau để phân biệt các cụm.

Việc phân nhiều (Clustering)

Bằng phương pháp xem xét một hay các thuộc tính hoặc những lớp, chúng ta có thể nhóm các phần dữ liệu riêng lẻ với nhau để chế tạo ra thành một quan điểm cấu trúc. Ở mức đối kháng giản, bài toán phân nhiều đang áp dụng một hoặc các thuộc tính có tác dụng cơ sở cho mình để nhận biết một nhóm các kết quả tương quan. Bài toán phân các giúp để nhận biết các thông tin không giống nhau vì nó tương quan với những ví dụ khác, nên chúng ta cũng có thể thấy nơi đâu có phần đông điểm tương đương và các phạm vi phù hợp.

Xem thêm: Bảng Màu Môi Xăm Đẹp Và Hot Nhất Hiện Nay, Phun Môi Màu Gì Đẹp Và Hot Nhất Hiện Nay

Việc phân cụm hoàn toàn có thể làm theo nhì cách. Bạn có thể giả sử rằng bao gồm một cụm tại 1 điểm nhất quyết và sau đó sử dụng các tiêu chí nhận dạng của shop chúng tôi để xem liệu các bạn có đúng không. Đồ thị trong Hình 3 là một trong ví dụ hay. Trong lấy một ví dụ này, một ví dụ mẫu về dữ liệu kinh doanh so sánh tuổi của người sử dụng với quy mô cung cấp hàng. Thật phù hợp khi thấy rằng những người dân ở độ tuổi hai mươi (trước lúc kết hôn cùng còn nhỏ), ở giới hạn tuổi năm mươi và sáu mươi (khi không hề con chiếc ở nhà), có khá nhiều tiền tiêu hơn.

*

Trong lấy ví dụ này, chúng ta có thể nhận ra hai cụm, một cụm xung quanh nhóm 2 nghìn Đô la Mỹ/ 20-30 tuổi cùng một các ở team 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Trong trường đúng theo này, công ty chúng tôi đã mang thuyết hai nhiều và đã minh chứng giả thuyết của shop chúng tôi bằng một vật thị đơn giản dễ dàng mà shop chúng tôi có thể chế tác ra bằng phương pháp sử dụng bất kỳ phần mềm vật dụng họa tương thích nào để sở hữu được cái nhìn nhanh chóng. Những quyết định phức hợp hơn cần phải có một gói ứng dụng phân tích đầy đủ, đặc biệt là nếu bạn có nhu cầu các quyết định tự động dựa vào thông tin ở bên cạnh gần nhất.

Việc vẽ đồ thị phân cụm theo phong cách này là một trong những ví dụ đơn giản và dễ dàng về mẫu gọi là nhận ra sự lân cận gần nhất. Chúng ta cũng có thể nhận ra các người sử dụng riêng lẻ bằng sự gần cận theo nghĩa đen của họ với nhau trên thứ thị. Có không ít khả năng là các quý khách trong thuộc một cụm cũng cần sử dụng chung các thuộc tính không giống và chúng ta cũng có thể sử dụng sự ước ao đợi đó sẽ giúp hướng dẫn, phân loại và còn nếu không thì phân tích những người khác vào tập hợp tài liệu của bạn.

Bạn cũng có thể áp dụng câu hỏi phân các theo quan điểm ngược lại; phụ thuộc một số nằm trong tính đầu vào, bạn cũng có thể nhận ra các tạo phẩm khác nhau. Ví dụ, một nghiên cứu gần đây về những số sạc 4-chữ số vẫn tìm ra những cụm giữa các chữ số trong phạm vi 1-12 với 1-31 cho các cặp đầu tiên và sản phẩm hai. Bằng cách vẽ các cặp này, bạn cũng có thể nhận ra và xác minh các cụm liên quan đến tháng ngày (các ngày sinh nhật, những ngày kỷ niệm).

Dự báo

Dự báo là một trong những chủ đề rộng với đi từ dự báo về lỗi của những thành phần hay vật dụng móc mang đến việc nhận thấy sự gian lận và thậm chí còn là cả dự đoán về lợi nhuận của công ty nữa. Được thực hiện kết hợp với các kỹ thuật khai thác dữ liệu khác, dự báo tất cả có việc phân tích các xu hướng, phân loại, so khớp chủng loại và mọt quan hệ. Bằng phương pháp phân tích các sự kiện hoặc các cá thể trong quá khứ, bạn có thể đưa ra một dự đoán về một sự kiện.

Khi sử dụng nghĩa vụ và quyền lợi thẻ tín dụng, chẳng hạn, chúng ta cũng có thể kết hợp so sánh cây quyết định của những giao dịch đơn côi trong thừa khứ với bài toán phân loại và các sự so khớp mẫu lịch sử để nhận ra liệu một giao dịch có gian lậu hay không. Rất hoàn toàn có thể là việc tiến hành một sự so khớp giữa các việc mua vé các chuyến cất cánh đến Mỹ và những giao dịch trên Mỹ cho biết thêm giao chất dịch này hợp lệ.

Các mẫu mã tuần tự

Thường được thực hiện trên những dữ liệu dài hạn, các mẫu tuần tự là một trong phương pháp có ích để phân biệt các xu hướng hay những sự lộ diện thường xuyên của các sự khiếu nại tương tự. Ví dụ, với tài liệu khách hàng, chúng ta cũng có thể nhận ra rằng các người tiêu dùng cùng nhau sở hữu một tủ chứa đồ riêng lẻ về các thành phầm tại các thời điểm không giống nhau trong năm. Trong một vận dụng giỏ hàng, bạn có thể sử dụng thông tin này để auto đề xuất rằng một số mặt hàng nào này được thêm vào một giỏ sản phẩm dựa trên tần suất và lịch sử dân tộc mua mặt hàng trong vượt khứ của những khách hàng.

Các cây quyết định

Liên quan đến đa số các kỹ thuật khác (chủ yếu là phân nhiều loại và dự báo), cây quyết định có thể được sử dụng hay như là là một phần trong các tiêu chí lựa chọn hoặc để hỗ trợ việc sử dụng và lựa chọn tài liệu cụ thể bên phía trong cấu trúc tổng thể. Trong cây quyết định, bạn ban đầu bằng một thắc mắc đơn giản tất cả hai câu trả lời (hoặc đôi khi có tương đối nhiều câu trả lời hơn). Mỗi câu trả lời lại dẫn đến thêm một thắc mắc nữa sẽ giúp phân nhiều loại hay nhận thấy dữ liệu sao cho có thể phân loại dữ liệu hoặc sao cho hoàn toàn có thể thực hiện dự đoán trên cơ sở mỗi câu trả lời.

*

Các cây đưa ra quyết định thường được sử dụng cùng cùng với các khối hệ thống phân loại liên quan đến thông tin có mẫu mã thuộc tính cùng với các hệ thống dự báo, nơi các dự báo không giống nhau rất có thể dựa trên kinh nghiệm lịch sử vẻ vang trong quá khứ sẽ giúp đỡ hướng dẫn kết cấu của cây đưa ra quyết định và tác dụng đầu ra.

Các tổ hợp

Trong thực tế, thật thi thoảng khi bạn sẽ sử dụng một kỹ thuật trong số những kỹ thuật hiếm hoi này. Việc phân các loại và phân cụm là phần đông kỹ thuật tương tự nhau. Nhờ sử dụng việc phân các để nhận thấy các thông tin ở bên cạnh gần nhất, bạn có thể tiếp tục tinh chỉnh việc phân một số loại của mình. Thông thường, cửa hàng chúng tôi sử dụng các cây quyết định để giúp đỡ xây dựng và nhận thấy các các loại mà cửa hàng chúng tôi có thể theo dõi chúng trong một thời gian dài để nhận biết các trình từ và những mẫu.

Xử lý (bộ nhớ) dài hạn

Trong tất cả các cách thức cốt lõi, thường xuyên có vì sao để khắc ghi thông tin và tò mò từ thông tin. Trong một trong những kỹ thuật, câu hỏi này hoàn toàn rõ ràng. Ví dụ, với việc tìm hiểu các chủng loại tuần tự cùng dự báo, bạn xem xét lại dữ liệu từ không ít nguồn và những cá thể tin tức để gây ra một mẫu.

Trong một trong những kỹ thuật khác, quá trình này rất có thể rõ ràng hơn. Các cây quyết định ít lúc được kiến tạo một lần cùng không lúc nào được coi nhẹ. Khi nhận biết thông tin mới, những sự kiện và các điểm dữ liệu, rất có thể cần thiết kế thêm các nhánh hoặc thậm chí toàn bộ các cây mới, để đấu tranh với những thông tin bửa sung.

Bạn gồm thể auto hoá một số trong những bước của quy trình này. Ví dụ, việc xây dựng một quy mô dự báo để nhận ra sự ăn lận thẻ tín dụng là thi công các tỷ lệ để bạn cũng có thể sử dụng cho thanh toán giao dịch hiện tại cùng sau đó update mô hình đó với các giao dịch mới (đã được phê duyệt). Rồi thông tin này được ghi lại sao cho có thể đưa ra quyết định một cách hối hả trong lần tới.

Kết luận

Việc khai thác dữ liệu còn hơn việc chạy một vài truy vấn tinh vi trên tài liệu mà bạn đã giữ trong cơ sở dữ liệu của mình. Bạn phải thao tác làm việc với dữ liệu của mình, định hình lại nó hoặc kết cấu lại nó, bất kỳ bạn có đang áp dụng SQL, cửa hàng dữ liệu dựa vào tài liệu như Hadoop hoặc các tệp phẳng dễ dàng và đơn giản hay không. Việc nhận biết định dạng thông tin mà bạn cần phải dựa trên kỹ thuật và bài toán phân tích mà bạn muốn làm. Sau khi bạn có tin tức theo định dạng mà bạn cần, chúng ta cũng có thể áp dụng các kỹ thuật không giống (riêng lẻ hay phối kết hợp lại cùng với nhau) không phân biệt cấu trúc dữ liệu cơ bản hay tập hợp tài liệu cần thiết.