Data Warehouse là gì? Kho dữ liệu

Related Articles

1. Vai trò của Kho dữ liệu trong hệ thống BI

Hệ thống thông tin quản trị thông minh (Business Intelligence – BI) là một hệ thống giúp các nhà quản lý công cụ và một phương pháp mới điều hành doanh nghiệp như đã trình bày trong bài trước. Để có thể trình bày được thông tin trên các báo cáo quản trị (dashboard) thì cần có nguồn cung cấp thông tin đó – đó chính là Kho dữ liệu (Data warehouse). Vị trí của Kho dữ liệu được minh họa ở Figure 1. Phía bên phải (hình oval bên phải) là đối tượng thụ hưởng của hệ thống – những người sẽ phân tích thông tin để đưa ra các kế hoạch dài hạn hay điều hành ngắn hạn.

Data warehouse | Kho dữ liệu

Để có thể đưa ra được các thông tin có tính hệ thống, phù hợp với nghiệp vụ kinh doanh của doanh nghiệp thì cần có đội ngũ nghiệp vụ (hình oval ở giữa), chịu trách nhiệm xây dựng các báo cáo quản trị từ Kho dữ liệu. Cuối cùng để có thể lấy được dữ liệu và đưa vào Kho dữ liệu theo nhu cầu nghiệp vụ thì cần có đội ngũ kỹ thuật (hình oval bên trái).

Ngoài ra có thể có các hệ thống thông mình (hình vuông góc dưới bên trái) có thể khai thác dữ liệu từ Kho dữ liệu nhằm hỗ trợ quản lý ra quyết định.

Xem thêm:

2. Định nghĩa Kho dữ liệu

Kho dữ liệu ban đầu được định nghĩa là một tập dữ liệu được dùng để hỗ trợ quy trình ra quyết định. Theo quá trình phát triển, Kho dữ liệu được định nghĩa là một môi trường thông tin (information environment) (từ môi trường thông tin thể hiện nó không phải là một sản phẩm (product)), có các chức năng:

Cung cấp một góc nhìn toàn diện về doanh nghiệp:

Cho dù doanh nghiệp có nhiều mảng kinh doanh được quản lý bởi các hệ thống tác nghiệp khác nhau, nhưng Kho dữ liệu là nơi đã tập hợp (tích hợp) được mọi thông tin về các mảng nghiệp vụ khác nhau để cung cấp một góc nhìn toàn diện. Việc tích hợp này còn cung cấp khả năng đánh giá chéo các mảng nghiệp vụ khác nhau để đánh giá sự tương quan giữa chúng.

Cung cấp đầy đủ thông tin hiện tại và lịch sử của doanh nghiệp, và sẵn sàng cho việc khai thác, sử dụng cho việc hỗ trợ ra quyết định chiến lược.

Từ thông tin ở đây bộc lộ tài liệu ở trong kho không chỉ đơn thuần là tài liệu thô lấy từ những mạng lưới hệ thống tác nghiệp mà nó đã được tổng hợp, giám sát thành những độ đo có ý nghĩa nghiên cứu và phân tích .

Có khả năng cung cấp dữ liệu chi tiết theo nhu cầu mà không phải truy xuất các hệ thống tác nghiệp:

Điều này bộc lộ trong một số ít trường hợp hoàn toàn có thể nhu yếu nghiên cứu và phân tích tài liệu ở mức thanh toán giao dịch, thì nó cũng sẽ được lưu sẵn ở Kho dữ liệu .

Đảm bảo thông tin trong Kho dữ liệu có tính nhất quán:

Ví dụ doanh nghiệp có nhiều nhiệm vụ được quản trị với những mạng lưới hệ thống tác nghiệp khác nhau, nhưng cần bảo vệ ánh xạ được một người mua Open ở nhiều mạng lưới hệ thống về 1 người duy nhất. Điều này vận dụng cho những đối tượng người dùng tài liệu khác. Ngoài ra một trường tài liệu hoàn toàn có thể được trình diễn bằng nhiều cách khác nhau, ví dụ Tên người mua có mạng lưới hệ thống tách họ và tên thành 2 trường khác nhau, có mạng lưới hệ thống chỉ lưu trong 1 trường. Khi tổng hợp về Kho dữ liệu thì sẽ được chuyển về 1 dạng thống nhất .

Là nguồn thông tin chiến lược mềm dẻo và có tính tương tác:

Chữ mềm dẻo và tương tác ở đây biểu lộ người dùng hoàn toàn có thể lấy những thông tin khác nhau của cùng một đối tượng người tiêu dùng. Từ tương tác ở đây biểu lộ hoàn toàn có thể thực thi được nhiều thao tác với những đối tượng người dùng tài liệu thay vì trả lại một list tĩnh. Ví dụ hoàn toàn có thể lấy tài liệu tổng hợp theo ngày, theo tuần, theo tháng của cùng 1 đối tượng người tiêu dùng tài liệu. Tính tương tác biểu lộ người dùng hoàn toàn có thể vận dụng những thao tác nghiên cứu và phân tích tài liệu, một ví dụ là nền tảng nghiên cứu và phân tích tài liệu SQL Server Analysis Services ( SSAS ) được cho phép người dùng hoàn toàn có thể tương tác để nghiên cứu và phân tích tài liệu .

3. Đặc điểm của Kho dữ liệu

Dữ liệu được lưu trong Kho dữ liệu không được tạo ra trực tiếp từ người dùng mà được lấy từ các nguồn dữ liệu sẵn có và mục đích là phục vụ tạo ra các báo cáo quản trị do đó nó có các tính chất sau:

Hướng chủ đề (subject-oriented):

Mục đích của Kho dữ liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể được gọi là chủ đề. Ví dụ với chủ đề phân tích nhân sự thì có thể bao gồm các độ đo về doanh thu của từng người, số ngày nghỉ trong tháng, số dự án tham gia trong tháng, theo các chiều phân tích: thời gian, chi nhánh, sản phẩm, …

Một sự so sánh dễ hiểu, giống như chẩn đoán một bệnh ví dụ bệnh tương quan đến tim, thì bác sỹ cần chăm sóc không chỉ một mà một vài chỉ số như những chỉ số tương quan đến máu, chỉ số về huyết áp, nhịp tim, điện tâm đồ. Ngoài ra còn cần theo dõi theo thời hạn ( hoàn toàn có thể là hàng ngày ) để xem xét sự biến hóa mà có giải pháp điều trị kịp thời. Trong trường hợp này thời hạn được gọi là chiều nghiên cứu và phân tích. Để chẩn đoán được đúng chuẩn thì cần không thiếu những thông tin về những chỉ số trên, và cũng không cần những chỉ số khác lẫn vào làm nhiễu quy trình chẩn đoán và cũng không thiết yếu. Việc tổ chức triển khai tài liệu theo chủ đề này sẽ dẫn đến nhu yếu tổ chức triển khai tàng trữ tài liệu khác với những cơ sở tài liệu tác nghiệp .

Được tích hợp (integrated):

Tại một bệnh viện, những phòng khác nhau sẽ triển khai những xét nghiệm khác nhau, do đó để có được vừa đủ thông tin ship hàng chẩn đoán thì cần tích lũy được tác dụng từ nhiêu nguồn. Điều này trọn vẹn tựa như như tại doanh nghiệp, tài liệu cần để nghiên cứu và phân tích hoàn toàn có thể nằm rải rác ở nhiều mạng lưới hệ thống tác nghiệp khác nhau, và thế cho nên cần tích hợp lại. Quá trình tích hợp này sẽ được thực thi trong quy trình ETL như đã trình diễn ở bài trước. Việc tổng hợp tài liệu từ nhiều nguồn vào một kho tài liệu được cho phép tất cả chúng ta hoàn toàn có thể xem đồng thời nhiều nhóm chỉ tiêu khác nhau ( từ nhiều mạng lưới hệ thống nhiệm vụ khác nhau ), ví dụ ta hoàn toàn có thể xem chỉ tiêu lệch giá ở nhiều mảng nhiệm vụ khác nhau để hoàn toàn có thể so sánh được sự đối sánh tương quan giữa những mảng nhiệm vụ này. Điều này cũng giống trong chuẩn đoán bệnh ta hoàn toàn có thể cần nhiều xét nghiệm ( thử máu, thử nước tiếu, siêu âm, … ) và kiểm tra khác nhau để hoàn toàn có thể đưa ra Tóm lại đúng chuẩn .

Có gán nhãn thời gian (time variant):

Như đã đề cập, với những chỉ số đổi khác liên tục ( như huyết áp, nhịp tim ) việc chẩn đoán bệnh sẽ cần tài liệu của những hôm trước để so sánh Giao hàng quy trình điều trị. Do đó hàng ngày cần phải lưu lại giá trị của những chỉ số này. Hay nói cách khác những chỉ số này khi lưu sẽ được gán 1 nhãn thời hạn tương ứng. Tương tự như vậy, tài liệu lịch sử vẻ vang có tầm quan trọng đặc biệt quan trọng trong nghiên cứu và phân tích tài liệu, cùng một độ đo sẽ có nhiều giá trị khác nhau trong lịch sử vẻ vang hoàn toàn có thể dùng để so sánh với nhau để biết được sự đổi khác là tốt hay xấu .

Ví dụ, độ đo lệch giá của một loại sản phẩm của tháng hiện tại, nếu đem so sánh với lệch giá của mẫu sản phẩm đó trong tháng trước, tháng này năm trước thì sẽ có nhiều thông tin hơn để nhìn nhận lệch giá của mẫu sản phẩm đó là tốt hay không, trên cơ sở đó sẽ có những quyết định hành động tương thích. Ngoài ra, tài liệu lịch sử dân tộc còn được cho phép dự báo được tương lai khi ứng dụng khám phá tài liệu .

Bất biến (non-volatile):

Khác với các cơ sở dữ liệu (CSDL) giao dịch, nơi thông tin của một đối tượng có thể được cập nhật thay đổi hàng ngày, dữ liệu trong Kho dữ liệu có chức năng báo cáo lại các chỉ số về hoạt động kinh doanh thực tế đã xảy ra. Do đó dữ liệu trong Kho dữ liệu không thể cập nhật, thay đổi vì nó sẽ không phản ánh đúng thực tế. Do đó với kho dữ liệu chỉ có 2 thao tác chính là tải dữ liệu vào kho và truy cập (đọc) dữ liệu từ kho.

Trường hợp sau khi tổng hợp tài liệu mà tài liệu ở trong nguồn bị biến hóa, khi đó một giải pháp giải quyết và xử lý là thực thi lại quy trình ETL để tải lại tài liệu từ nguồn vào Kho dữ liệu chứ không được cho phép sửa đổi tài liệu ở trong Kho. Một ý nghĩa khác của đặc thù này là tài liệu lịch sử dân tộc vẫn được bảo tồn, vẫn có ý nghĩa chứ không như tài liệu tác nghiệp ở những cơ sở tài liệu, tài liệu cũ ( năm trước, hoặc tháng trước ) không có ý nghĩa ship hàng hoạt động giải trí hằng ngày .

Như vậy, nếu như CSDL tác nghiệp được ví như cái tủ sách cá thể, nơi người ta liên tục tra cứu, update, hiệu đính, ghi chú vào lề, thêm mới hoặc chuyển sách đi. Thì Kho dữ liệu lại được so sánh với thư viện vương quốc, nơi những tài liệu tầm cỡ được đưa đến liên tục để tàng trữ và tìm hiểu thêm, không ai sửa chữa thay thế hoặc chuyển chúng qua chỗ nào khác cả .

4. Mô hình biểu diễn dữ liệu trong Kho dữ liệu

Vì các đặc điểm dữ liệu được tổ chức hướng chủ đề, nên mô hình quan hệ thực thể được dùng trong thiết kế cơ sở dữ liệu (CSDL) tác nghiệp là không còn phù hợp. Trong thực tế, người ta dùng 2 khái niệm là độ đo (measure) và chiều phân tích (dimension) để biểu diễn dữ liệu trong kho. Áp dụng vào ví dụ ở trên, tập các chỉ số máu, nhịp tim, huyết áp sẽ tương ứng với các độ đo, và thời gian là chiều phân tích.

Một số quy mô sau đã được phong cách thiết kế để màn biểu diễn những độ đo và chiều nghiên cứu và phân tích. Người ta vẫn dùng quy mô cơ sở tài liệu quan hệ để màn biểu diễn, trong đó bảng sự kiện ( Fact ) sẽ được tạo ra để chứa những độ đo, và bảng chiều ( demension ) được dùng để chứa thông tin về những chiều nghiên cứu và phân tích, bảng sự kiện sẽ có mối quan hệ với bảng chiều tương ứng. Cụ thể có 3 quy mô trình diễn quan hệ giữa bảng sự kiện và bảng chiều như sau :

Mô hình ngôi sao (star schema)

Trong quy mô này, một bảng sự kiện sẽ nằm ở TT và xung quanh là những bảng chiều ( Figure 2 bên trái ), vì hình ảnh này giống một ngôi sao 5 cánh đang phát sáng nên người ta đặt cho nó tên là quy mô ngôi sao 5 cánh ( Figure 2 bên phải ) .

Data warehouse | Kho dữ liệu

Ở trong ví dụ trong Figure 2, bảng sự kiện chứa thông tin bán hàng với những độ đo : số lượng bán được ( unit sold ), số tiền thu được ( dollars sold ) và trung bình lệch giá ( average marketing ). Bảng sự kiện này có link với 4 bảng chiều : thời hạn ( time ), Trụ sở shop ( branch ), loại sản phẩm ( item ) và vị trí shop ( location ) .

Đặc điểm của quy mô ngôi sao 5 cánh là chỉ có 1 cấp quan hệ giữa bảng chiều và bảng sự kiện do đó khi truy xuất tài liệu thì những hệ quản trị CSDL sẽ giải quyết và xử lý nhanh hơn và trả lại tác dụng nhanh hơn. Nhưng điểm yếu kém của giải pháp này là 1 số ít bảng chiều chưa được chuẩn hóa. Ví dụ như bảng chiều vị trí, trong đó nó không được chuẩn hóa theo quy mô cơ sở tài liệu .

Trong bảng này nhiều tài liệu bị lặp lại ví dụ hàng loạt những trường city, state_or_province, và country sẽ bị lặp trên những dòng có trùng city. Việc tài liệu không được chuẩn hóa sẽ không bảo vệ được sự đồng nhất về tài liệu. Khi tài liệu biến hóa ví dụ người ta đổi tên city, hoàn toàn có thể quy trình update sẽ bị sót do rất nhiều dòng cần phải update. Ngoài ra tài liệu lặp sẽ làm tăng khoảng trống tàng trữ, ảnh hưởng tác động đến tiến trình sao lưu, đồng nhất tài liệu .

Một chủ đề nghiên cứu và phân tích hoàn toàn có thể được màn biểu diễn bằng một hoặc nhiều “ ngôi sao 5 cánh ” .

Mô hình bông tuyết (snowflake)

Mô hình bông tuyết khắc phục điểm yếu kém của quy mô ngôi sao 5 cánh ở góc nhìn tài liệu không được chuẩn hóa. Do đó nó được cho phép những bảng chiều được chuẩn hóa ( tùy theo trường hợp mà nó hoàn toàn có thể chuẩn hóa đến chuẩn 3 Boyce – Codd ). Vì sau khi chuẩn hóa những bảng chiều, nó có hình dạng giống một bông tuyết ( Figure 3 bên phải ), đây là nguyên do nó có tên như vậy .

Data warehouse | Kho dữ liệu

Figure 3 minh họa quy mô bông tuyết trong đó bảng location đã được chuẩn hóa, do thiếu khoảng trống nên ở hình này chỉ vẽ được đến bảng city ( trong đó có chứa khóa state_or_province_key ) để link với bảng state_or_province, liên tục bảng state_or_province lại có quan hệ với bảng country ( nếu muốn chuẩn hóa đến chuẩn 3 ). Tuy nó khắc phục được điểm yếu kém của quy mô chòm sao, nhưng nó lại phá mất ưu điểm của quy mô ngôi sao 5 cánh là vận tốc giải quyết và xử lý tài liệu khi nó phải link nhiều bảng với nhau để lấy tài liệu .

Tương tự với quy mô ngôi sao 5 cánh, một chủ đề nghiên cứu và phân tích hoàn toàn có thể được màn biểu diễn bằng một hoặc một vài bông tuyết .

Mô hình chòm sao (constellation)

Mô hình chòm sao liên tục là sự lan rộng ra quy mô bông tuyết, trong đó nó được cho phép những bảng sự kiện hoàn toàn có thể sử dụng chung những bảng chiều. Khi đó những bảng sự kiện và bảng chiều sẽ tạo ra mối quan hệ giống như một đồ thị – và một hình ảnh rất giống với mối quan hệ này là chòm sao ( Figure 3 bên phải ) .

Data warehouse | Kho dữ liệu

Trong ví dụ ở Figure 4, khi bổ trợ thêm vào bảng sự kiện Giao hàng ( shipping ), khi đó bảng sự kiện này sẽ có nhu yếu sử dụng chiều location, item, time .

Việc sử dụng chung chiều có ưu điểm là rút gọn được số lượng bảng chiều. Nhưng việc làm này sẽ tác động ảnh hưởng lớn đến quy trình ETL dữ liệu. Giả sử mạng lưới hệ thống quản trị bán hàng là tách biệt với mạng lưới hệ thống quản trị giao hàng, khi đó cần phải lấy thông tin từ cả 2 nguồn tài liệu để đẩy vào bảng chiều chung là location .

Nhược điểm của quy mô chòm sao là phức tạp, khó sử dụng và cần đọc tài liệu hướng dẫn thì mới hoàn toàn có thể hiểu và lấy được thông tin cần từ Kho dữ liệu. Các quy trình khác như ETL cũng sẽ phức tạp hơn so với những quy mô khác. Vì đặc thù quy mô này phức tạp nên 1 số ít sách hoàn toàn có thể không đề cập ra mắt quy mô này .

Với những quy mô trình diễn sẽ có những ưu điểm và điểm yếu kém riêng, nên người phong cách thiết kế phải chịu nghĩa vụ và trách nhiệm lựa chọn quy mô nào tương thích .

N12H – iERP

Xem thêm:

Theo dõi kênh tin tức của chúng tôi để cập nhật những tin tức mới nhất: Youtube, Fanpage

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Advertismentspot_img

Popular stories