ĐỀ TÀI: Giải pháp tổ chức cơ sở dữ liệu hybrid cho hạ tầng kỹ thuật các công trình giao thông trên địa bàn thành phố Đà Nẵng

Thứ tư, 17 Tháng tư 2019 22:27 Array In Array

   Tóm tắt: Ngày nay, do nhu cầu về công việc và cuộc sống, dân số tại các tỉnh/thành phố lớn như TP. Hồ Chí Minh, Hà Nội, Đà Nẵng... tăng lên rất nhanh chóng. Quy hoạch và phát triển khu đô thị, khu dân cư cũng tăng nhanh. Song song, hạ tầng giao thông được phát triển, mở rộng và cũng đã đặt ra những yêu cầu, thách thức mới trong công tác quản lý hạ tầng giao thông đô thị, đặc biệt là quản lý hệ thống cơ sở dữ liệu. Vấn đề đặt ra là hệ thống giao thông phải làm việc với nhiều dạng dữ liệu khác nhau. Bài báo này trình bày một giải pháp để tổ chức toàn bộ dữ liệu giao thông thành hệ thống dữ liệu hybrid. Hệ thống này sẽ tích hợp 3 hướng tiếp cận khác nhau (dữ liệu địa lý, dữ liệu quan hệ và dữ liệu đa phương tiện) để thích nghi với việc biến đổi hệ thống giao thông trong quá trình phát triển. Hướng tiếp cận dữ liệu hybrid này đủ mềm dẻo để thích nghi (hoặc được áp dụng) cho các bài toán quản lý khác, chẳng hạn như: quản lý vận tải, quản lý hành chính tổng thể.


   1 Giới thiệu


   1.1 Ngữ cảnh


   Tại Thành phố Đà Nẵng, đơn vị trực tiếp quản lý hạ tầng giao thông là Công ty quản lý cầu đường, trực thuộc Sở Giao thông vận tải. Hiện tại, Công ty chủ yếu thực hiện lưu trữ hồ sơ về hạ tầng giao thông trên giấy (hồ sơ hoàn công, hồ sơ quản lý công trình), một số dữ liệu rời rạc (như bản vẽ hoàn công công trình đường, cầu...) trên máy tính và một số dữ liệu được số hóa sử dụng công nghệ GIS (quận Hải Châu), các file hình ảnh và clip... phục vụ công tác quản lý. Tuy nhiên, dữ liệu số hóa này lại phân tán, chưa đầy đủ và chính xác, chưa được cập nhật thường xuyên. Vì vậy, việc khai thác phần dữ liệu số hóa này còn những hạn chế nhất định. Việc cập nhật, tìm kiếm, thống kê, khai thác... gặp nhiều khó khăn, chi phí, thời gian và nhân lực rất lớn.


   Ngoài ra, dữ liệu hạ tầng giao thông của một Thành phố rất lớn và phức tạp, gồm hệ thống đường bộ, đường thủy và các công trình khác gắn liền trên đó. Hơn nữa, các dữ liệu này liên tục biến động do việc xây dựng mới, cải tạo, sửa chữa... Sự phát triển nhanh chóng của hệ thống công trình hạ tầng kỹ thuật đã đặt ra yêu cầu về hệ thống các phương pháp quản lý thông tin một cách khoa học, chính xác cho công tác quản lý, điều hành các công trình hạ tầng kỹ thuật giao thông. Vì vậy, việc số hóa dữ liệu hiện trạng công trình hạ tầng kỹ thuật giao thông là rất cần thiết và là công cụ hữu ích trong việc tích hợp cơ sở dữ liệu gắn kết toàn bộ hệ thống công trình hạ tầng kỹ thuật trên địa bàn thành phố (kể cả các công trình ngầm); hỗ trợ cho việc quản lý tập trung và khai thác hiệu quả cơ sở dữ liệu, nâng cao hiệu quả công tác quản lý, Giảm thời gian tra cứu, tổng hợp, so sánh số liệu về hiện trạng; Tiết kiệm thời gian, công sức thẩm định, thanh kiểm tra vi phạm công trình hạ tầng kỹ thuật do được cung cấp thông tin nhanh chóng, đầy đủ và khách quan.


   Xét trên khía cạnh khoa học, để quản lý tốt hạ tầng dữ liệu, chúng ta phải bắt nguồn từ bản chất của dữ liệu hiện tại. Tuy nhiên, chúng ta có những hướng nhìn khác nhau về bản chất dữ liệu và do đó những giải pháp riêng biệt cho từng hướng nhìn này làm cho hệ thống trở nên quá phức tạp để quản lý. Một cách tổng quát, chúng ta có thể xem xét dữ liệu theo ba hướng tiếp cận dưới đây.


   - Tiếp cận hệ thống thông tin địa lý (GIS): Hướng tiếp cận này rất hữu hiệu cho việc tổ chức các đối tượng địa lý trong mạng lưới giao thông, gồm các tuyến đường, cống ngầm, các công trình phụ và toàn bộ thông tin về tình trạng của mỗi đối tượng địa lý này. Tuy nhiên, đối với các thông tin về hồ sơ công trình, hoàn công và các thông tin chi tiết khác thì hệ thống GIS sẽ gặp khó khăn để xử lý.


   - Tiếp cận cơ sở dữ liệu quan hệ (Relational Database): Hướng tiếp cận này rất tốt cho việc tổ chức dữ liệu doanh nghiệp và hoàn toàn phù hợp với việc quản lý thông tin về hồ sơ và về chi tiết toàn bộ quá trình xử lý sửa chữa các đối tượng giao thông. Tuy nhiên, hướng tiếp cận này sẽ gặp vấn đề khi hệ thống trở nên phức tạp, đặc biệt là việc xây dựng thêm các tuyến đường mới, các cây cầu mới kèm với các chi tiết hồ sơ, xây dựng và kiểm định kèm theo.


   - Tiếp cận cơ sở dữ liệu đồ thị (Graph Database): Đây là hướng tiếp cận đột phát (phá) để tổ chức dữ liệu giao thông. Về bản chất khoa học, hệ thống giao thông cũng là một đồ thị. Đồ thị là một đối tượng toán học tổng quát để giải tất cả các bài toán giao thông. Đồ thị thể hiện một hệ thống giao thông sẽ hoàn toàn thích nghi được với mọi thay đổi thực tế của hệ thống.


   Bài toán đặt ra của đề tài là một giải pháp để tổ chức toàn bộ dữ liệu giao thông thành hệ thống dữ liệu hybrid. Hệ thống này sẽ tích hợp 3 hướng tiếp cận khác nhau (tương ứng với bản chất của dữ liệu hiện tại) để thích nghi với việc thay đổi giao thông trong quá trình phát triển. Hướng tiếp cận dữ liệu hybrid này đủ mềm dẻo để thích nghi (hoặc được áp dụng) cho các bài toán quản lý khác, chẳng hạn như: quản lý vận tải, quản lý hành chính tổng thể...


   1.2 Bài toán cần giải quyết


   Mục tiêu của đề tài này là việc kết hợp các hướng tiếp cận khoa học đối với dữ liệu để tổ chức toàn bộ dữ liệu hiện tại thành một khối thống nhất. Hướng áp dụng của đề tài này là số hóa dữ liệu hạ tầng kỹ thuật các công trình giao thông tại thành phố Đà Nẵng; cụ thể:


   - Nghiêu cứu tính đặc thù của mỗi loại dữ liệu trong toàn bộ hệ thống dữ liệu về giao thông hiện tại. Mỗi loại dữ liệu sẽ có hướng tiếp cận cụ thể để tổ chức.


   - Nghiên cứu khả năng tích hợp các loại dữ liệu với nhau. Thực tế là mỗi loại dữ liệu vốn được tổ chức thành một khối độc lập, tuy nhiên có mối liên hệ với nhau. Do đó, chúng ta cần tổ chức các loại dữ liệu này thành một khối thống nhất đủ mềm dẻo để dễ quản lý và thích nghi khi có sự thay đổi.


   - Thiết kế mô hình cơ sở dữ liệu hybrid cho hạ tầng kỹ thuật các công trình giao thông, gồm các thông số kỹ thuật các công trình đường bộ (các nút, các tuyến giao thông), các cầu cống và xây dựng bản đồ mạng lưới giao thông.


   2 Cơ sở lý thuyết và các công trình liên quan


   Đề tài thuộc lĩnh vực ứng dụng công nghệ thông tin vào công tác quản lý bằng cách xây dựng một phần mềm quản lý. Hiện tại, các phần mềm quản lý thường được chia thành hai dạng: dạng thứ nhất xoay quanh nghiệp vụ ít thay đổi theo thời giời gian (như quản lý bán hàng, quản lý tác vụ, ..), dạng thứ hai liên quan đến các hoạt động mà nhu cầu xử lý thay đổi theo thời gian và thậm chí liên quan đến các loại dữ liệu khác nhau (ví dụ: phần mềm quản lý việc khám chữa bệnh và chăm sóc sức khoẻ)


   Hiện nay, hệ thống giao thông ngày càng phát triển để theo kịp với sự phát triển của xã hội. Vì thế, phần mềm quản lý hệ thống giao thông luôn phải được nâng cấp theo thời gian. Điều này dẫn đến việc phát sinh các chức năng mới của hệ thống. Đây là thách thức đầu tiên đối với việc xây dựng phần mềm quản lý dạng này.


   Bản chất hệ thống giao thông cần làm việc với nhiều loại dữ liệu khác nhau. Ví dụ: đối với việc lưu trữ và xử lý bản đồ, chúng ta cần hệ thống dữ liệu GIS; đối với dữ liệu mô tả thông tin kỹ thuật của công trình, chúng ta cần hệ thống cơ sở dữ liệu quan hệ; đối với số liệu quan trắc từ cảm biến hoặc camera, chúng ta cần xử lý dữ liệu thời gian thực… Do đó, việc tổ chức hệ thống cơ sở dữ liệu mềm dẻo để có thể tích hợp tất cả các loại dữ liệu trên là một thách thức hiện nay.


   Đề tài này hướng tới việc “Xây dựng mô hình dữ liệu hybrid với sự kết hợp giữa tất cả dữ liệu có thể có với cơ sở dữ liệu đồ thị”. Cơ sở dữ liệu này giúp cho phần mềm có khả năng dễ nâng cấp và dễ bổ sung thêm chức năng để đáp ứng với nhu cầu mới.


   Hiện tại, nhóm nghiên cứu đang tham gia phát triển hệ thống mô hình hoá kiến trúc thông tin địa lý (GIS Agent-based Modeling Architecture, gọi tắt là GAMA [Grignard et al]). Hệ thống GAMA đã đưa vào ứng dụng và đang được sử dụng rộng rãi để mô hình hoá. Cụ thể, GAMA là một hệ nền tảng cho phép mô phỏng các tác tử trong đó GAMA cho phép tương tác và chỉnh sửa các đối tượng thông tin địa lý.


   3 Đề xuất phương pháp


   3.1 Hướng tiếp cận đồ thị


   Đồ thị vô hướng hoặc đồ thị G là một cặp không có thứ tự (unordered pair) G:=(V, E), trong đó:


   • V, tập các đỉnh hoặc nút,


   • E, tập các cặp không thứ tự chứa các đỉnh phân biệt, được gọi là cạnh. Hai đỉnh thuộc một cạnh được gọi là các đỉnh đầu cuối của cạnh đó.


   Các thao tác trên đồ thị:


   Các phép toán một ngôi


   • Đồ thị đường (Line graph) (tạo đồ thị mới bằng cách chuyển cạnh thành đỉnh và tạo các cạnh tương ứng)


   • Đồ thị đối ngẫu (Dual graph) (tạo đồ thị mới từ một đồ thị phẳng bằng cách tạo một đỉnh cho mỗi miền mặt phẳng và các cạnh được nối giữa hai đỉnh tương ứng với hai miền kề nhau)


   • Đồ thị bù (Complement graph)


   Các phép toán hai ngôi


   • Tích Đề-các của đồ thị (Cartesian product of graphs)


   • Tích Ten-xơ của đồ thị (Tensor product of graphs)


   Các suy rộng


   Trong siêu đồ thị (hypergraph), một cạnh có thể nối nhiều hơn hai đỉnh.


   Một đồ thị vô hướng có thể được coi là một phức đơn hình (simplicial complex) bao gồm các đơn hình 1 chiều (các cạnh) và các đơn hình 0 chiều (các đỉnh). Như vậy, đa hình là suy rộng của đồ thị do chúng cho phép các đơn hình nhiều chiều hơn.


   Mỗi đồ thị đều cho một matroid, nhưng nói chung, không thể tạo lại đồ thị từ matroid của nó, do đó, matroid không phải là suy rộng của đồ thị.


   Trong lý thuyết mô hình (model theory), một đồ thị chỉ là một cấu trúc. Nhưng khi đó, không có giới hạn về số cạnh: nó có thể là một số đếm bất kỳ.


   3.2 Giải pháp cơ sở dữ liệu đồ thị


   Định nghĩa:


   a. Gọi đỉnh của đồ thị là một đơn vị dữ liệu


   b. Gọi cạnh nối hai đỉnh của đồ thị là liên kết giữa hai đơn vị dữ liệu đó.


   c. Trọng số của đồ thị chính là độ quan trọng của liên kết dữ liệu giữ hai đỉnh này.


   Các toán tử đối với dữ liệu đồ thị


   a. Toán tử thêm: Thêm dữ liệu vào cơ sở dữ liệu: thêm một đỉnh vào đồ thị mà đỉnh này sẽ nối với một đỉnh bên trong đồ thị.


   b. Toán tử sửa: Sửa dữ liệu trong cơ sở dữ liệu: thay đổi giá trị tại một đỉnh của đồ thị


   c. Toán tử xoá: Xoá một đơn vị trong cơ sở dữ liệu: xoá một đỉnh trong đồ thị và các cạnh kết nối với đỉnh đó. Việc này sẽ ảnh hưởng đến toàn bộ đồ thị và có thể sẽ mất dữ liệu.


   d. Toán tử tìm kiếm: Tìm kiếm một đơn vị dữ liệu trong cơ sở dữ liệu: duyệt qua các đỉnh của đồ thị để tìm được đỉnh thảo mãn yêu cầu.


   e. Toán tử truy vấn: Truy vấn dữ liệu trong cơ sở dữ liệu để xây dựng một báo cáo: tìm đường đi ngắn nhất đến tất các đỉnh thoả mãn điều kiện của thống kê.


   3.3 Chứng minh tính toàn vẹn của dữ liệu:


   Ở đây, chung ta cần chứng minh rằng mọi dữ liệu trong hệ thống phải truy xuất được. Nghĩa là chúng ta có thể tìm thấy tất cả các dữ liệu có trong cơ sở dữ liệu.


   Chứng minh bằng phản chứng:


   a. Giả sử tồn tại một đơn vị dữ liệu mà không thể truy vấn được


   b. Suy ra tồn tại một đỉnh của đồ thị không có liên kết với các đỉnh khác.


   c. Nghĩa là vi phạm phép toán thêm dữ liệu vào đồ thị.


   d. Vì thế vi phạm tính liên thông của đồ thị


   Vậy, mọi dữ liệu bên trong cơ sở dữ liệu đồ thị đều có thể truy vấn được.


   3.4 Giải pháp cơ sở dữ liệu hybrid


   Hiện tại, đang có nhiều cơ sở dữ liệu đang được sử dụng tại đơn vị nghiên cứu. Nếu chúng ta có thể chuyển tất cả dữ liệu này vào cơ sở dữ liệu đồ thị thì mọi thứ xem như được giải quyết toàn diện. Tuy nhiên, quá trình chuyển đổi dữ liệu (data migration) là một quá trình phức tạp và tốn thời gian vì các lý do:


   • Tất cả cơ sở dữ liệu đều phức tạp


   • Các cơ sở dữ liệu khác nhau thì không đồng bộ nhau (có sự dư thừa, có sự thiếu liên kết)


   • Trong quá trình chuyển đổi, sẽ có nhiều dữ liệu được thêm vào


   Vì thế, bắt buột phải có một giai đoạn quá độ mà tất cả các cơ sở dữ liệu cùng tồn tại song song. Tuy nhiên vẫn phải có thêm một cơ sở dữ liệu (ở đây cơ sở dữ liệu đồ thị được chọn) liên kết tất cả cơ sở dữ liệu này lại. Hệ thống gồm tất cả các cơ sở dữ liệu đang có kết hợp với cơ sở dữ liệu đồ thị gọi là cơ sở dữ liệu hybrid.


   Cơ sở dữ liệu hybrid sẽ hoạt động theo các tiêu chí sau:


   • Kết nối tất cả cơ sở dữ liệu vào cơ sở dữ liệu đồ thị.


• Mọi truy vấn đều thông qua cơ sở dữ liệu đồ thị trước tiên. Nếu dữ liệu cần truy vấn có trên đồ thị thì sử dụng. Nếu không, câu truy vấn sẽ được chuyển đến các cơ sở dữ liệu liên quan.


• Liên tục chuyển thông tin từ các cơ sở dữ liệu liên quan vào bên trong cơ sở dữ liệu đồ thị.


• Mọi thông tin thêm vào đều thêm vào cả đồ thị và các cơ sở dữ liệu liên quan.


• Một khi toàn bộ dữ liệu của một cơ sở dữ liệu nằm trong cơ sở dữ liệu đồ thị, cở sở dữ liệu hybrid sẽ không truy vấn với cơ sở dữ liệu đó nữa.


   4 Đánh giá


   4.1 Đánh giá định tính


   Đánh giá định tính trong tình huống này trình bày kết quả khi thực hiện các câu truy vấn. Một câu truy vấn sẽ được thực hiện và trả về danh sách các nút và các cạnh liên quan. Hình 1 trình bày kết quả của việc truy vấn các cơ quan và các cá nhân cùng với các hồ sơ pháp lý liên quan đến công trình đường Lý Thường Kiệt. Bên cạnh các nút chứa thông tin liên quan đến công tác quản lý thì các tuyến đường được nối với những công trình được thực hiện ngay trên nó. Với mỗi công trình thì được liên kết đến các nút liên quan đến các Cơ Quan và Cá nhân có liên quan. Đồng thời các công trình còn được liên kết với những Hồ Sơ Pháp Lý được chia thành 12 mục như trong phần Khái quát về dữ liệu đã đề cập.

Hybrid KHCN 1
Fig. 1. Kết quả truy vấn hồ sơ pháp lý của một tuyến đường


   Chúng tôi thực hiện rất nhiều câu truy vấn khác nhau liên quan đến việc quản lý nghiệp vụ, tất cả đều trả về kết quả theo yêu cầu. Ví dụ về các câu truy vấn bao gồm: liệt kê tất cả các nút dữ liệu; liệt kê tất cả thông tin liên quan đến một tuyến đường; liệt kê hồ sơ pháp lý của một tuyến đường; liệt kê nhật ký bảo dưỡng của một tuyến đường; liệt kê nhật ký tuần tra của một tuyến đường;


   4.2 Đánh giá định lượng


   Trước hết, chúng tôi thực hiện việc đánh giá trên một server chỉ dành riêng cho cơ sở dữ liệu. Server này có bộ CPU core i7 2,4Ghz, bộ nhớ 16GB RAM, ổ cứng SSD 156GB. Chúng tôi thực hiện việc truy vấn tất cả các nốt trong cơ sở dữ liệu.


   Trường hợp này chúng tôi bắt đầu đo tốc độ đối với dữ liệu bản đồ quận Hải Châu. Dữ liệu này gồm 2550 nốt đại diện cho dữ liệu địa lý thể hiện các điểm giao nhau của các tuyến đường. Với mỗi nốt, chúng tôi giả lập thêm 1000 nốt đại diện cho dữ liệu quan hệ gắn với dữ liệu địa lý.

 

Hybrid KHCN 1
Fig. 2.Thời gian thực hiện truy vấn toàn bộ dữ liệu


   Mỗi trường hợp thực nghiệm tiếp theo, chúng tôi nhân số lượng dữ liệu của các nốt dữ liệu này lên 2 lần, 3 lần, … 10 lần. Với mỗi trường hợp, chúng tôi thực hiện truy vấn 100 lần và lấy kết quả trung bình. Hình trên mô tả thời gian truy vấn đối với đối với từng trương hợp thực nghiệm.


   Kết quả cho thấy rằng, chúng ta nhân bộ dữ liệu lên 8 lần thì tốc độ truy vấn vẫn dưới 2 giây. Nghĩa là nếu chúng ta mở rộng thành phố ra gấp 8 lần thì thời gian truy vấn vẫn dưới 2 giây. Đây là điều chấp nhận được. Tuy nhiên, nếu chúng ta nhân dữ liệu lên gấp 10 lần thì thời gian truy vấn sẽ nhiều hơn 12 giây. Điều này dẫn đến định hướng là phải nghiên cứu song song hoá dữ liệu để có thể truy vấn kịp thời.


   5 Kết luận


   5.1 Kết quả đạt được


   Trước hết, đề tài này đã đề xuất một giải pháp để xây dựng cở sở dữ liệu hybrid để thống nhất các dạng dữ liệu trong hệ thống quản lý giao thông. Cơ sở dữ liệu này sử dụng dữ liệu đồ thị để kết nối với tất cả các loại dữ liệu khác như dữ liệu GIS, dữ liệu quan hệ, và các loại dữ liệu khác.


   Đề tài này còn đề xuất một giải pháp kết hợp tạm thời đối với hệ thống hiện tại đó là hệ thống hybrid. Hệ thống hybrid là sự kết hợp tạm thời giữa cơ sở dữ liệu hybrid và tất các hệ thống phần mềm khác. Hệ thống này sẽ tìm cách sao lưu dữ liệu từ các nguồn vào cơ sở dữ liệu đồ thị để có thể thực hiện truy vấn, tổng hợp và báo cáo.


   5.2 Hướng phát triển:


   Trước hết, việc cần nhất là phải nhập dữ liệu từ các nguồn dữ liệu vào trong cơ sở dữ liệu hybrid. Đây là một việc đòi hỏi nhân lực và thời gian. Ngoài ra, việc này còn yêu cầu một giao diện nhập liệu thân thiện giúp cho người sử dụng nhập liệu. Điều này mở ra một hướng xây dựng phần mềm hoàn thiện để quản lý.


   Tiếp theo là hướng phát triển đối với dữ liệu lớn. Chúng ta đều biết rằng dữ liệu giao thông rất phức tạp và được cập nhật liên tục. Do đó, dữ liệu sẽ ngày càng nhiều và sẽ nhiều tới mức cần có một hệ thống song song để việc nhập và báo cáo được kịp thời.


   Tiếp đến là hướng phát triển chia sẻ. Dữ liệu giao thông là dữ liệu xương sống hỗ trợ cho tất cả các ngành khác. Do đó, dữ liệu này cần phát triển thành dạng dịch vụ đám mây để có thể chia sẻ cho các đơn vị khác và các ngành khác cùng khai thác sử dụng.


   Cuối cùng là hướng phát triển an toàn dữ liệu. Ở đây có hai yếu tố an toàn: bảo mật dữ liệu và bảo vệ dữ liệu. Bảo mật nghĩa là những đơn vị cụ thể mới có quyền khai thác một số mảng thông tin cụ thể nào đó. Điều này mở ra hướng nghiên cứu về phân quyền đối với một sản phẩm phần mềm mang tầm thành phố. Yếu tốt tiếp theo là bảo vệ dữ liệu. Nghĩa là dữ liệu cần được đảm bảo là không thể bị thay thể và giả mạo. Điều này mở ra hướng nghiên cứu sử dụng block-chain cho việc lưu trữ dữ liệu quản lý, khi mà dữ liệu chỉ nên ghi thêm chứ không nên được sửa xoá.


   Từ khoá: khoa học dữ liệu; cơ sở dữ liệu; đồ thị; trừu tượng hoá; truy vấn.


Chủ nhiệm đề tài: Th.S Ngô Văn Quý


CÁC BÀI VIẾT KHÁC: