Sử dụng hiệu quả công nghệ học máy trong nghiên cứu

Nguồn: timeshighereducation.com , Ngày đăng: 08/09/2022

Tác giả: John F. Wu

Biên dịch: Uyên Thy    Biên tập: Elena Trần

Trí tuệ nhân tạo (AI) – hay học máy – dường như có mặt ở khắp mọi nơi ngày nay. Nếu bạn là một nhà nghiên cứu, bạn có thể thấy những thuật ngữ này xuất hiện ngày càng nhiều trong tài liệu học thuật trong lĩnh vực của bạn. Vậy học máy hữu ích đến mức nào? Bạn có nên tận dụng học máy không?

Trong bài viết này, tôi sẽ mô tả một số trường hợp khi học máy hữu ích trong nghiên cứu – và cả khi không – bằng cách lấy cảm hứng từ lĩnh vực thiên văn học của chính tôi.

Học máy mang lại giá trị cao nhất cho các vấn đề nghiên cứu “theo hướng dữ liệu”: khi bạn có quá nhiều dữ liệu đến mức bạn không thể kiểm tra nó theo cách thủ công. Trong những trường hợp này, học máy có thể giảm nhẹ khối lượng công việc của bạn và cho phép bạn tập trung vào lĩnh vực nghiên cứu của mình. Tuy nhiên, việc áp dụng học máy cũng có những cái bẫy và chi phí tiềm ẩn.

  • Việc áp dụng học máy mà không suy nghĩ có thể dẫn đến một số phân tích nguy hiểm. Ví dụ, mạng nơ-ron của học máy có thể ghi nhớ dữ liệu mà chúng đã xem, gây ra hành vi không thể đoán trước khi xử lý dữ liệu mới. Tương tự, nhiều thuật toán học máy hoạt động kém hiệu quả hoặc thất bại hoàn toàn khi áp dụng cho các miền mới. Học máy cũng có thể bị ảnh hưởng bởi thiên kiến từ những dữ liệu đã được học. Cuối cùng, học máy có thể không phân biệt được các tính năng quan trọng với các biến gây nhiễu. Kiến thức chuyên môn trong một lĩnh vực chuyên biệt có thể giúp bạn nhận ra và tránh những cái bẫy phổ biến này.
  • Một số thuật toán học máy khó và cần nhiều thời gian để học. Bạn đã tiến hành nghiên cứu trong một lĩnh vực hoàn toàn mới và có vẻ như có rất nhiều thứ cần học đấy. Thật khó để bắt đầu với học máy nếu như chúng ta không biết các thuật ngữ, nhưng may mắn thay, có rất nhiều tài liệu cho chúng ta bắt đầu trong lĩnh vực này (ví dụ: Fastai). Nhiều khái niệm trong học máy có những điểm tương tự trong các lĩnh vực khác – ví dụ, mô hình hoá tối ưu có thể được điều chỉnh lại bằng ngôn ngữ của nhiệt động lực học và vật lý thống kê. Ngoài ra, có rất nhiều phân ngành trong học máy đến nỗi có thể bạn không muốn dành toàn bộ thời gian để khám phá những hốc nhỏ khác nhau này.
  • Không cần sử dụng học máy cho mọi vấn đề. Khi các thuật toán mới lạ xuất hiện, bạn luôn thấy thú vị khi thấy chúng được áp dụng cho các vấn đề nghiên cứu yêu thích của mình. Nhưng đến một lúc nào đó, chúng ta cần chuyển từ giai đoạn chứng minh khái niệm sang giai đoạn gia tăng giá trị. Nói cách khác, bạn có thể tự hỏi mình, “Nếu tôi không sử dụng máy học, liệu kết quả này có còn thú vị không?”

Khi được áp dụng một cách cẩn thận, thông qua lăng kính tích hợp, học máy có thể tiến hành các chương trình nghiên cứu tưởng chừng như bất khả thi. Nhìn chung, học máy cho phép các nhà nghiên cứu tiến hành theo bốn cách.

1. Đưa ra dự đoán dựa trên xu hướng

Đôi khi bạn muốn biết liệu tập dữ liệu của mình có thể được sử dụng để xác định điều gì khác hay không. Ví dụ: bạn có thể đã nghe nói về cách học máy trong y học có thể giúp các bác sĩ tầm soát ung thư. Trong lĩnh vực thiên văn học của tôi, việc chụp ảnh hàng triệu thiên hà khá đơn giản, nhưng theo truyền thống, chúng tôi cần chụp và phân tích các quan sát chuyên biệt để hiểu chi tiết về cách các thiên hà phát triển. Bằng cách sử dụng học máy, các cộng tác viên và tôi nhận thấy rằng chúng tôi thực sự có thể nghiên cứu các thiên hà này chỉ bằng cách sử dụng hình ảnh.

Thật dễ dàng để tạo ra các mô hình mới về cách mọi thứ sẽ hoạt động, nhưng thử nghiệm thực sự của bất kỳ mô hình nào là liệu nó có bất kỳ khả năng dự đoán nào hay không. Bằng cách xác định các kết nối trong dữ liệu của mình, bạn có thể xây dựng mô hình – và học máy cũng có thể. Các nhà khoa học đã sử dụng học máy để tóm tắt những kết nối này thành ngôn ngữ toán học và khám phá ra một công thức mới giải thích sự phân bố của vật chất trên quy mô vũ trụ.

2. Tìm ra những dữ liệu bất thường

Nếu học máy có thể được sử dụng để tìm ra các xu hướng điển hình, thì không có gì ngạc nhiên khi học máy cũng có thể rất hiệu quả trong việc phát hiện những điều bất thường. Nhiều lĩnh vực nghiên cứu có thể đạt hiệu quả từ việc điều tra kỹ lưỡng các hiện tượng hiếm gặp và học máy có thể giúp bạn tìm ra “cái kim trong bọc”. Trong thiên văn học, học máy cũng đã được sử dụng để phát hiện các hiện tượng hiếm gặp, như các sự kiện sóng hấp dẫn, siêu tân tinh, các thiên hà thấu kính hấp dẫn, những dữ liệu xử lý không chính xác, và nhiều hơn thế nữa. Một phân tích về các thiên hà ngoại lai đã chỉ ra nhiều hiện tượng thú vị (bao gồm nhiều “thiên hà” hoàn toàn không phải là thiên hà) .

3. Tiết kiệm thời gian

Thành thật mà nói, một số khía cạnh của nghiên cứu rất nhàm chán và tốn thời gian. Trong thiên văn học vô tuyến, cần có các nguồn tài nguyên tính toán rộng lớn và nhiều thời gian để loại bỏ các tín hiệu nhân tạo và dữ liệu bị hỏng. Học máy có thể thực hiện những tác vụ này mà chỉ tốn rất ít chi phí và thời gian.

Bằng cách giải quyết nhanh các phần nghiên cứu nhàm chán, học máy cũng cho phép thực hiện các loại phân tích mới mà bình thường không thể làm được. Nhiều nghiên cứu cố gắng giải quyết vấn đề: với một kết quả quan sát được, các tham số nào cho một mô hình tạo ra một kết quả như vậy? Những vấn đề được gọi là nghịch đảo này có thể được giải quyết một cách hiệu quả bằng cách sử dụng học máy.

4. Trực quan hóa và ưu tiên dữ liệu phức tạp

Các tập dữ liệu càng ngày càng lớn, nhưng có nhiều cách để kết hợp các tính năng thành các phiên bản cô đọng. Các phương pháp giảm chiều dữ liệu cổ điển như Principal Component Analysis (PCA), t-distributed Stochastic Neighbour Embedding (t-SNE), và Uniform Manifold Approximation and Projection (UMAP), hoặc các kỹ thuật học máy như sử dụng mạng nơ-ron hoặc thuật toán tương tự để tóm tắt dữ liệu.

Việc hiểu dữ liệu đầu vào (hoặc tính năng) nào là quan trọng nhất cũng hữu ích để đưa ra dự đoán. Các thuật toán học máy khác nhau tiết lộ các dữ liệu quan trọng nhất theo những cách khác nhau; ví dụ: những khu rừng ngẫu nhiên có thể được xếp hạng tính chất theo mức độ quan trọng. Đối với các mô hình mạng nơ ron,vùng nổi bật cho phép bạn xác định pixel nào trong hình ảnh cần thiết nhất để đưa ra dự đoán (ví dụ: Grad-CAM). Các thuật toán học máy như thế này có thể giúp ích cho chương trình nghiên cứu của bạn.

Hãy nhớ rằng không phải mọi vấn đề đều có thể, hoặc phải giải quyết bằng cách sử dụng học máy. Học máy chỉ đơn giản là cung cấp một bộ công cụ khác mà bạn có thể thêm vào bộ công cụ của mình. Hy vọng rằng, bằng cách kết hợp các công cụ mới này với kiến ​​thức chuyên môn trong lĩnh vực cụ thể, bạn sẽ có thể phân biệt công cụ nào tốt nhất cho các vấn đề bạn đang cố gắng giải quyết. Học máy có thể đặc biệt hữu ích khi bạn có nhiều dữ liệu cần phân tích và nếu nghiên cứu của bạn cần tìm ra các xu hướng hoặc ngoại lệ, rút ngắn thời gian nghiên cứu, trực quan hóa dữ liệu hoặc xếp hạng mức độ quan trọng của tính năng. Trong những năm tới, những ứng dụng thông minh của học máy có thể thay đổi cách thức chúng ta tiến hành nghiên cứu.

John F. Wu là trợ lý thiên văn học tại Viện Khoa học quản lý Kính viễn vọng Không gian và là một nhà khoa học nghiên cứu liên kết tại Đại học Johns Hopkins.

Leave a comment