LÀM SAO ĐỂ ĐỌC NHIỀU BÀI BÁO NGHIÊN CỨU HƠN?

Data Science, Research methods

Làm sao để tìm các paper phù hợp?

Trước khi đọc một bài báo nghiên cứu, bạn phải dành thời gian để tìm một bài phù hợp. Vì vậy, mình sẽ chia sẻ một số công cụ mình thường sử dụng khi tìm kiếm paper.


Trước hết, bạn cần có một chủ đề. Giả sử bạn muốn nghiên cứu cách transformers được áp dụng vào computer vision. Sau đó, khi xác định được chủ đề này, mình sẽ sử dụng 42 Papers (https://42papers.com/search?q=vision%20transformer) hoặc Arxiv Sanity (http://www.arxiv-sanity.com/search?q=vision+transformer) và nhập “vision transformers”” để tìm kiếm các paper cùng chủ đề. Cả hai trang web này đều là một thư viện tuyệt vời bao gồm các bài báo thuộc “hàng tuyển” của Arxiv. Còn giả sử bạn có một task cụ thể trong đầu, chẳng hạn như “image matting”, đề cập đến việc loại bỏ nền của một bức ảnh và chỉ để lại đối tượng quan tâm làm tiền cảnh. Trong trường hợp đó, bạn có thể trực tiếp sử dụng Papers With Code như mình đã làm ở đây (https://paperswithcode.com/task/image-matting), trang này cũng khá hữu ích, cung cấp các paper tốt nhất hiện tại cho task mà bạn muốn giải quyết bằng cách cung cấp các đoạn code để triển khai tác vụ mà bạn cần.

Nếu bạn không có chủ đề nào trong đầu, bạn cũng có thể chọn một bài báo theo xu hướng bằng cách sử dụng các công cụ này: – 42 Papers (Link: https://42papers.com/search?q=vision%20transformer)- Daily Papers (Link: https://papers.labml.ai/papers/daily): Hiển thị tất cả các bài báo thịnh hành trên Twitter.

Giờ bạn đã có một vài tài liệu trong danh sách chờ đọc, tuy nhiên vui lòng không đọc tất cả từng bài một. Thay vào đó, hãy thử cách tiếp cận mà mình suggest sau, nó có thể giúp bạn tiết kiệm rất nhiều thời gian đấy:Đầu tiên, mình sẽ kiểm tra toàn bộ các tài liệu một lượt và xác nhận rằng bài báo đó có đáng đọc hay không. Nếu bài báo đó tham khảo một vài nguồn không phù hợp, đó hẳn không phải là một dấu hiệu tốt. Tương tự như vậy, một mẹo nhanh để giúp tìm ra một bài báo có đáng đọc hay không là trực quan hoá các nguồn được trích dẫn trong bài đó. Để làm được việc này, bạn có thể sử dụng công cụ có tên là Connected Papers (https://www.connectedpapers.com/) để vẽ biểu đồ kết nối giữa tất cả các nguồn tham khảo trong paper của bạn, chỉ cần bạn nhập vào tên của paper đó. Sao việc check source lại quan trọng? Nếu các source được kết nối với nhau và được nhiều người biết đến, paper này đáng tin đấy! Tất nhiên, đây chỉ là một dấu hiệu nhận biết chủ quan xem liệu một bài báo có nên đọc hay không thôi nhé! Dù sao thì bạn cũng không nên đánh giá hoàn toàn một bài báo chỉ dựa trên số lượng trích dẫn của nó.

Một khi các paper đã vượt qua được bài kiểm tra đầu tiên với các nguồn tham khảo đáng tin cậy, hãy đọc nhanh các mục sau: tiêu đề, abstract, keyword và conclusion. Hãy xem liệu chúng có thực sự nói về những gì bạn đang tìm kiếm hay không. Bằng cách này, bạn sẽ nhanh chóng nắm được các ý cơ bản về paper đó và giúp bạn quyết định xem bạn có muốn tiếp tục đọc nó hay không.

Ở vòng chọn lọc thứ 2, hãy đi sâu hơn một chút vào các paper. Nhìn vào các biểu đồ và bảng, đọc chú thích của chúng. Bạn cũng có thể xem nhanh phần introduction và related works để xem liệu bạn có thấy nó thú vị và được thực hiện tốt hay không, nhưng đừng đi sâu vào method và experiment ngay lập tức nhé, bạn sẽ mất nhiều thời gian để tiêu hóa kiến thức và hiểu chúng đấy. 

Lần chọn lọc thứ hai này sẽ giúp bạn nắm được độ sâu và sắc của bài báo!
Danh sách chờ đọc của chúng ta có vẻ đã được thu hẹp lại đáng kể. Giờ bạn chỉ cần đọc các bài báo thôi. Tuy nhiên, đừng chỉ đọc nó. Hãy đi sâu vào nó. Lấy bút chì, bút đánh dấu ra và tìm một không gian yên tĩnh để bắt đầu đọc thôi. Cá nhân mình thì thường thích in các paper ra và đọc trên giấy, nhưng khá là tốn kém vì có những paper rất dài hoặc cũng không tiện có máy in để in ngay nên mình đang đang chuyển sang đọc trên máy tính bằng PDF Adobe Acrobat Reader, vớ phần mềm này bạn có thể đánh dấu, vẽ và thêm note trên PDF. 

Bên cạnh đó, bạn cũng nên Google các từ và khái niệm mà bạn không hiểu và xem lại các trích dẫn khi tác giả đề cập đến. Bỏ qua những điều này sẽ làm ảnh hưởng đến sự hiểu biết của bạn về toàn bộ bài báo. Còn nếu bạn là người mới bắt đầu đọc paper, hãy lưu ý những chỗ bạn không hiểu đánh dấu bất kỳ chỗ nào bạn thấy có vẻ phức tạp hoặc không rõ ràng. Bạn có thể google các câu hỏi ngay lập tức, nhưng đừng để bị mắc kẹt nếu chúng vẫn còn sau lần đọc thứ 2! Bjan có thể nhờ bạn bè hoặc nếu bạn không biết hỏi ai thì có thể tìm đến các cộng đồng hoặc diễn đàn! Có rất nhiều cộng đồng tuyệt vời, nơi bạn có thể đặt câu hỏi 24/7 và nhận được câu trả lời, ví dụ nh Discord, Reddit, Linkedin, Facebook, Slack, v.v. Tham gia một hoặc nhiều nhóm và trao đổi với các nhà nghiên cứu giống bạn sẽ giúp bạn mở ra nhiều điều!

Bạn đã biết cách mà mình tiếp cận các paper, giờ hãy đi sang các công cụ khuyên dùng nhé!


Các công cụ mà bất kỳ nhà khoa học dữ liệu/nhà nghiên cứu AI nào cũng nên có
Mình đã đền cập đến các công cụ tìm kiếm mà mình sử dụng như: Arxiv Sanity Preserver, 42 Papers, và Papers With Code, nhưng những công cụ này không hữu ích trong việc hiểu một bài báo. Dù việc hiểu một bài báo sẽ phụ thuộc rất nhiều vào việc bạn đào sâu nghiên cứu nó, nhưng mình nhận ra có khá nhiều người giải thích các tài liệu này trên các video YouTube. Thật vậy, bạn có thể tham khảo các channel của Yannic Kilcher, What’s AI, Letitia, những kênh này đi sâu vào các tài liệu nghiên cứu mới và giải thích chúng một cách rõ ràng. Tất nhiên, để có cái nhìn tổng quan nhanh chóng mà không cần đi sâu vào lý thuyết, không thể không nhắc đến Two Minute Papers. Điều này sẽ giúp bạn tiết kiệm rất nhiều thời gian, đó là lý do tại sao mình thường bắt đầu bằng cách xem video của bài báo trước khi đọc nó. Điều tuyệt vời hơn nữa là nhờ vào việc các paper được đăng trên YouTube, bạn sẽ không cần phải google nó nữa. Sử dụng add-on của Google Chrome có tên là crossminds.ai, video sẽ xuất hiện trực tiếp trên trang Arxiv của bài báo bạn muốn đọc. Thật tuyệt đúng không?! Bạn nên thử đi, mình chắc chắn đây là điều tuyệt vời nhất năm 2020 mà mình khám phá ra.

Tương tự, sử dụng Medium cũng là một cách để tìm các bài tóm tắt paper và các giải thích về paper đó dù là paper trên Towards AI hay Towards Data Science publications. 

Một công cụ tuyệt vời khác liên quan đến việc ứng dụng paper vào các tác vụ thực tế. Nếu bạn tìm thấy paper trên Papers With Code thì tốt, code đã sẵn sàng cho bạn. Còn nếu không, bạn có thể cần google một chút để tìm cách triển khai. Một lần nữa, tiện ích bổ sung tuyệt vời này sẽ giúp bạn giảm kha khá thời gian google và cung cấp cho bạn code của bất kỳ bài nghiên cứu nào trên Arxiv, nếu có. Tiện ích này được gọi là CatalyzeX, nó có sẵn trên cả Google Chrome và Firefox. Nó cung cấp cho bạn liên kết đến code trực tiếp trên trang Arxiv, giống như crossmind, vô cùng thiết thực nhỉ.

Đây là tất cả các mẹo và công cụ tốt nhất của mình để tìm các bài báo nghiên cứu thích hợp và cách đọc chúng hiệu quả trong khi vẫn giữ lại nhiều thông tin nhất có thể. Đối với mình, lặp đi lặp lại việc đọc paper chắc chắn là cách tốt nhất để hiểu sâu, đó là lý do tại sao mình khuyên các bạn nên đọc các bài báo nhiều hơn một lần nếu bạn thực sự muốn hiểu chúng. Sau khi bạn tìm thấy một bài báo đáng đọc, bạn nên lưu nó trong phần mềm quản lý tài liệu tham khảo như Zotero. Phần mềm này hoàn toàn miễn phí và cho phép bạn sắp xếp các paper của mình, dễ dàng xuất tài liệu tham khảo, lưu tệp PDF và hơn thế nữa, tất cả tác vụ đó chỉ với một cú nhấp chuột đơn giản. Đây là một công cụ tiện dụng đã được triển khai trong Word và Google Documents để tự động tạo danh mục của bạn.

Tóm tắt các công cụ:

– 42 Papers — Tìm các trending papers (Link: https://42papers.com/)

– Arxiv Sanity Preserver — Thư biện các Arxiv papers (Link: http://www.arxiv-sanity.com/)

– Papers With Code —  Tìm các paper có kèm code để áp dụng vào các task cụ thể (Link: https://paperswithcode.com/)

– Daily Papers — Tìm kiếm các paper trending trên Twitter (Link: https://papers.labml.ai/papers/daily)

– Crossminds.ai —  Video giải thích cho các paperr Arxiv (Link: https://crossminds.ai/video/swin-transformer-hierarchical-vision-transformer-using-shifted-windows-606d0de375292b321dd08f80/)

– CatalyzeX — Code cho hầu hết các Arxiv papers (Link: https://www.catalyzex.com/)

– Connected Papers — Tạo một graph trực quan về sự liên quan của các nguồn tham khảo được đề cập trong paper (Link: https://www.connectedpapers.com/)

– Zotero – Phần mềm quản lý tài liệu tham khảo (Link: https://www.zotero.org/)

– Yannic Kilcher — Kênh YouTube giải thích paper (Link: https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew)

– What’s AI — Kênh YouTube giải thích paper (Link: https://www.youtube.com/channel/UCUzGQrN-lyyc0BWTYoJM_Sg)

– Letitia — Kênh YouTube giải thích paper(Link: https://www.youtube.com/channel/UCobqgqE4i5Kf7wrxRxhToQA)

– Two Minute Papers — Kênh YouTube giải thích paper (Link: https://www.youtube.com/user/keeroyz)


(Nguồn: louisbouchard.ai)

Hits: 2