Bài viết hướng dẫn chi tiết cách sử dụng RegEX để trích chuỗi trên RStudio thông qua 20 nguyên tắc cơ bản cùng các ví dụ chi tiết như trích số điện thoại, email, tên miền hoặc chức danh của các chuỗi. Sử dụng hàm str_extract_all và str_detect trong gói stringr để trích chuỗi cần lấy.
20 nguyên tắc cơ bản của RegEx được trình bày như sau:
- . = Matches Any Character
- \d = Digit (0–9)
- \D = Not a digit (0–9)
- \w = Word Character (a-z, A-Z, 0–9, _)
- \W = Not a word character
- \s = Whitespace (space, tab, newline)
- \S = Not whitespace (space, tab, newline)
- \b = Word Boundary
- \B = Not a word boundary
- ^ = Beginning of a string
- $ = End of a String
- [] = matches characters or brackets
- [^ ] = matches characters Not in backets
- | = Either Or
- ( ) = Group
- * = 0 or more
- + = 1 or more
- ? = Yes or No
- {x} = Exact Number
- {x, y} = Range of Numebrs (Maximum, Minimum)
Chi tiết tại: