adding some basic scripts for cleaning up text from mandarin pdf reprots to make...
[migration-tools.git] / mandarin / clean_mandarin_loan_list_report.pl
diff --git a/mandarin/clean_mandarin_loan_list_report.pl b/mandarin/clean_mandarin_loan_list_report.pl
new file mode 100755 (executable)
index 0000000..b19c1c6
--- /dev/null
@@ -0,0 +1,40 @@
+#!/usr/bin/perl
+
+use strict;
+use warnings;
+
+# copy and paste raw text from acrobat reader to .txt file
+
+my $filename = $ARGV[0];
+open(my $fh, '<:encoding(UTF-8)', $filename)
+  or die "Could not open file '$filename' $!";
+
+my $user;
+while (my $row = <$fh>) {
+  chomp $row;
+  if ($row =~ m/Items On Loan by Patron/) { next; }
+  if ($row =~ m/Patron Title Barcode /) { next; }
+  if ($row =~ m/Page: /) { next; }
+  if ($row =~ m/Program Files \(x86\)/) { next; }
+  if ($row =~ m/End Of Report/) { next; }
+
+  my @str = split / /, $row;
+  my $str_length = scalar(@str);
+  if ($str[1] eq 'AM' or $str[1] eq 'PM') {
+    if ($str[2] =~ m/2019/) { next; }  
+  }
+
+  if ($str[$str_length -1] !~ m/\d\d\/\d\d\/\d\d\d\d/) {
+    $user = $str[$str_length -1];
+    next;
+  }
+
+  #print "$row\n";
+  if ($str[$str_length -1] =~  m/\d\d\/\d\d\/\d\d\d\d/) {
+    my $due       = $str[$str_length -1];  
+    my $borrowed  = $str[$str_length -2];  
+    my $item      = $str[$str_length -3];  #item
+    print "$user\t$item\t$due\t$borrowed\n";
+  } 
+}