statguy
diff --git a/‎find_collocations.py
+44 b/‎find_collocations.py
+44
diff --git a/‎make_string_list.py
+11 b/‎make_string_list.py
+11
diff --git a/‎normalize_text.py
+58 b/‎normalize_text.py
+58
diff --git a/‎senses_plant.csv
+212 b/‎senses_plant.csv
+212
diff --git a/‎tag.sh
+12 b/‎tag.sh
+12
diff --git a/‎tag_senses_bootstrap.py
+43 b/‎tag_senses_bootstrap.py
+43
@@ -0,0 +1,44 @@
+#!/usr/bin/python
+import sys
+import csv
+from nltk.corpus.reader.plaintext import PlaintextCorpusReader
+from nltk.text import *
+import wsd
+
+if len(sys.argv) != 4:
+  print "Usage:", sys.argv[0], "word sense1 sense2"
+  exit(-1)
+
+corpus = PlaintextCorpusReader('outcorpus/', '.*')
+focal_word = sys.argv[1]
+senses = [sys.argv[2], sys.argv[3]]
+#senses = ["manufacturing","life"]
+collocations = [ wsd.BigramLeft(senses, 0), wsd.BigramRight(senses, 1), wsd.BigramScope(senses, 2, [2, 10]) ]
+
+with open("senses_" + focal_word + ".csv") as senses_file:
+  reader = csv.reader(senses_file)
+  for row in reader:
+    infile, offset, sense = row
+    offset = int(offset)
+    words = corpus.words(infile)
+    text = Text(words)
+    
+    for collocation in collocations:
+      collocation.add_collocation(text, offset, sense)
+
+
+#print collocations[0].frequencies.items()[0][1].items()[0][1]
+
+decision_list = wsd.DecisionList()
+print collocations[0].frequencies
+print collocations[0].update_decision_list(decision_list)
+print decision_list.decision_items
+print ""
+print collocations[1].frequencies
+print collocations[1].update_decision_list(decision_list)
+print decision_list.decision_items
+print ""
+print collocations[2].frequencies
+print collocations[2].update_decision_list(decision_list)
+print decision_list.decision_items
+decision_list.save("senses_bootstrap_" + focal_word + ".csv")
@@ -0,0 +1,11 @@
+#!/usr/bin/python
+import sys
+
+if len(sys.argv) != 2:
+  print "Usage:", sys.argv[0], "file"
+  exit(-1)
+
+filename = sys.argv[1]
+lines = [line.strip() for line in open(filename)]
+list = ','.join('"' + str(x) + '"' for x in lines)
+print list
@@ -0,0 +1,58 @@
+#!/usr/bin/python
+import sys
+from os import listdir
+from os.path import isfile, join
+import nltk
+from nltk.tokenize import RegexpTokenizer
+from nltk.corpus import *
+from nltk.stem.porter import *
+
+if len(sys.argv) != 3:
+  print "Usage:", sys.argv[0], "in_dir out_dir"
+  exit(-1)
+
+in_dir = sys.argv[1]
+out_dir = sys.argv[2]
+filenames = [join(in_dir, f) for f in listdir(in_dir) if isfile(join(in_dir, f))]
+
+is_text = False
+text = ""
+corpus_index = 1
+tokenizer = RegexpTokenizer(r'\w+')
+stemmer = PorterStemmer()
+
+def extract_text(line):
+  global is_text, text, corpus_index, tokenizer, stemmer
+  if line.startswith("<TEXT>"):
+    is_text = True
+  elif line.startswith("</TEXT>"):
+    tokens = tokenizer.tokenize(text)
+    
+    #stop = set(stopwords.words("english"))
+    #words = [w for w in tokens if w not in stop]
+    
+    #words_stemmed = []
+    #for word in words:
+    #  words_stemmed.append(stemmer.stem(word))
+
+    #final_text = ' '.join(words_stemmed)
+    final_text = ' '.join(tokens)
+    #print final_text # FOR debugging
+    
+    if len(final_text) > 0:
+      out_file = open(join(out_dir, "corpus" + str(corpus_index)), "w")
+      out_file.write(final_text)
+      out_file.close()
+      
+    is_text = False
+    text = ""
+    corpus_index += 1
+  elif is_text == True:
+    text = text + line.strip().lower() + " "
+  return None
+
+for filename in sorted(filenames):
+  print filename
+  [extract_text(line) for line in open(filename)]
+#filename = filenames[0]
+#[extract_text(line) for line in open(filename)]
@@ -0,0 +1,212 @@
+corpus20065,110,manufacturing
+corpus20091,44,manufacturing
+corpus20091,200,manufacturing
+corpus20093,273,manufacturing
+corpus20093,335,manufacturing
+corpus20106,439,manufacturing
+corpus20106,457,manufacturing
+corpus20108,66,manufacturing
+corpus20115,32,life
+corpus20120,39,manufacturing
+corpus20120,66,manufacturing
+corpus20137,4,manufacturing
+corpus20143,32,manufacturing
+corpus20143,39,manufacturing
+corpus20143,214,manufacturing
+corpus20143,228,manufacturing
+corpus20143,264,manufacturing
+corpus20143,267,manufacturing
+corpus20143,306,manufacturing
+corpus20143,312,manufacturing
+corpus20143,353,manufacturing
+corpus20145,16,manufacturing
+corpus20145,60,manufacturing
+corpus20145,132,manufacturing
+corpus20145,279,manufacturing
+corpus20145,282,manufacturing
+corpus20153,64,manufacturing
+corpus20153,523,manufacturing
+corpus20158,128,manufacturing
+corpus2016,438,manufacturing
+corpus20187,51,manufacturing
+corpus20189,0,manufacturing
+corpus20189,21,manufacturing
+corpus2019,3,manufacturing
+corpus2019,24,manufacturing
+corpus2019,46,manufacturing
+corpus20215,127,manufacturing
+corpus20237,372,manufacturing
+corpus2029,96,life
+corpus20321,78,manufacturing
+corpus20321,156,manufacturing
+corpus20321,167,manufacturing
+corpus20321,183,manufacturing
+corpus20361,16,manufacturing
+corpus20361,44,manufacturing
+corpus20361,74,manufacturing
+corpus20361,83,manufacturing
+corpus20361,120,manufacturing
+corpus20361,290,manufacturing
+corpus20361,318,manufacturing
+corpus20361,329,manufacturing
+corpus20361,401,manufacturing
+corpus20365,391,manufacturing
+corpus20394,429,life
+corpus20394,435,life
+corpus20417,94,life
+corpus20432,235,manufacturing
+corpus20448,280,manufacturing
+corpus20451,10,manufacturing
+corpus20451,24,manufacturing
+corpus20451,67,manufacturing
+corpus20451,95,manufacturing
+corpus20451,159,manufacturing
+corpus20469,21,life
+corpus20469,44,life
+corpus20469,74,life
+corpus20469,80,life
+corpus20485,100,manufacturing
+corpus2049,216,manufacturing
+corpus20508,5,manufacturing
+corpus20508,85,manufacturing
+corpus20512,72,manufacturing
+corpus20512,146,manufacturing
+corpus20542,108,manufacturing
+corpus20542,231,manufacturing
+corpus20542,238,manufacturing
+corpus20559,12,manufacturing
+corpus20559,18,manufacturing
+corpus20559,98,manufacturing
+corpus20559,244,manufacturing
+corpus20559,250,manufacturing
+corpus20566,186,manufacturing
+corpus10037,197,manufacturing
+corpus10037,215,manufacturing
+corpus10037,250,manufacturing
+corpus1011,6,life
+corpus10124,237,life
+corpus10189,40,manufacturing
+corpus10189,176,manufacturing
+corpus1019,295,manufacturing
+corpus10263,110,life
+corpus10270,82,manufacturing
+corpus10287,3,life
+corpus10287,32,life
+corpus10287,36,life
+corpus10303,350,life
+corpus10312,47,manufacturing
+corpus10315,342,manufacturing
+corpus10327,283,manufacturing
+corpus1034,89,manufacturing
+corpus1034,105,manufacturing
+corpus1034,116,manufacturing
+corpus1034,128,manufacturing
+corpus1034,138,manufacturing
+corpus1034,207,manufacturing
+corpus1034,258,manufacturing
+corpus1034,285,manufacturing
+corpus10395,200,manufacturing
+corpus10395,209,manufacturing
+corpus10395,223,manufacturing
+corpus10395,227,manufacturing
+corpus10395,271,manufacturing
+corpus10395,277,manufacturing
+corpus10395,306,manufacturing
+corpus10395,314,manufacturing
+corpus10395,366,manufacturing
+corpus10395,379,manufacturing
+corpus10399,49,manufacturing
+corpus10404,103,manufacturing
+corpus10411,31,manufacturing
+corpus10411,59,manufacturing
+corpus10411,105,manufacturing
+corpus10411,109,manufacturing
+corpus10411,181,manufacturing
+corpus10411,186,manufacturing
+corpus10411,218,manufacturing
+corpus10411,223,manufacturing
+corpus10411,228,manufacturing
+corpus10412,87,manufacturing
+corpus10412,103,manufacturing
+corpus1042,665,manufacturing
+corpus10423,12,manufacturing
+corpus10425,218,manufacturing
+corpus10436,18,manufacturing
+corpus10436,20,manufacturing
+corpus10436,31,manufacturing
+corpus10436,65,manufacturing
+corpus10436,161,manufacturing
+corpus10436,183,manufacturing
+corpus10436,196,manufacturing
+corpus10436,225,manufacturing
+corpus10436,292,manufacturing
+corpus10438,18,manufacturing
+corpus10438,20,manufacturing
+corpus10438,31,manufacturing
+corpus10438,67,manufacturing
+corpus10438,163,manufacturing
+corpus10438,185,manufacturing
+corpus10438,198,manufacturing
+corpus10438,227,manufacturing
+corpus10438,294,manufacturing
+corpus10475,317,life
+corpus10485,26,manufacturing
+corpus10485,95,manufacturing
+corpus10485,132,manufacturing
+corpus10485,136,manufacturing
+corpus105,273,manufacturing
+corpus10508,295,manufacturing
+corpus10519,33,manufacturing
+corpus10519,173,manufacturing
+corpus10548,172,manufacturing
+corpus10549,243,manufacturing
+corpus10566,302,manufacturing
+corpus10570,14,manufacturing
+corpus10570,126,manufacturing
+corpus10570,160,manufacturing
+corpus10570,265,manufacturing
+corpus10570,277,manufacturing
+corpus10570,310,manufacturing
+corpus10580,189,manufacturing
+corpus10591,267,life
+corpus10591,360,life
+corpus10591,415,life
+corpus1065,14,manufacturing
+corpus1065,91,manufacturing
+corpus1065,234,manufacturing
+corpus10696,143,manufacturing
+corpus10725,320,manufacturing
+corpus10739,269,life
+corpus10741,306,manufacturing
+corpus10753,114,life
+corpus1076,198,life
+corpus10779,116,manufacturing
+corpus10782,51,life
+corpus10783,245,life
+corpus10795,147,life
+corpus10810,64,life
+corpus10819,52,life
+corpus10893,15,life
+corpus10937,429,manufacturing
+corpus10964,31,manufacturing
+corpus10969,6,life
+corpus10969,30,life
+corpus10969,84,manufacturing
+corpus10980,18,manufacturing
+corpus10980,47,manufacturing
+corpus10980,78,manufacturing
+corpus10980,98,manufacturing
+corpus10980,140,manufacturing
+corpus10980,147,manufacturing
+corpus10980,234,manufacturing
+corpus10980,274,manufacturing
+corpus10980,366,manufacturing
+corpus10980,374,manufacturing
+corpus11004,143,manufacturing
+corpus1101,9,life
+corpus1101,24,life
+corpus1101,81,life
+corpus11010,309,life
+corpus11010,320,manufacturing
+corpus11035,155,manufacturing
+corpus11057,74,manufacturing
@@ -0,0 +1,12 @@
+#!/bin/sh
+
+INCORPUS=corpus
+OUTCORPUS=outcorpus
+WORD=plant
+SENSES=manufacturing life
+
+./normalize_text.py "$INCORPUS" "$OUTCORPUS"
+./tag_sense_manual.py "$OUTCORPUS" "$WORD" "$SENSES"
+./find_collocations.py "$WORD" "$SENSES"
+./tag_senses_bootstrap.py "$WORD" "$SENSES"
+./verify.py "$WORD" "$SENSES"
@@ -0,0 +1,43 @@
+#!/usr/bin/python
+import sys
+import wsd
+import nltk
+from nltk.corpus.reader.plaintext import PlaintextCorpusReader
+from nltk.text import *
+
+if len(sys.argv) != 4:
+  print "Usage:", sys.argv[0], "word sense1 sense2"
+  exit(-1)
+
+focal_word = sys.argv[2]
+senses = [sys.argv[3], sys.argv[4]]
+#focal_word = "plant"
+#senses = ["manufacturing","life"]
+corpus = PlaintextCorpusReader('outcorpus/', '.*')
+collocations = [ wsd.BigramLeft(senses, 0), wsd.BigramRight(senses, 1), wsd.BigramScope(senses, 2, [2, 10]) ]
+decision_list = wsd.DecisionList()
+decision_list.load("senses_bootstrap_" + focal_word + ".csv")    
+
+i = 0
+for infile in sorted(corpus.fileids()):
+  print i, "/", len(corpus.fileids())
+  i += 1
+  
+  words = corpus.words(infile)
+  text = Text(words)
+  c = nltk.ConcordanceIndex(text.tokens)
+  offsets = c.offsets(focal_word)
+  
+  for offset in offsets:
+    for collocation in collocations:
+      tokens = collocation.get_collocation(text, offset)
+      if tokens == None: continue
+      sense = decision_list.get_sense(tokens, collocation.index)
+      if sense == None: continue
+      collocation.add_collocation(text, offset, sense)
+      collocation.update_decision_list(decision_list)
+      #decision_list.add_sense(sense, tokens, collocation.index, score)
+      print sense
+
+decision_list.save("senses_bootstrap_" + focal_word + ".csv")
+