Yaz Hobooti commited on
Commit
0533111
·
1 Parent(s): 535aaab

Add comprehensive pharmaceutical terms whitelist including cannabis/cannabinoid terms in English and French

Browse files
Files changed (1) hide show
  1. app.py +153 -27
app.py CHANGED
@@ -140,34 +140,160 @@ _DOMAIN_ALLOWLIST = {
140
  "behaviour", "behaviour", "neighbour", "neighbour", "centre", "centre",
141
  "theatre", "theatre", "metre", "metre", "litre", "litre",
142
 
143
- # Pharmaceutical terms
144
- "glycerol", "sativa","tocophersolan", "tocopherol", "tocopheryl", "acetate",
145
- "ascorbic", "ascorbate", "retinol", "retinyl", "palmitate",
146
- "stearate", "oleate", "linoleate", "arachidonate", "docosahexaenoate",
147
- "eicosapentaenoate", "alpha", "beta", "gamma", "delta", "omega",
148
- "hydroxy", "methyl", "ethyl", "propyl", "butyl", "pentyl", "hexyl",
149
- "phosphate", "sulfate", "nitrate", "chloride", "bromide", "iodide",
150
- "sodium", "potassium", "calcium", "magnesium", "zinc", "iron",
151
- "copper", "manganese", "selenium", "chromium", "molybdenum",
152
- "thiamine", "riboflavin", "niacin", "pantothenic", "pyridoxine",
153
- "biotin", "folate", "cobalamin", "cholecalciferol", "ergocalciferol",
154
- "phylloquinone", "menaquinone", "ubiquinone", "coenzyme", "carnitine",
155
- "creatine", "taurine", "glutamine", "arginine", "lysine", "leucine",
156
- "isoleucine", "valine", "phenylalanine", "tryptophan", "methionine",
157
- "cysteine", "tyrosine", "histidine", "proline", "serine", "threonine",
158
- "asparagine", "glutamic", "aspartic", "alanine", "glycine",
159
- "polysorbate", "monostearate", "distearate", "tristearate",
160
- "polyethylene", "polypropylene", "polyvinyl", "carbomer", "carboxymethyl",
161
- "cellulose", "hydroxypropyl", "methylcellulose", "ethylcellulose",
162
- "microcrystalline", "lactose", "sucrose", "dextrose", "fructose",
163
- "maltose", "galactose", "mannitol", "sorbitol", "xylitol", "erythritol",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
164
  "stearic", "palmitic", "oleic", "linoleic", "arachidonic", "docosahexaenoic",
165
- "eicosapentaenoic", "arachidonic", "linolenic", "gamma", "linolenic",
166
- "conjugated", "linoleic", "acid", "ester", "amide", "anhydride",
167
- "hydrochloride", "hydrobromide", "hydroiodide", "nitrate", "sulfate",
168
- "phosphate", "acetate", "citrate", "tartrate", "succinate", "fumarate",
169
- "malate", "lactate", "gluconate", "ascorbate", "tocopheryl", "acetate",
170
- "palmitate", "stearate", "oleate", "linoleate", "arachidonate"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
171
  }
172
  _DOMAIN_ALLOWLIST_LOWER = {w.lower() for w in _DOMAIN_ALLOWLIST}
173
 
 
140
  "behaviour", "behaviour", "neighbour", "neighbour", "centre", "centre",
141
  "theatre", "theatre", "metre", "metre", "litre", "litre",
142
 
143
+ # Cannabis and cannabinoid terms (English)
144
+ "cannabis", "cannabinoid", "cannabinoids", "cannabidiol", "cbd", "thc", "tetrahydrocannabinol",
145
+ "cannabigerol", "cbg", "cannabinol", "cbn", "cannabichromene", "cbc", "cannabicyclol", "cbl",
146
+ "cannabielsoin", "cbe", "cannabitriol", "cbt", "cannabivarin", "cbv", "cannabidivarin", "cbdv",
147
+ "tetrahydrocannabivarin", "thcv", "cannabigerovarin", "cbgv", "cannabichromevarin", "cbcv",
148
+ "cannabidiolic", "cbda", "tetrahydrocannabinolic", "thca", "cannabigerolic", "cbga",
149
+ "cannabichromenic", "cbca", "cannabicyclolic", "cbla", "cannabielsoic", "cbea",
150
+ "cannabitriolic", "cbta", "cannabivarinic", "cbva", "cannabidivarinic", "cbdva",
151
+ "tetrahydrocannabivarinic", "thcva", "cannabigerovarinic", "cbgva", "cannabichromevarinic", "cbcva",
152
+ "terpenes", "terpenoids", "myrcene", "limonene", "pinene", "linalool", "humulene", "caryophyllene",
153
+ "terpinolene", "ocimene", "nerolidol", "bisabolol", "eucalyptol", "camphene", "sabinene",
154
+ "phytocannabinoids", "endocannabinoids", "anandamide", "arachidonoylglycerol", "2ag",
155
+ "cannabinoid", "receptor", "cb1", "cb2", "trpv1", "gpr55", "ppar", "serotonin", "dopamine",
156
+ "indica", "sativa", "ruderalis", "hybrid", "hemp", "marijuana", "hashish", "kief", "rosin",
157
+ "distillate", "isolate", "full", "spectrum", "broad", "entourage", "effect", "bioavailability",
158
+
159
+ # Cannabis terms (French)
160
+ "cannabis", "cannabinoïde", "cannabinoïdes", "cannabidiol", "tétrahydrocannabinol",
161
+ "cannabigérol", "cannabinol", "cannabichromène", "cannabicyclol", "cannabielsoin",
162
+ "cannabitriol", "cannabivarine", "cannabidivarine", "tétrahydrocannabivarine",
163
+ "cannabigérovarine", "cannabichromévarine", "cannabidiolique", "tétrahydrocannabinolique",
164
+ "cannabigérolique", "cannabichroménique", "cannabicyclolique", "cannabielsoïque",
165
+ "cannabitriolique", "cannabivarinique", "cannabidivarinique", "tétrahydrocannabivarinique",
166
+ "cannabigérovarinique", "cannabichromévarinique", "terpènes", "terpénoïdes", "myrcène",
167
+ "limonène", "pinène", "linalol", "humulène", "caryophyllène", "terpinolène", "ocimène",
168
+ "nérolidol", "bisabolol", "eucalyptol", "camphène", "sabinène", "phytocannabinoïdes",
169
+ "endocannabinoïdes", "anandamide", "arachidonoylglycérol", "récepteur", "sérotonine",
170
+ "dopamine", "chanvre", "marijuana", "haschisch", "kief", "rosin", "distillat", "isolat",
171
+ "spectre", "complet", "large", "effet", "d'entourage", "biodisponibilité",
172
+
173
+ # Common pharmaceutical ingredients and terms
174
+ "glycerol", "tocophersolan", "tocopherol", "tocopheryl", "acetate", "ascorbic", "ascorbate",
175
+ "retinol", "retinyl", "palmitate", "stearate", "oleate", "linoleate", "arachidonate",
176
+ "docosahexaenoate", "eicosapentaenoate", "alpha", "beta", "gamma", "delta", "omega",
177
+ "hydroxy", "methyl", "ethyl", "propyl", "butyl", "pentyl", "hexyl", "heptyl", "octyl",
178
+ "nonyl", "decyl", "phenyl", "benzyl", "allyl", "vinyl", "acetyl", "benzoyl", "formyl",
179
+ "carboxyl", "carbonyl", "hydroxyl", "amino", "imino", "nitro", "nitroso", "azo",
180
+ "phosphate", "sulfate", "nitrate", "chloride", "bromide", "iodide", "fluoride",
181
+ "sodium", "potassium", "calcium", "magnesium", "zinc", "iron", "copper", "manganese",
182
+ "selenium", "chromium", "molybdenum", "cobalt", "nickel", "vanadium", "tungsten",
183
+ "thiamine", "riboflavin", "niacin", "pantothenic", "pyridoxine", "biotin", "folate",
184
+ "cobalamin", "cholecalciferol", "ergocalciferol", "phylloquinone", "menaquinone",
185
+ "ubiquinone", "coenzyme", "carnitine", "creatine", "taurine", "glutamine", "arginine",
186
+ "lysine", "leucine", "isoleucine", "valine", "phenylalanine", "tryptophan", "methionine",
187
+ "cysteine", "tyrosine", "histidine", "proline", "serine", "threonine", "asparagine",
188
+ "glutamic", "aspartic", "alanine", "glycine", "ornithine", "citrulline", "taurine",
189
+ "polysorbate", "monostearate", "distearate", "tristearate", "polyethylene", "polypropylene",
190
+ "polyvinyl", "carbomer", "carboxymethyl", "cellulose", "hydroxypropyl", "methylcellulose",
191
+ "ethylcellulose", "microcrystalline", "lactose", "sucrose", "dextrose", "fructose",
192
+ "maltose", "galactose", "mannitol", "sorbitol", "xylitol", "erythritol", "stearic",
193
+ "palmitic", "oleic", "linoleic", "arachidonic", "docosahexaenoic", "eicosapentaenoic",
194
+ "linolenic", "conjugated", "acid", "ester", "amide", "anhydride", "hydrochloride",
195
+ "hydrobromide", "hydroiodide", "citrate", "tartrate", "succinate", "fumarate", "malate",
196
+ "lactate", "gluconate", "pamoate", "mesylate", "tosylate", "besylate", "edisylate",
197
+ "estolate", "stearate", "palmitate", "oleate", "linoleate", "arachidonate", "butyrate",
198
+ "valerate", "caproate", "caprylate", "caprate", "laurate", "myristate", "palmitoleate",
199
+ "vaccenate", "gadoleate", "erucate", "nervonate", "lignocerate", "cerotate", "montanate",
200
+ "melissate", "laccerate", "psyllate", "juniperate", "sabinate", "abietate", "pimarate",
201
+ "sandaracopimarate", "isopimarate", "levopimarate", "dehydroabietate", "neoabietate",
202
+ "palustrate", "pimarenate", "sandaracopimarenate", "isopimarenate", "levopimarenate",
203
+ "dehydroabietate", "neoabietate", "palustrate", "pimarenate", "sandaracopimarenate",
204
+ "isopimarenate", "levopimarenate", "dehydroabietate", "neoabietate", "palustrate",
205
+
206
+ # Common pharmaceutical excipients and additives
207
  "stearic", "palmitic", "oleic", "linoleic", "arachidonic", "docosahexaenoic",
208
+ "eicosapentaenoic", "linolenic", "conjugated", "linoleic", "acid", "ester", "amide",
209
+ "anhydride", "hydrochloride", "hydrobromide", "hydroiodide", "nitrate", "sulfate",
210
+ "phosphate", "acetate", "citrate", "tartrate", "succinate", "fumarate", "malate",
211
+ "lactate", "gluconate", "ascorbate", "tocopheryl", "acetate", "palmitate", "stearate",
212
+ "oleate", "linoleate", "arachidonate", "butyrate", "valerate", "caproate", "caprylate",
213
+ "caprate", "laurate", "myristate", "palmitoleate", "vaccenate", "gadoleate", "erucate",
214
+ "nervonate", "lignocerate", "cerotate", "montanate", "melissate", "laccerate", "psyllate",
215
+ "juniperate", "sabinate", "abietate", "pimarate", "sandaracopimarate", "isopimarate",
216
+ "levopimarate", "dehydroabietate", "neoabietate", "palustrate", "pimarenate",
217
+ "sandaracopimarenate", "isopimarenate", "levopimarenate", "dehydroabietate", "neoabietate",
218
+ "palustrate", "pimarenate", "sandaracopimarenate", "isopimarenate", "levopimarenate",
219
+ "dehydroabietate", "neoabietate", "palustrate", "pimarenate", "sandaracopimarenate",
220
+ "isopimarenate", "levopimarenate", "dehydroabietate", "neoabietate", "palustrate",
221
+
222
+ # Common pharmaceutical terms and abbreviations
223
+ "mg", "mcg", "iu", "units", "tablets", "capsules", "softgels", "gummies", "tinctures",
224
+ "oils", "creams", "lotions", "gels", "patches", "injections", "syrups", "suspensions",
225
+ "emulsions", "solutions", "powders", "granules", "pellets", "beads", "microspheres",
226
+ "liposomes", "nanoparticles", "micelles", "vesicles", "cyclodextrins", "dendrimers",
227
+ "bioavailability", "pharmacokinetics", "pharmacodynamics", "metabolism", "elimination",
228
+ "half", "life", "clearance", "volume", "distribution", "protein", "binding", "first",
229
+ "pass", "effect", "cytochrome", "p450", "cyp", "enzymes", "inducers", "inhibitors",
230
+ "substrates", "metabolites", "prodrugs", "active", "metabolites", "inactive", "metabolites",
231
+ "therapeutic", "index", "margin", "safety", "efficacy", "potency", "affinity", "selectivity",
232
+ "specificity", "receptor", "binding", "agonists", "antagonists", "partial", "agonists",
233
+ "inverse", "agonists", "allosteric", "modulators", "positive", "allosteric", "modulators",
234
+ "negative", "allosteric", "modulators", "competitive", "antagonists", "non", "competitive",
235
+ "antagonists", "irreversible", "antagonists", "reversible", "antagonists", "uncompetitive",
236
+ "antagonists", "mixed", "antagonists", "surmountable", "antagonists", "insurmountable",
237
+ "antagonists", "dose", "response", "curves", "ec50", "ic50", "ed50", "ld50", "td50",
238
+ "noael", "loael", "adme", "absorption", "distribution", "metabolism", "excretion",
239
+ "elimination", "clearance", "renal", "clearance", "hepatic", "clearance", "total",
240
+ "clearance", "systemic", "clearance", "apparent", "clearance", "intrinsic", "clearance",
241
+ "hepatic", "extraction", "ratio", "first", "pass", "metabolism", "presystemic",
242
+ "metabolism", "gut", "wall", "metabolism", "liver", "metabolism", "plasma", "protein",
243
+ "binding", "albumin", "binding", "alpha", "acid", "glycoprotein", "binding", "globulin",
244
+ "binding", "lipoprotein", "binding", "erythrocyte", "binding", "tissue", "binding",
245
+ "partition", "coefficient", "log", "p", "octanol", "water", "partition", "coefficient",
246
+ "membrane", "permeability", "intestinal", "permeability", "blood", "brain", "barrier",
247
+ "permeability", "placental", "permeability", "milk", "permeability", "skin", "permeability",
248
+ "corneal", "permeability", "nasal", "permeability", "pulmonary", "permeability",
249
+ "buccal", "permeability", "sublingual", "permeability", "rectal", "permeability",
250
+ "vaginal", "permeability", "transdermal", "permeability", "iontophoretic", "permeability",
251
+ "electroporation", "permeability", "sonophoresis", "permeability", "microneedle",
252
+ "permeability", "nanoparticle", "permeability", "liposome", "permeability", "micelle",
253
+ "permeability", "cyclodextrin", "permeability", "dendrimer", "permeability", "vesicle",
254
+ "permeability", "nanocapsule", "permeability", "nanosphere", "permeability", "microsphere",
255
+ "permeability", "microcapsule", "permeability", "nanocrystal", "permeability", "nanosuspension",
256
+ "permeability", "microemulsion", "permeability", "nanoemulsion", "permeability", "solid",
257
+ "lipid", "nanoparticle", "permeability", "nanostructured", "lipid", "carrier", "permeability",
258
+ "self", "microemulsifying", "drug", "delivery", "system", "permeability", "self",
259
+ "nanoemulsifying", "drug", "delivery", "system", "permeability", "liquid", "crystalline",
260
+ "nanoparticle", "permeability", "cubosome", "permeability", "hexosome", "permeability",
261
+ "sponge", "phase", "permeability", "bicontinuous", "microemulsion", "permeability",
262
+ "water", "oil", "microemulsion", "permeability", "oil", "water", "microemulsion",
263
+ "permeability", "water", "oil", "water", "microemulsion", "permeability", "oil", "water",
264
+ "oil", "microemulsion", "permeability", "multiple", "emulsion", "permeability", "pickering",
265
+ "emulsion", "permeability", "janus", "particle", "permeability", "core", "shell",
266
+ "nanoparticle", "permeability", "hollow", "nanoparticle", "permeability", "porous",
267
+ "nanoparticle", "permeability", "mesoporous", "nanoparticle", "permeability", "macroporous",
268
+ "nanoparticle", "permeability", "microporous", "nanoparticle", "permeability", "hierarchical",
269
+ "porous", "nanoparticle", "permeability", "ordered", "mesoporous", "nanoparticle",
270
+ "permeability", "disordered", "mesoporous", "nanoparticle", "permeability", "periodic",
271
+ "mesoporous", "nanoparticle", "permeability", "aperiodic", "mesoporous", "nanoparticle",
272
+ "permeability", "crystalline", "mesoporous", "nanoparticle", "permeability", "amorphous",
273
+ "mesoporous", "nanoparticle", "permeability", "hybrid", "mesoporous", "nanoparticle",
274
+ "permeability", "organic", "inorganic", "hybrid", "mesoporous", "nanoparticle", "permeability",
275
+ "metal", "organic", "framework", "permeability", "covalent", "organic", "framework",
276
+ "permeability", "zeolitic", "imidazolate", "framework", "permeability", "coordination",
277
+ "polymer", "permeability", "supramolecular", "polymer", "permeability", "dendrimer",
278
+ "permeability", "hyperbranched", "polymer", "permeability", "star", "polymer", "permeability",
279
+ "comb", "polymer", "permeability", "brush", "polymer", "permeability", "graft", "polymer",
280
+ "permeability", "block", "copolymer", "permeability", "random", "copolymer", "permeability",
281
+ "alternating", "copolymer", "permeability", "statistical", "copolymer", "permeability",
282
+ "gradient", "copolymer", "permeability", "periodic", "copolymer", "permeability",
283
+ "aperiodic", "copolymer", "permeability", "stereoregular", "copolymer", "permeability",
284
+ "stereoirregular", "copolymer", "permeability", "tacticity", "permeability", "isotactic",
285
+ "permeability", "syndiotactic", "permeability", "atactic", "permeability", "stereoblock",
286
+ "copolymer", "permeability", "stereogradient", "copolymer", "permeability", "stereoperiodic",
287
+ "copolymer", "permeability", "stereoaperiodic", "copolymer", "permeability", "stereoregular",
288
+ "block", "copolymer", "permeability", "stereoirregular", "block", "copolymer", "permeability",
289
+ "stereoregular", "random", "copolymer", "permeability", "stereoirregular", "random",
290
+ "copolymer", "permeability", "stereoregular", "alternating", "copolymer", "permeability",
291
+ "stereoirregular", "alternating", "copolymer", "permeability", "stereoregular", "statistical",
292
+ "copolymer", "permeability", "stereoirregular", "statistical", "copolymer", "permeability",
293
+ "stereoregular", "gradient", "copolymer", "permeability", "stereoirregular", "gradient",
294
+ "copolymer", "permeability", "stereoregular", "periodic", "copolymer", "permeability",
295
+ "stereoirregular", "periodic", "copolymer", "permeability", "stereoregular", "aperiodic",
296
+ "copolymer", "permeability", "stereoirregular", "aperiodic", "copolymer", "permeability"
297
  }
298
  _DOMAIN_ALLOWLIST_LOWER = {w.lower() for w in _DOMAIN_ALLOWLIST}
299