Welke databases of repositories zijn er met gegeneraliseerde SMILES voor functionele groepen?

lilott8

2016-09-16 05:31:54 UTC

view on stackexchange narkive permalink

Bestaat er een bron met de SMILES-formule van het gegeneraliseerde patroon dat de groep vertegenwoordigt?

Bijvoorbeeld: ik heb de aldehydengroep, die het patroon heeft: -CHO . Is er een bron die elke functionele groep opsomt met het generieke patroon dat de groep en zijn SMILES-representatie definieert?

Ik hoop op zijn minst de SMILES-formule te krijgen voor de functionele groepen die in deze pdf: EPA chemische compatibiliteitskaart

Vervolgvraag: is SMILES nog steeds relevant of zijn er betere manieren om chemicaliën weer te geven?

Aldehyde is gewoon "C = O"

@user34388 Behalve dat `C = O` overeenkomt met ketonen en carboxylaten naast aldehyden. De truc met functionele groepsspecificatie is om dingen * uit te sluiten * die niet overeen moeten komen, in plaats van dingen te vormen die dat wel doen. Dit is de reden waarom [SMARTS] (http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html), in plaats van SMILES, beter is voor het zoeken naar substructuren. SMARTS is eigenlijk gewoon SMILES met toevoegingen die helpen bij het zoeken.

Bedankt @R.M., Zou je dit als antwoord willen posten zodat ik je de eer kan geven (en erop kan voortbouwen in de comments?)

@lilott8 Het is echter geen antwoord op uw vraag, alleen enkele opmerkingen over het soort antwoorden dat waarschijnlijk nuttig zal zijn.

@R.M. nee, ketonen zijn 'C (= O)'

@user34388 Ik denk dat ik uw verwarring begrijp. Tekst zoeken is een slechte manier om te zoeken naar op SMILES gebaseerde substructuren. Hoewel veel ketonen SMILES `C (= O)` bevatten, hoeven ze niet: `C1CCCCC1 = O` is een volkomen geldige SMILES voor cyclohexanon. Evenzo, hoewel aldehyden vaak "C = O" bevatten, hoeven ze niet: "O = CC" is een geldige SMILES voor aceetaldehyde, net als "CC (= O) [H]". Omgekeerd is `CCOC = O` (ethylformiaat) geen aldehyde. Als zodanig voert vrijwel elk fatsoenlijk substructuur-zoekprogramma dat SMILES accepteert geen tekstzoekopdrachten uit, en zal het ketonen, esters, enz. Teruggeven voor een zoekopdracht met `C = O`.

Als het helpt, vindt u een lijst met veelvoorkomende chemische groepen en hun SMARTS op http://www.daylight.com/dayhtml_tutorials/languages/smarts/smarts_examples.html

Content Vairable Store

Ik schrijf een python-pakket genaamd global-chem om actief variabele gemeenschappelijke opslag (vooral voor SMILES / SMARTS) strings te ondersteunen die gemakkelijk kunnen worden gedistribueerd via pip.

De code is vrij eenvoudig en kan een one-liner zijn:

van global_chem import GlobalChemfunctional_groups = GlobalChem (). functional_groups_smiles

GlobalChem is een klasse en eigenschappen van die klasse komen overeen met verschillende sets SMILES / SMARTS-snaren.

Vanaf nu heb ik

93 functionele groepen voor SMILES

85 functionele groepen voor SMARTS

19 Amino Acid SMILES-strings

Ik vermoed dat het in de loop van de tijd meer zal groeien en waarschijnlijk naarmate ik, en anderen, eraan bijdragen.

Validatie

Aangezien deze strings vaak moeilijk te valideren zijn, heb ik een mix van MolVS en RDKit gebruikt om er zeker van te zijn dat de strings overeenkomen zoals verwacht. Het moet waarschijnlijk ook allemaal handmatig worden getest en geverifieerd, dus gebruik het naar eigen goeddunken terwijl ik een aantal vangrails omhoog breng.