Vraag:
Welke databases of repositories zijn er met gegeneraliseerde SMILES voor functionele groepen?
lilott8
2016-09-16 05:31:54 UTC
view on stackexchange narkive permalink

Bestaat er een bron met de SMILES-formule van het gegeneraliseerde patroon dat de groep vertegenwoordigt?

Bijvoorbeeld: ik heb de aldehydengroep, die het patroon heeft: -CHO . Is er een bron die elke functionele groep opsomt met het generieke patroon dat de groep en zijn SMILES-representatie definieert?

Ik hoop op zijn minst de SMILES-formule te krijgen voor de functionele groepen die in deze pdf: EPA chemische compatibiliteitskaart

Vervolgvraag: is SMILES nog steeds relevant of zijn er betere manieren om chemicaliën weer te geven?

Aldehyde is gewoon "C = O"
@user34388 Behalve dat `C = O` overeenkomt met ketonen en carboxylaten naast aldehyden. De truc met functionele groepsspecificatie is om dingen * uit te sluiten * die niet overeen moeten komen, in plaats van dingen te vormen die dat wel doen. Dit is de reden waarom [SMARTS] (http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html), in plaats van SMILES, beter is voor het zoeken naar substructuren. SMARTS is eigenlijk gewoon SMILES met toevoegingen die helpen bij het zoeken.
Bedankt @R.M., Zou je dit als antwoord willen posten zodat ik je de eer kan geven (en erop kan voortbouwen in de comments?)
@lilott8 Het is echter geen antwoord op uw vraag, alleen enkele opmerkingen over het soort antwoorden dat waarschijnlijk nuttig zal zijn.
@R.M. nee, ketonen zijn 'C (= O)'
@user34388 Ik denk dat ik uw verwarring begrijp. Tekst zoeken is een slechte manier om te zoeken naar op SMILES gebaseerde substructuren. Hoewel veel ketonen SMILES `C (= O)` bevatten, hoeven ze niet: `C1CCCCC1 = O` is een volkomen geldige SMILES voor cyclohexanon. Evenzo, hoewel aldehyden vaak "C = O" bevatten, hoeven ze niet: "O = CC" is een geldige SMILES voor aceetaldehyde, net als "CC (= O) [H]". Omgekeerd is `CCOC = O` (ethylformiaat) geen aldehyde. Als zodanig voert vrijwel elk fatsoenlijk substructuur-zoekprogramma dat SMILES accepteert geen tekstzoekopdrachten uit, en zal het ketonen, esters, enz. Teruggeven voor een zoekopdracht met `C = O`.
Als het helpt, vindt u een lijst met veelvoorkomende chemische groepen en hun SMARTS op http://www.daylight.com/dayhtml_tutorials/languages/smarts/smarts_examples.html
Twee antwoorden:
Suliman Sharif
2020-05-02 21:19:58 UTC
view on stackexchange narkive permalink

Ik werk momenteel aan een contentwinkel voor een bron als deze, omdat ik me realiseerde dat ik dit ook nodig heb (en ik kwam je vraag ongeveer 2 weken geleden tegen).

Content Vairable Store

Ik schrijf een python-pakket genaamd global-chem om actief variabele gemeenschappelijke opslag (vooral voor SMILES / SMARTS) strings te ondersteunen die gemakkelijk kunnen worden gedistribueerd via pip.

https://github.com/Sulstice/global-chem

De code is vrij eenvoudig en kan een one-liner zijn:

  van global_chem import GlobalChemfunctional_groups = GlobalChem (). functional_groups_smiles  

GlobalChem is een klasse en eigenschappen van die klasse komen overeen met verschillende sets SMILES / SMARTS-snaren.

Vanaf nu heb ik

  • 93 functionele groepen voor SMILES
  • 85 functionele groepen voor SMARTS
  • 19 Amino Acid SMILES-strings

Ik vermoed dat het in de loop van de tijd meer zal groeien en waarschijnlijk naarmate ik, en anderen, eraan bijdragen.

Als je de documenten wilt lezen: https://globalchem.readthedocs.io/en/latest/?badge=latest

Validatie

Aangezien deze strings vaak moeilijk te valideren zijn, heb ik een mix van MolVS en RDKit gebruikt om er zeker van te zijn dat de strings overeenkomen zoals verwacht. Het moet waarschijnlijk ook allemaal handmatig worden getest en geverifieerd, dus gebruik het naar eigen goeddunken terwijl ik een aantal vangrails omhoog breng.

Gunther Schadow
2019-03-28 20:25:01 UTC
view on stackexchange narkive permalink

Persoonlijk vind ik het leerzaam (zelfs louterend) om mijn eigen GLIMLACHEN uit te typen en mijn eigen bronnen te maken die passen bij mijn eigen doel. Ik heb bijvoorbeeld alle 20 aminozuren zo uitgeschreven dat ik ze gewoon kon toevoegen om volledige peptiden te genereren, eiwitten uit de AA-lettersequenties, simpelweg door de SMILES-blokken ("macro's") toe te voegen die ik voor mezelf heb gemaakt.

Als je wilt dat patronen ze detecteren (matchen) in grotere moleculen, heb je een probleem omdat je regex zoals patroonvergelijking niet echt kunt gebruiken op SMILES-strings. SMARTS is daarvoor uitgevonden (zie ander antwoord hierboven, dat klopte en, op de opmerking, waarop ik niet kan antwoorden, de verstrekte link legt de relatie uit tussen SMARTS en SMILES).

Maar hoe dan ook alle structurele chemische patroonafstemming vereist het opnieuw creëren van het grafiekmodel van het molecuul.

SMILES is geweldig om structuren uit te schrijven en het is echt leerzaam om gewoon je eigen 'macro's' uit te schrijven die je vervolgens kunt samenvoegen tot grotere structuren .



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...